해결된 질문
작성
·
36
0
강사님, 혹시 transformer 훈련 마친 모델 공유 가능할까요?
pt-en
en-kr 강의중에 언급하신 버젼
colab에서 직접 돌려보다가 런타임이 계속 끊겨서 실패하다 요청드립니다ㅠ
덕분에 nlp에 많은 도움을 받고 있습니다. 감사합니다 :)
답변 2
1
Original Transformer Tutorial (https://www.tensorflow.org/text/tutorials/transformer#export_the_model)을 그대로 Colab 에서 실행 시켜도 동일한 현상이 발생하는 것을 확인하였습니다. 최근 Google 이 OpenAI에 밀리면서 과거와 달리 Tensorflow 최신 버전을 불완전한 상태로 release 하고 있는 것 같습니다. 다음과 같이 tensorflow 를 현재의 2.17.0 에서 이전의 안정된 2.15.0 version 으로 downgrade 하여 문제를 해결하였습니다. github source 도 update 해 놓았습니다.
# 현재의 tensorflow version 삭제 !pip uninstall --y tensorflow
# tensorflow version downgrade
!pip install tensorflow==2.15.0
# downgrade 되었는지 확인
import tensorflow as tf
print(tf.__version__)
# Downgrade된 TensorFlow의 버전에 맞는 package 설치
!apt install --allow-change-held-packages libcudnn8=8.1.0.77-1+cuda11.2
# Install the compatible cuDNN version for CUDA 11.8
!apt install --allow-change-held-packages libcudnn8=8.1.0.77-1+cuda11.2
# Uninstall existing TensorFlow and related packages
!pip uninstall -y -q tensorflow keras tensorflow-estimator tensorflow-text
# Install the required protobuf version
!pip install protobuf~=3.20.3
# Install TensorFlow Datasets
!pip install -q tensorflow_datasets
# Install TensorFlow 2.15.0 and TensorFlow Text 2.15.0
!pip install -q -U tensorflow-text==2.15.0
이렇게 하시면 T4 GPU 기준 Colab 으로 1시간 이내에 training 작업 끝낼 수 있습니다. 다른 문제 발생하면 알려주세요. 감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
jinho kim님, 트랜스포머 훈련을 마친 모델을 구하는 데 어려움을 겪고 계신 점 이해합니다. 강의 중 언급된 버전으로 완성된 모델을 직접 공유 받기 어려운 경우, 강사님께 직접 요청하시거나 강의 자료에서 제공되는 링크와 리소스를 활용하여 실행할 수 있습니다.
트랜스포머 등 대형 모델 훈련 시, Colab같이 제한된 환경에서는 훈련이 끊기는 일이 빈번하게 발생할 수 있습니다. 이 점 때문에 여러 강좌에서 GPU 사용법 최적화나 세션 재개 방법 등을 제공하고 있지만, 장기적으로는 Google Cloud Platform(GCP) 등의 클라우드 환경에서 더 안정적인 GPU 인스턴스를 활용하시는 것이 좋습니다.
현재 훈련된 모델을 직접 공유 받기 원하신다면, 아래 링크와 정보를 참조하여 강의의 Q&A 섹션에 질문을 올리시면 더 구체적인 안내를 받으실 수 있을 것입니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.