인프런 커뮤니티 질문&답변

김동현님의 프로필 이미지
김동현

작성한 질문수

모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기

GPT-2 (2019) 모델 논문 리뷰 - Experiments

GPT1과 GPT2 학습 차이

작성

·

161

0

안녕하세요 강사님 좋은 강의 감사드립니다.

GPT2파트쪽 강좌를 들으면서 GPT1에서 설명하신 모델이 헷갈려서 문의드립니다.

GPT1의 경우 마지막 출력으로 다음 토큰에 대한 소프트맥스 값과 TASK에 대한 소프트맥스 값이 출력되고 각 레이블 값에 의해 학습되는 것이라 이해하였는데 해당 모델 구조가 그림상으론 같이 표현되어 있는데 처음에 비지도학습시엔 토큰에 대한 예측값만으로 학습하고 파인튜닝시엔 두가지 출력을 모두 활용하여 학습한다고 이해하는 것이 맞나요??

 

또한, GPT2에선 테스크에 대한 소프트맥스값으로 학습한다는 개념이 빠지고 오로지 다음 토큰에 대해서만 학습한다는 개념이 맞을까요?

 

 

답변 1

0

AISchool님의 프로필 이미지
AISchool
지식공유자

안녕하세요~. 반갑습니다.

먼저 강의를 잘 듣고 계시다니 기쁘네요^^.

 

GPT1의 경우 마지막 출력으로 다음 토큰에 대한 소프트맥스 값과 TASK에 대한 소프트맥스 값이 출력되고 각 레이블 값에 의해 학습되는 것이라 이해하였는데 해당 모델 구조가 그림상으론 같이 표현되어 있는데 처음에 비지도학습시엔 토큰에 대한 예측값만으로 학습하고 파인튜닝시엔 두가지 출력을 모두 활용하여 학습한다고 이해하는 것이 맞나요??

 

->

말씀해주신 바가 맞습니다. 제대로 이해하고 계신 것 같습니다.

 

또한, GPT2에선 테스크에 대한 소프트맥스값으로 학습한다는 개념이 빠지고 오로지 다음 토큰에 대해서만 학습한다는 개념이 맞을까요?

->

네. 맞습니다. 이부분도 제대로 이해하고 계신 것 같습니다.

좋은 하루 되세요.

감사합니다.

 

 

김동현님의 프로필 이미지
김동현

작성한 질문수

질문하기