GPT1과 GPT2 학습 차이

인프런 커뮤니티 질문&답변

김동현

작성한 질문수

모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기

GPT-2 (2019) 모델 논문 리뷰 - Experiments

작성

161

안녕하세요 강사님 좋은 강의 감사드립니다.

GPT2파트쪽 강좌를 들으면서 GPT1에서 설명하신 모델이 헷갈려서 문의드립니다.

GPT1의 경우 마지막 출력으로 다음 토큰에 대한 소프트맥스 값과 TASK에 대한 소프트맥스 값이 출력되고 각 레이블 값에 의해 학습되는 것이라 이해하였는데 해당 모델 구조가 그림상으론 같이 표현되어 있는데 처음에 비지도학습시엔 토큰에 대한 예측값만으로 학습하고 파인튜닝시엔 두가지 출력을 모두 활용하여 학습한다고 이해하는 것이 맞나요??

또한, GPT2에선 테스크에 대한 소프트맥스값으로 학습한다는 개념이 빠지고 오로지 다음 토큰에 대해서만 학습한다는 개념이 맞을까요?

딥러닝 pytorch chatgpt llm llama

답변 1