Fine-tuning 모델 성능 지표

모두를 위한 대규모 언어 모델 LLM(Large Language Model) Part 1 - Llama 2 Fine-Tuning 해보기

Llama 2 Fine-Tuning 예제 1 - KorQuad 데이터셋에 Fine-Tuning된 Llama 2 예측(Inference) 및 ChatGPT(GPT-4)와 성능 비교

작성

509

llama2 를 fine-tuning 했을때, 다른 모델들 처럼 f1 스코어나 혹은 다른 성능 지표를 이용해 성능을 정량화 할 수 있나요?

어떤 방법이 있고 어떻게해야 fine-tuning 한 모델의 성능을 정량적으로 지표화 할 수 있을까요?

딥러닝 pytorch chatgpt llm llama

답변 2

AISchool

지식공유자

안녕하세요~. 반갑습니다.

Fine-Tuning 결과를 정량적으로 측정하는 지표는 어떤 task를 목적으로 fine-tuning하느냐에 따라 달라집니다.

예를 들어 번역 task에 fine-tuning할 경우 번역결과에 대한 성능을 측정할때 일반적으로 사용하는 BLEU 지표가 얼마나 개선되는지 정량적으로 측정하고,

Language Modeling task에 fine-tuning할 경우 Language Modeling에 대한 성능을 측정할때 일반적으로 사용하는 Perplexity 지표가 얼마나 개선되는지를 정량적으로 측정합니다.

다양한 NLP 각 task 별로 어떤 지표가 정량적 지표로 주로 활용되는지는 아래 강의 영상들을 참조하세요.

GPT-2 (2019) 모델 논문 리뷰 - Experiments
GPT-3 (2020) 모델 논문 리뷰 - Results 1

좋은 하루 되세요.

감사합니다.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.
llama2 모델을 fine-tuning할 때, 다른 모델처럼 F1 스코어와 같은 다양한 성능 지표를 사용하여 성능을 정량화 할 수 있습니다.
Fine-tuning된 모델의 성능을 정량적으로 평가하기 위해서는 다음과 같은 방법을 사용할 수 있습니다:

평가 데이터셋 준비: 모델의 성능을 평가하기 위해 별도의 테스트셋을 준비합니다. 이 데이터셋은 모델이 학습 과정에서 보지 못한 새로운 데이터로 구성되어야 합니다.
성능 지표 선택: F1 스코어, 정확도(accuracy), 정밀도(precision), 재현율(recall), ROC-AUC 등 특정 태스크에 적합한 성능 지표를 선택합니다. 예를 들어, 클래스 불균형이 있는 경우 F1 스코어가 더 유용할 수 있습니다.
평가 실행: 모델을 테스트셋에 적용하여 예측을 수행하고, 실제 라벨(label)과의 비교를 통해 선정한 지표에 따른 성능을 계산합니다.
하이퍼파라미터 튜닝: 필요한 경우 다양한 하이퍼파라미터를 조정하며 모델의 성능을 개선합니다. 이 과정에서는 교차 검증(cross-validation)을 통해 모델의 일반화 능력을 평가할 수 있습니다.

모델의 성능을 개선하기 위해 데이터 전처리, 더 많은 데이터 추가, 다른 모델 아키텍처 시도 등의 추가적인 방법도 고려해볼 수 있습니다.

인프런 커뮤니티 질문&답변

Fine-tuning 모델 성능 지표