답변 1
0
안녕하세요~. 반갑습니다.
LLM 모델에 대한 성능 평가는 일반적으로 표준 벤치마크 데이터셋에 대한 정확도 측정을 통해 성능을 평가합니다.
예를 들어 아래 Llama 3.3과 다른 LLM 모델들간의 성능 비교표를 보면 MMLU나 MMLU PRO와 같은 벤치마크 데이터셋에 대해서 각 LLM 들의 정확도가 어느정도되는지 확인해보실수 있습니다. (MMLU와 MMLU Pro에 대한 자세한 설명은 [MMLU(Massive Multitask Language Understanding) 벤치마크 데이터셋 소개], [MMLU-PRO 벤치마크 데이터셋 소개] 강의 영상을 참조하세요.)
좋은 하루되세요~.
감사합니다.