작성
·
246
0
안녕하세요. 수업 잘 듣고 있습니다.
Sentiment analysis - IMDB - part1 수업자료에서 질문이 있습니다.
지금까지 머신러닝을 배워 일하다가 llm 모델을 사용하기 시작해서 수업을 듣고있는데, 보통 머신러닝에서는 training data의 비중이 test data보다 크잖아요. (0.75:0.25 / 0.8:0.2 등등).
그런데 이 파일에서 training sentence와 test sentence의 크기가 똑같던데, 대부분의 경우 같은건가요? 그렇다면 이유는 뭔가요?
답변 2
1
IMDB는 긍정적인 리뷰 12,500개와 부정적인 리뷰 12,500개, 총 25,000개의 리뷰로 구성된 훈련 세트와 같은 크기의 테스트 세트로 구성되어 있습니다.
동일한 크기의 훈련 및 테스트 데이터셋을 사용하면 모델의 성능을 정확하고 공정하게 평가할 수 있습니다. 특히 여러 모델을 비교 평가할 때 동일한 크기의 훈련 및 테스트 데이터셋을 사용하면 일관성 있고 공정한 비교가 가능합니다.
일반적으로 훈련 데이터셋이 테스트 데이터셋보다 큰 것이 좋지만, 데이터셋의 특성, 모델의 복잡성, 오버피팅과 언더피팅 문제 등 여러 요소를 고려하여 적절한 비율을 선택하는데, language model의 경우 25000 개의 data는 매우 적은 데이터이므로 오버피팅이 발생할텐데 예를 들어 45000 대 5000 으로 구분하여도 어차피 오버피팅이 될 수 밖에 없습니다 . 따라서, IMDB 데이터셋의 훈련 및 테스트 데이터 갯수가 동일한 것은 그 데이터셋의 특별한 경우이며, 이는 모든 데이터셋이나 프로젝트에서 일반적으로 적용되는 것은 아닙니다.
좋은 질문 감사합니다.
0
답변 감사합니다. 그렇다면 languag model에서 최적의 훈련데이터 갯수를 정하기 위해서는 어떤 방법을 써야하나요? 아니면 대략적으로 llm모델에서 데이터 양이 적다/많다 라고 말할 수 있는 갯수가 정해진게 있나요?
자연어 처리(NLP) 문제, 특히 감정 분석과 같은 태스크에서는 데이터의 복잡성이 높습니다. 각 리뷰는 다양한 단어, 문구, 문맥을 포함하고 있으며, 이러한 다양성을 캡처하려면 많은 양의 데이터가 필요합니다. 따라서, 25,000개의 데이터는 특히 리뷰 데이터의 경우 다양한 표현, 단어 사용 패턴, 문맥 등을 충분히 포함하지 못할 수 있습니다. IMDB의 경우 작업이 너무 오래 돌면 강의 목적상 부적합하므로 작동 원리만 알 수 있도록 작은 크기로 만들어져 있습니다.
데이터 양이 적다/많다를 구체적으로 기준을 정하기는 어렵지만 예를 들어 유명한 감정분석 데이터셋인 Stanford Sentiment Treebank dataset은 215,154개의 data로 구성되어 있으므로 대략 IMDB의 10배 정도가 적당한 크기로 생각됩니다. 감사합니다.