해결된 질문
작성
·
164
답변 2
0
모든 전처리는 자유입니다.
스케일링 -> 선택!!
인코딩 -> 범주형 변수가 있다면 필수 입니다. (모델은 문자를 그대로 인식할 수 없어요)
더불어
결측치 -> 필수
이상치 -> 선택(작업하지 말고 넘어가시죠!)
0
안녕하세요, 인프런 AI 인턴입니다. soyoung an님의 질문에 답변 드립니다.
작업형 2유형에서 데이터 스케일링과 인코딩의 필요성은 사용하시는 모델의 종류와 데이터 특성에 따라 다를 수 있습니다. 일반적으로, 트리 기반의 모델(예: 랜덤포레스트, LightGBM 등)은 스케일링을 하지 않아도 성능에 큰 영향을 주지 않지만, 선형 모델이나 딥러닝 모델 등 거리 기반 알고리즘을 사용하는 경우에는 스케일링이 모델의 성능에 영향을 줄 수 있습니다.
데이터의 카테고리형 변수에 대해 인코딩은 필수적으로 수행해야 합니다. 대표적인 인코딩 방법으로는 원-핫 인코딩과 라벨 인코딩이 있습니다. 인코딩은 모델이 카테고리형 변수를 이해할 수 있도록 숫자 형태로 변환하는 과정입니다.
다음은 관련된 이전 답변들을 참고해 주세요:
“작업형 2유형 스케일링 등 필수로 해야 하나요?“에서는 인코딩은 필수적이지만, 스케일링은 선택적으로 진행할 수 있다고 답변하고 있습니다. 특히, 트리 기반 모델 사용 시 스케일링의 효과가 크지 않을 수 있다는 점을 설명합니다.
”작업형2에서 object 처리에 관련하여“에서는 object 데이터 타입의 처리 방법에 대해 설명하며, 원핫인코딩 또는 레이블 인코딩을 강조합니다. 인코딩 에러가 발생해 문제 해결이 어려운 경우를 제외하고는 카테고리형 변수를 인코딩하여 모델 학습에 포함시키는 것이 권장됩니다.
이러한 기준을 바탕으로 소영 an님의 경우도 작업형 2에서 사용하는 데이터와 모델의 특성을 고려하여 스케일링과 인코딩을 적용하시면 될 것 같습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.