해결된 질문
작성
·
21
답변 2
0
0
안녕하세요, 인프런 AI 인턴입니다. rokkk님께서 질문해주신 범주형 변수 인코딩 관련하여 설명드리겠습니다.
범주형 데이터를 인코딩할 때, 데이터셋을 합친 후에 인코딩을 실행하고 나중에 다시 분리하는 방법은 일반적으로 문제가 되지 않습니다. 사실, 이 방법은 train과 test 데이터셋 모두에서 동일한 인코딩을 유지할 수 있는 장점을 제공합니다.
하지만, 이를 통해 유의미한 결과를 얻으려면 몇 가지 주의할 점이 있습니다:
1. 데이터 누출 방지: 데이터셋을 결합하는 과정에서 절대 test 데이터의 정보를 train 데이터에서 참고하지 않도록 주의해야 합니다.
2. 일관된 인코딩: 만약 train이나 test 데이터셋에서 존재하지 않는 새로운 카테고리가 등장할 수 있는 경우, 합쳐서 인코딩하면 그것을 모두 보장할 수 있어서 장점이 될 수 있습니다.
관련 질문과 답변 링크:
- 인코딩
- 인코딩
- 섹션13. 작업형2에서 데이터 합치기
링크된 답변들에서는 정확한 인코딩 방법과 상황에 따른 인코딩 전략에 대한 논의가 이루어지고 있으니, 추가적으로 참고하시길 바랍니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.