해결된 질문
작성
·
20
답변 2
0
id값이 숫자라면 삭제를 해도 되고 하지 않아도 머신러닝 모델에서 중요도를 낮게 판단합니다.
-> 정리
id가 숫자일 때는 모델에 입력 데이터로 넣어도 된다.
단 문자일 때는 삭제하거나 숫자로 변환이 필요하다.
그리고 id가 모든 다른값(유저id)이 아니라 상품id와 같이 중복id가 있는 값이라면 삭제하면 안되고 살려야 합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
jaewon03561님, 질문해주신 작업형 2 모의 문제에 대해 설명드리겠습니다.
문제에서 train
데이터셋에서 id
를 삭제하는 이유는 모델 학습에 있어서 데이터의 고유 식별자인 id
는 예측 정확도에 영향을 미치지 않는 불필요한 변수이기 때문입니다. id
는 각 데이터 포인트를 구별하는 역할을 하지만, 예측 모델이 학습할만한 유용한 패턴이나 정보를 제공하지 않으므로 일반적으로 제거하는 것이 좋습니다.
반면 test
데이터에서 id
를 pop
하여 다른 변수에 저장한 후 사용하는 이유는 예측 결과를 저장할 때 각 데이터 포인트를 식별하기 위해 id
가 필요하기 때문입니다. 예를 들어, 예측된 결과를 제출할 때 id
와 예측값을 함께 저장하여 평가자가 각각의 데이터 포인트에 대한 결과를 쉽게 확인할 수 있도록 하는 것이 일반적입니다.
또한, 모델 예측에 있어 `id는 특성으로 포함되지 않는 경우가 일반적이며, 모델의 성능에 영향을 미치지 않도록 전처리 과정에서 제거하지만, 최종 제출 시에는 결과와 함께 식별을 위해 사용됩니다.
유사한 질문 내용과 기존 답변이 포함된 게시물을 추천드립니다. 참고해 보세요:
- 데이터나누기/자체예측하기/출력 전 데이터프레임만들기
- 작업형 유형 2 전처리할 때 id 삭제하는 이유가 뭔지 궁금합니다.
위 링크의 게시물들은 id
를 삭제하는 이유와 최종 결과물 작성 시의 필요성에 대해 설명하고 있으며, 다양한 상황에서의 전처리 방법에 대한 예시도 포함되어 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.