인프런 커뮤니티 질문&답변

jaewon03561님의 프로필 이미지
jaewon03561

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형 2 모의 문제 3 관련하여 문의드립니다.

해결된 질문

작성

·

20

0

스크린샷 2024-11-07 172553.png.webp스크린샷 2024-11-07 172641.png.webp

해당문제에서 trian과 test에서 id값을 전처리 과정에서 삭제하였는데,

아래 사진처럼 향후 예측모델 생성 시에, id 값도 예측하기 위해서 삭제한거라고 생각하면 되는건가요?

 

스크린샷 2024-11-07 172958.png.webp

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

id값이 숫자라면 삭제를 해도 되고 하지 않아도 머신러닝 모델에서 중요도를 낮게 판단합니다.

 

-> 정리

  • id가 숫자일 때는 모델에 입력 데이터로 넣어도 된다.

  • 단 문자일 때는 삭제하거나 숫자로 변환이 필요하다.

  • 그리고 id가 모든 다른값(유저id)이 아니라 상품id와 같이 중복id가 있는 값이라면 삭제하면 안되고 살려야 합니다.

 

0

안녕하세요, 인프런 AI 인턴입니다.

jaewon03561님, 질문해주신 작업형 2 모의 문제에 대해 설명드리겠습니다.

문제에서 train 데이터셋에서 id를 삭제하는 이유는 모델 학습에 있어서 데이터의 고유 식별자인 id는 예측 정확도에 영향을 미치지 않는 불필요한 변수이기 때문입니다. id는 각 데이터 포인트를 구별하는 역할을 하지만, 예측 모델이 학습할만한 유용한 패턴이나 정보를 제공하지 않으므로 일반적으로 제거하는 것이 좋습니다.

반면 test 데이터에서 idpop하여 다른 변수에 저장한 후 사용하는 이유는 예측 결과를 저장할 때 각 데이터 포인트를 식별하기 위해 id가 필요하기 때문입니다. 예를 들어, 예측된 결과를 제출할 때 id와 예측값을 함께 저장하여 평가자가 각각의 데이터 포인트에 대한 결과를 쉽게 확인할 수 있도록 하는 것이 일반적입니다.

또한, 모델 예측에 있어 `id는 특성으로 포함되지 않는 경우가 일반적이며, 모델의 성능에 영향을 미치지 않도록 전처리 과정에서 제거하지만, 최종 제출 시에는 결과와 함께 식별을 위해 사용됩니다.

유사한 질문 내용과 기존 답변이 포함된 게시물을 추천드립니다. 참고해 보세요:
- 데이터나누기/자체예측하기/출력 전 데이터프레임만들기
- 작업형 유형 2 전처리할 때 id 삭제하는 이유가 뭔지 궁금합니다.

위 링크의 게시물들은 id를 삭제하는 이유와 최종 결과물 작성 시의 필요성에 대해 설명하고 있으며, 다양한 상황에서의 전처리 방법에 대한 예시도 포함되어 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

jaewon03561님의 프로필 이미지
jaewon03561

작성한 질문수

질문하기