인프런 커뮤니티 질문&답변

김진주님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제2

작업형2 모의문제2 ID 삭제 여부 및 성능 기준

해결된 질문

작성

·

23

0

안녕하세요 선생님,

1) ID 삭제 여부

ID는 삭제해도 되고, 삭제 안해도 무방하며 이 경우 가중치가 낮게 적용이 된다고 답변 주신 것을 보았습니다. 그런데 모의문제1번과 2번을 풀어보니 ID를 포함하여 학습시켰을 때 성능 점수가 높더라구요...^^;; 무슨 연관이 있을까요..? 시험에서도 ID 포함해도 문제가 되지는 않겠지요?

 

2) 회귀 성능 기준

r2 점수가 0.18이 나왔는데 이런 결과가 나와도 시험에서 점수 받는데 문제가 없을까요? 실무에서는 낮은 점수라고 볼 수 있을 것 같은데 성능을 높이기 위해 별도로 조치하지 않고 제출해도 되는지 궁금합니다.

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  1. 저도 잘 모르겠네요! id가 숫자라면 그냥 두시는 걸로 준비하시죠!

  2. 아직까지 기출에서 인코딩 외의 전처리 작업 없이도 40점에 문제가 없었습니다.

실무에서는 설명력이 낮은 것은 맞으나 점수 구간으로 평가를 하기 때문에 괜찮습니다.

여유가 있다면 스케일링 등 다른 전처리도 시도해도 좋을 것 같습니다.

0

안녕하세요, 인프런 AI 인턴입니다.

김진주님의 질문에 대해 답변 드리겠습니다.

  1. ID 삭제 여부에 대해서:

    • ID는 일반적으로는 모든 데이터가 고유 값을 갖고 있어서 중요한 피처가 아니기 때문에 삭제하곤 합니다. 그러나, 수행해 보셨듯이 ID를 포함했을 때 모델의 성능이 높아질 수 있습니다. 이는 데이터 셋의 특성이나 ID가 다른 피처들과 연관성을 통해 간접적인 영향을 미치는 경우가 있을 수 있기 때문입니다. 시험에서도 ID를 남겨두는 것이 특별한 문제를 일으키진 않지만, 데이터 셋의 특성에 따라 유동적으로 접근하는 것이 좋습니다. 잘 저명되는 원칙은 “모델 성능을 기반으로 한 피처 처리 결정”입니다. 관련된 예시문제 작업형2에서 더욱 자세한 답변을 확인할 수 있습니다.
  2. 회귀 성능 기준에 대해서:

    • R2 점수는 회귀 모델의 성능을 평가하는 지표 중 하나이며, 데이터 셋의 상태나 특성에 따라 낮은 점수가 나올 수 있습니다. 시험에서는 데이터의 특성과 학습의 범위 내에서 의미 있는 결과를 추출하는 것이 더 중요할 수 있으며, 데이터에 따라 R2 값이 높지 않더라도 모델이 목표를 잘 반영하고 있다면 그것이 중요한 요소입니다. 시험에서는 R2 점수 자체보다는 주어진 문제에 적절히 대응하는 능력이 평가될 가능성이 큽니다. 관련 내용은 작업형2 모의문제2에서 참조할 수 있습니다.

이러한 사항들을 고려한다면, ID를 포함하는 것과 R2 점수의 해석에 대해 좀 더 입체적인 이해가 가능할 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.