인프런 커뮤니티 질문&답변

김호준님의 프로필 이미지
김호준

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

모델링 및 평가(회귀)

결측치 처리관련 질문입니다.

해결된 질문

작성

·

29

0

안녕하세요 결측치 관련 질문드립니다

1.시험에서 test 데이터가 주어질시

제가 test데이터 행을 삭제하지 않아야 하는것은 인지했습니다.

그러나 test 데이터의 결측치를 제 임의대로 값을 넣어도 되는것인가요?

강의를 보니 이상치를 컨트롤하는 케이스는 거의없으나

결측치는 object는 최빈값 int,float은 중앙값이나 0 을 대입하는데

모든경우에 통일되는 방법인가요?

혹은 시험장에서 여러가지 결측치 처리 방법을 전부 알고가서 하나하나 검증하며

가장 값이 높은걸 넣어야 하나요

  1. 시험장에서 A로 평가하겠다 하면 검증을 통해 나오는 수치가 A를통해 보통 몇 이상이 나와야 제출할수 있을까요?

     

답변 3

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

1

정확히 이해하셨습니다. test데이터 행삭제 금지

그외 모든 결측치 처리는 자유롭게 하되 검증데이터 성능을 기준으로 하면됩니다.

단 train과 test는 동일하게 처리해 주세요

 

2

시험에서 보통 몇 이상이란 것이 없습니다.

0.9점대가 40점이었을 때도 있고 0.6점대가 40점이었을 때도 있어요

데이터에 따라 달라집니다.

 

전처리를 최소화한 베이스라인점수를 기준으로 놓고
다른 전처리를 통해 개선이 되면 개선된 결과를 제출하고 아니면 베이스라인 코드를 제출하면 됩니다.

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

1

정확히 이해하셨습니다. test데이터 행삭제 금지

그외 모든 결측치 처리는 자유롭게 하되 검증데이터 성능을 기준으로 하면됩니다.

단 train과 test는 동일하게 처리해 주세요

 

2

시험에서 보통 몇 이상이란 것이 없습니다.

0.9점대가 40점이었을 때도 있고 0.6점대가 40점이었을 때도 있어요

데이터에 따라 달라집니다.

 

전처리를 최소화한 베이스라인점수를 기준으로 놓고
다른 전처리를 통해 개선이 되면 개선된 결과를 제출하고 아니면 베이스라인 코드를 제출하면 됩니다.

0

안녕하세요, 인프런 AI 인턴입니다. 김호준님의 결측치 처리 관련 질문에 대해 답변 드리겠습니다.

결론적으로, 시험 환경에서 결측치 처리를 할 때는 몇 가지 중요한 요소를 고려해야 합니다.

  1. 결측치 대체 방법:

    • 일반적으로, 수치형 데이터(int, float)의 결측치는 평균값 또는 중앙값으로 대체하는 것이 일반적입니다. 이는 여러 상황에서 모델의 분포를 유지하며 성능 저하를 방지할 수 있는 방법입니다.
    • 범주형 데이터(object)의 경우에는 최빈값으로 결측치를 대체하는 방법이 주로 사용됩니다.
  2. 테스트 데이터의 결측치 처리:

    • 테스트 데이터의 결측치는 임의대로 값을 넣기보다는, 훈련 데이터(train)에서 계산된 통계량을 사용하여 대체하는 것이 일반적입니다. 이는 데이터 누수의 위험성을 줄이고 일관성을 유지하는 데 도움을 줍니다.
  3. 여러 결측치 처리 방법의 검토:

    • 결측치를 처리하는 방법은 여러 가지가 있습니다. 시험장에서 최적화를 위해 다양한 방법을 시험해 보고 검증을 통해 최상의 결과를 이끌어낼 수 있는지를 확인하는 것이 좋습니다. 하지만, 여러 가지 방법을 직접 시험하면서 모든 경우에 대해 높은 정확도를 보장할 수 있는 방법에 대해 사전 연구와 연습이 필요할 것입니다.
  4. 시험에서의 스코어링

    • 시험 환경에서 평가를 받기 위한 기준은 문제 및 데이터의 특성에 따라 달라질 수 있지만, 사전 훈련 및 검증 과정을 통해 특정 처리 방법이 일관되게 높은 성능을 보인다면 그 방식으로 결측치를 처리해 제출하는 것이 유리할 수 있습니다.

작업형 시험 환경에서는 처리 방법 자체보다는 방법의 일관성과 그것이 자주 사용되는 목적이 더 중요합니다. 데이터를 해석하고, 그 특성에 맞게 처리하는 능력을 보여주는 것이 목표입니다.

관련 질문 링크로는 아래를 참고해 보세요:
- test 데이터의 결측치 처리: 해당 링크를 확인해 보시면 비슷한 결측치, 이상치 처리에 대한 논의가 진행되었습니다.

김호준님이 추가적으로 참고할 수 있는 링크들을 통해 더 심도 깊은 이해를 도모하기 바랍니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

김호준님의 프로필 이미지
김호준

작성한 질문수

질문하기