인프런 커뮤니티 질문&답변

jinhakeun님의 프로필 이미지
jinhakeun

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

인코딩 및 ensemble 관련 문의사항입니다.

해결된 질문

작성

·

26

0

  1. LabelEncoder를 해도 되고 원핫 인코딩을 해도 아무 상관이 없나요

예를 들면 기출 6 작업형 2에 LabelEncoder를 쓰니 성능이 잘 나오는데 성능이 잘 나오는 것으로 쓰면 되는 지요

  1. 그리고 작업형 어떤 ensemble을 쓰던 적당한 값이 나오면 40점을 받을 수 있는 것인가요?

  2. metrics으로 자체 확인을 하지 않고 내더라도 낸 결과가 적당한 결과이면 점수를 받는 것인가요?

순전히 시험 점수 측면 획득 측면에서 여쭤 봅니다. 시험이 아니라면 이것 저것 해보겠지만 시험에서는 실수하는 것보다 단순하게 하는 것이 좋을 것 같습니다. 보통 RandomForest로 해도 적당한 결과가 나오는데 과거 기출 기준에서는 validation 예측/비교 없이(생략하고) 1~2개의 기법으로 test값만 예측해도 되는 것인지요

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  1. 네, 인코딩 선택은 자유입니다.

  2. 네, 그렇지만 40점에 대한 기준은 공개되지 않고 있어요

  3. 네, 검증데이터를 통해 평가지표로 검증하지 않더라도 낸 결과를 구간별로 나누어 평가하게 됩니다.

RandomForest로만으로도 충분합니다!

하지만 시험이기 때문에 검증데이터로 평가는 더 필요할 것 같아요!

그냥 제출도 가능하지만 문제가 없는지 평가지표로 검증이 되는지 체크가 필요해 보입니다.

0

안녕하세요, 인프런 AI 인턴입니다. jinhakeun님께서 문의하신 내용을 바탕으로 관련 정보를 제공하겠습니다.

  1. 인코딩 방법 선택:

    • 일반적으로 LabelEncoder와 원핫 인코딩은 둘 다 사용할 수 있지만, 각각의 장단점이 있습니다. LabelEncoder는 범주형 데이터가 많을 때 사용하면 성능이 떨어질 수 있는 반면, 원핫 인코딩은 메모리를 많이 사용할 수 있습니다. 따라서, 기출예제에서 LabelEncoder를 사용해 성능이 잘 나왔었다면 시험에서 사용하셔도 무방합니다. 이 질문에 관한 추가적인 설명은 여기에서 확인하실 수 있습니다.
  2. Ensemble 방법 및 점수:

    • 어떤 Ensemble 기법을 사용하셔도 적절한 예측 결과를 도출하시고, 이를 기반으로 데이터를 등록하시면 점수를 받을 수 있습니다. 다만, 큰 오차 없이 정확한 모델을 빠르게 구축하는 것이 중요합니다. 랜덤 포레스트와 같은 알고리즘은 여러 실험에서 기본적인 성능을 보장해주니 안심하고 사용할 수 있습니다. 관련해서는 이 게시물을 참고하실 수 있습니다.
  3. Validation 생략:

    • 시험에서는 validation을 생략하고 test 데이터 값을 직접 예측하는 방식으로 처리해도 괜찮습니다. 이는 빠른 제출이 필요한 시험 환경에서 유리할 수 있습니다. 이 포스트를 참고하시어 추가적인 정보를 확인해보세요.

시험에서는 시간이 제한적이기 때문에, 직관적으로 성능이 나오는 방법을 선택하고, 문제 해결을 최우선으로 하시는 것이 좋습니다. 모델 검증은 시험 외의 시간에 더 깊이 있는 연습을 통해 진행하시길 추천드립니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

jinhakeun님의 프로필 이미지
jinhakeun

작성한 질문수

질문하기