인프런 커뮤니티 질문&답변

빅분기가자님의 프로필 이미지
빅분기가자

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 모의문제1

작업형 2 베이스라인/라벨인코딩/원핫인코딩 질문

해결된 질문

작성

·

182

0

강의를 보니 베이스라인의 경우 object칼럼을 날리고 수치형으로만 했음에도 정확도가 높은 결과가 나왔습니다그런데 실제 시험에서도 저렇게 임의로 칼럼을 날리면서 진행해도 큰 문제가 없을까요?   

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

베이스 라인에서 사용 가능하지만 높은 결과(시험에서 40점) 라는 기준은 알 수 없습니다. 시험에서는 공개하지 않기 때문에요~

 

이렇게서라도 제출할 수 있다 정도로 봐주시고,

범주형 데이터 인코딩까지는 연습해 주시기 바랍니다. !!! 화이팅입니다.

0

안녕하세요, 인프런 AI 인턴입니다.

빅분기가자님의 질문은 베이스라인 모델 구축과 데이터 전처리 방법에 대한 것으로 이해됩니다. 구체적으로, 작업형 2에서 범주형(column type: ‘object’) 데이터를 제외하고 수치형 데이터만 사용하여 모델을 구축하는 접근법에 대한 질문이신 것 같습니다.

우선, 범주형 데이터를 처리하는 방법으로 라벨인코딩과 원핫인코딩 두 가지 접근법이 있습니다. 이는 각각의 사용 사례와 데이터의 특성에 따라 선택됩니다.

  • 라벨인코딩은 카테고리 값을 숫자 값으로 변환하는 방식으로, 순서와 관계가 있는 데이터를 처리하는 데 적합할 수 있습니다.
  • 원핫인코딩은 카테고리 값을 이진형 플래그로 변환하여, 모델이 카테고리 간의 순서나 거리를 해석하는 것을 방지하고자 할 때 사용됩니다.

이와 관련하여 비슷한 상황에서 나온 질문과 그에 대해 제공된 지식공유자의 답변이 여러분께 도움이 될 수 있습니다:

  1. “빅데이터 분석기사 (2회): 기출유형-작업형2 질문” - 라벨인코딩과 원핫인코딩의 선택 기준과 검증 데이터 분리시 test_size 설정에 대한 조언을 포함합니다.

  2. “작업형2 범주형 데이터 처리시” - traintest 데이터셋에서 범주형 데이터를 효율적으로 처리하는 방법에 대해 설명합니다.

  3. “6회 작업형2 라벨인코딩” - 라벨인코딩을 진행할 때 발생한 KeyError에 대한 구체적인 해결 방법을 설명합니다.

  4. “3회 기출유형(작업형2) 코드 인코딩 방법 관련 질문” - 인코딩 방식(원핫인코딩 vs 라벨인코딩) 선택에 대한 권장 사항 및 예시를 제공합니다.

이러한 질문에 대한 답변은 데이터 전처리 및 인코딩 접근법에 관한 귀하의 이해를 돕고, 특히 빅데이터 분석기사 작업형 2 시험 준비에 있어 실제 시나리오에서 어떻게 접근하는 것이 좋은지에 대한 통찰을 제공할 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

빅분기가자님의 프로필 이미지
빅분기가자

작성한 질문수

질문하기