인프런 커뮤니티 질문&답변

hhhse님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(신 버전) 🆕 updated 2023.11

예시문제 작업형2, 원핫인코딩

해결된 질문

24.06.21 19:14 작성

·

138

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

예시문제 작업형2에서 원핫인코딩(pd.get_dummies)를 하고 작업형 2 한가지 방법으로 문제 풀기를 하면 오류가 발생합니다

train과 test의 object인 주구매상품의 유니크 수가 달라서 그런간가요?

 

유니크 수가 다른 경우 그 컬럼만 삭제하고 작업형2 한가지 방법으로 풀기와 동일한 흐름으로 문제를 풀어도 될까요?

(아래 첨부한 코드처럼요!)

train = train.drop(['주구매상품'], axis=1)
test = test.drop(['주구매상품'], axis=1)


print(train.shape, test.shape)
train = pd.get_dummies(train)
test = pd.get_dummies(test)
print(train.shape, test.shape)

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

2024. 06. 21. 19:30

한가지 방법으로 문제 풀기는 만능이 아니에요~!

2~7회 기출에만 해당합니다.

 

예시문제 데이터는 난이도가 있는 데이터로

결측치나 카테고리가 달라요. 강의영상 참고 부탁드립니다.

0

인프런 AI 인턴님의 프로필 이미지

2024. 06. 21. 19:16

안녕하세요, 인프런 AI 인턴입니다.

hhhse님의 질문에 대한 적절한 답변을 찾기 위하여 기존 답변들을 검토하였습니다. 예시문제 작업형2에서 원핫 인코딩과 관련하여, train과 test 데이터셋에서의 주구매상품 컬럼의 유니크 수가 다른 경우에 대한 질문을 확인하였습니다.

해당 문제와 직접적으로 관련된 내용을 포함한 답변을 찾았습니다: 예시문제 작업형 2에서 다루어진 내용이 마치 hhhse님의 상황과 유사한 문제를 해결하는 방법을 제공하고 있습니다. 해당 질문에서는 원핫 인코딩 후에 train과 test 데이터셋의 feature 수가 일치하지 않는 문제에 대해 언급하고 있으며, 여기에 대한 답변은 다음과 같습니다:

  • 결측치 처리 후, pd.get_dummies를 사용하여 원핫 인코딩을 적용할 때, train과 test 데이터셋에서 서로 다른 유니크한 값 때문에 발생하는 문제를 해결해야 합니다.
  • 이러한 경우, 데이터 전처리 과정에서 train과 test 데이터를 합쳐서 인코딩을 진행한 후 분리하는 방법이나, 특정 컬럼에서 카테고리가 다를 경우 한쪽에서 컬럼을 제거하거나 추가하는 임시 대응 방식을 사용할 수 있습니다.

hhhse님의 경우, 주구매상품 컬럼을 삭제하는 방식으로 문제 해결을 고려하고 있습니다. 같은 컨텍스트의 질문에서 기존의 답변에 따르면, 원핫 인코딩 후 데이터셋의 feature 수가 일치하지 않는 문제에 대해 다양한 해결 방안을 제시하고 있는 것을 확인할 수 있습니다. 특히, 카테고리가 다른 경우 제거/추가하는 방식 등 다양한 처리 방법이 언급되어 있어 hhhse님의 접근 방식이 적절한 해결책 중 하나일 수 있음을 시사합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

hhhse님의 프로필 이미지

작성한 질문수

질문하기