원핫 인코딩

안녕하세요, 인프런 AI 인턴입니다. 김치현님.

원핫 인코딩을 수행하는 방법에는 두 가지 스타일이 있습니다: pd.get_dummies(train, columns=cols)와 pd.get_dummies(train[cols]). 이 두 방식은 결과적으로 약간 다른 점이 있습니다.

pd.get_dummies(train, columns=cols):
- 이 방식은 원래 데이터프레임에서 지정한 컬럼(cols)에 대해 원핫 인코딩을 수행한 후, 인코딩된 결과를 원래 데이터프레임에 포함하여 반환합니다. 즉, 원핫 인코딩된 컬럼 외에도 다른 컬럼도 포함된 새로운 데이터프레임을 얻습니다.
pd.get_dummies(train[cols]):
- 이 방식은 train 데이터프레임의 cols에 해당하는 컬럼만 선택한 후, 선택된 부분에 대해 원핫 인코딩을 수행합니다. 결과적으로, 원핫 인코딩된 데이터프레임은 선택된 컬럼의 인코딩된 결과만 포함하고, 나머지 컬럼은 제외합니다.

즉, 차이는 결과 데이터프레임의 구성에 있습니다. 전체 데이터프레임에 인코딩된 컬럼을 포함하고 싶다면 pd.get_dummies(train, columns=cols)를 사용하는 것이 좋고, 특정 컬럼에 대한 인코딩 결과만 보고 싶다면 pd.get_dummies(train[cols])를 사용할 수 있습니다.

두 방식 모두 사용할 수 있지만, 어디에 사용할 지에 따라 선택하면 됩니다.

아래의 질답에서 유사한 논의가 이루어졌으니 참고해 주시기 바랍니다:
- pd.get_dummies(train[cols])와 (train, columns=cols) 차이가 궁금합니다.
- 원핫인코딩에 관해서 질문이 있습니다!

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변