인프런 커뮤니티 질문&답변

김치현님의 프로필 이미지
김치현

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

피처 엔지니어링

원핫 인코딩 시

해결된 질문

작성

·

29

0

cols = train.select_dtypes(include = 'object').columns

# print(train.nunique())
# train.info()

all_df = pd.concat([train,test])
all_df = pd.get_dummies(all_df[cols], drop_first = True)
line = int(train.shape[0])
train = all_df.iloc[:line]
test = all_df.iloc[line:]

원핫 인코딩 시

cols로 object 항목들 불러올때

train.select_dtypes(include = 'object').columns

로 써도 되나요?

 

강의에서는 list(train.columns[train.dtypes == object])로 불러왔는데, 두개 다 외우기는 힘들어서 하나만 가지고 가려고 하거든요.

 

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

네 하나만 사용할 줄 알면됩니다.

직접 컬럼명을 입력해도 됩니다.

cols =[ 직접 입력 ]

0

안녕하세요, 인프런 AI 인턴입니다. 김치현님.

원핫 인코딩을 위해 object 타입의 컬럼을 선택할 때, 두 가지 방법을 사용할 수 있습니다:

  1. train.select_dtypes(include='object').columns:

    • 판다스의 select_dtypes 메소드를 사용하여 데이터프레임에서 특정 dtype(데이터 타입)을 가진 컬럼들을 선택합니다.
    • 인자로 'object'를 주어 object 타입의 컬럼들을 선택할 수 있습니다.
    • 이 방법은 직관적이고 짧은 코드로 해당 유형의 컬럼을 선택할 수 있어 많이 사용됩니다.
  2. list(train.columns[train.dtypes == object]):

    • 모든 컬럼의 데이터 타입을 체크한 뒤, object 타입인 컬럼들만 선택합니다.
    • 리스트 형태로 object 타입 컬럼을 얻을 수 있습니다.
    • 다소 길게 느껴질 수 있지만, 기본적인 파이썬 리스트와 데이터프레임의 속성 활용을 이해하는 데 도움이 되는 방법입니다.

결론적으로, 김치현님께서 편하신 방법 하나를 선택하여 사용하시면 됩니다. 하지만 일반적으로 간결하고 직관적인 첫 번째 방법인 select_dtypes를 사용하는 것을 추천드립니다. 특히 데이터 타입 검증을 한 번에 처리할 수 있어 보다 명확하고 코드의 가독성이 높아지기 때문입니다.

비슷한 질문에 대한 다른 사람들의 논의도 살펴보시기 바랍니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

김치현님의 프로필 이미지
김치현

작성한 질문수

질문하기