인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

인프런 커뮤니티 질문&답변

applefarm1225님의 프로필 이미지
applefarm1225

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형3(신 버전)

문자열 처리에 관한 질문

해결된 질문

작성

·

102

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

     

  • 강의 내용 6분 40초와 관련이 있습니다. 제가 2번 문제를 풀다가 Gender 부분을 C(Gender) 처리를 하지 않고 풀었는데 강의를 다시 보다 보니 문자열 처리를 해주는 것을 알았습니다. 근데 문자열 처리 유무와 상관없이 값이 전부 동일한 것을 보고 이렇게 질문을 드립니다. 회귀분석에서 ols가 범주형 변수가 있어도 C() 처리를 안해줘도 된다고 하셨는데 로지스틱 회귀 분석에서도 동일한지 여쭤보고 싶습니다. 왜 결과값이 문자열 처리에 상관없이 동일하게 나오는 건가요?

     

    감사합니다.

     

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

문자열 처리 유무와 상관없이 값이 전부 동일한 것을 보고 이렇게 질문을 드립니다

ols와 logit() 둘 다 자동처리 됩니다.

  • 범주형 변수가 문자열일 경우:

    • statsmodels는 범주형 변수가 문자열인 경우 이를 자동으로 인식하고 원핫 인코딩을 수행합니다.

    • 이때 C()를 사용하지 않더라도 결과가 동일하게 나옵니다.

  • 범주형 변수가 숫자로 표현된 경우:

    • statsmodels는 숫자로 표현된 변수를 기본적으로 연속형 변수로 간주합니다.

    • 이 경우 C()를 사용하지 않으면 범주형 변수가 아닌 연속형 변수로 처리되어 회귀 분석 결과가 달라질 수 있습니다.

applefarm1225님의 프로필 이미지
applefarm1225
질문자

감사합니다.

applefarm1225님의 프로필 이미지
applefarm1225

작성한 질문수

질문하기