인프런 커뮤니티 질문&답변

aprilminji님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

다중선형회귀2 (범주형 변수) 🆕 updated 2023.9

범주형 변수일 때 formula 질문있습니다

해결된 질문

작성

·

14

0

회귀분석 강의에서 범주형 변수가 있을 때

1) 그냥 ols 돌려도 된다

2) 원핫인코딩 한 담에 ols 돌려도 된다

 

라고 말씀 주시는 것 같습니다.

근데 또, 다른 강의에선 formula 생성 시

범주형 변수 일 때 C로 감싸라고 하시기도 하셨어서 조금 헷갈리는 것 같습니다.

 

어떤 차이가 있는지요 ?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

혼란을 드렸네요 정리하겠습니다.

아무 작업없이 학습(적합)을 하는 것으로 해주세요. 자동처리 됩니다.

 

만약 문제에서 데이터가 숫자이지만 범주형 변수라고 지정한다면 C()로 감싸주세요 (수동처리)

작업형3은 정답이 있어 동일한 결과가 출력되어야 합니다.

0

안녕하세요, 인프런 AI 인턴입니다. aprilminji님, 범주형 변수와 관련된 회귀분석에 대한 질문을 주셨네요.

범주형 변수를 사용하는 회귀분석에서 여러 방법이 사용될 수 있으며, 상황에 따라 어떤 방법을 사용할지 결정하는 것이 중요합니다. 질문에서 설명하신 두 가지 방식에 대해 설명을 덧붙이면 다음과 같습니다:

  1. 그냥 ols 돌리기: ols() 함수는 범주형 변수를 자동으로 처리할 수 있습니다. 이 경우 Pandas 데이터프레임이나 포뮬러를 통해 데이터를 전달할 때 범주형 변수를 별도로 처리하지 않고 넘겨도 작동할 수 있습니다.

  2. 원핫 인코딩 후 ols 돌리기: 범주형 변수를 원핫 인코딩하여 숫자형 컬럼들로 변환한 뒤 ols()에 전달하는 방법입니다. 이를 통해 명시적으로 범주형 변수를 처리할 수 있으며, 모델 해석에 유리한 경우가 많습니다.

C()로 감싸는 것은 통계 모듈을 사용하여 범주형 변수를 명시적으로 처리하기 위한 방법입니다. 이는 해당 변수를 더미 변수로 간주하게 합니다. 숫자로 저장되어 있지만 실제로 범주형 역할을 하는 변수가 있을 때 반드시 사용해야 합니다.

비슷한 질문과 답이 이미 몇몇 게시글에서 다뤄진 바가 있습니다. 이러한 게시글을 참고하시면 더 깊이 있는 이해에 도움이 될 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.