인프런 커뮤니티 질문&답변

작성자 없음

작성자 정보가 삭제된 글입니다.

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

단순선형회귀 🆕 updated 2023.9

C를 사용하는 법

해결된 질문

작성

·

234

0

  • 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!

  • 질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요

  • 먼저 유사한 질문이 있었는지 검색해보세요

수치형이면서 범주형인 값에 C값을 넣어주면 되는거 맞나요?

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

네, 맞습니다. 수치형이면서 범주형인 값에 'C()' 함수를 사용하는 것은 해당 변수를 범주형으로 명시적으로 처리하도록 모델에게 지시하는 것입니다. 예를 들어, '1', '2', '3'과 같은 수치가 실제로는 '소형', '중형', '대형'과 같은 범주를 나타내는 경우에 해당합니다.

작업형2를 예를 들어 모델을 만들 때 범주형 변수가있다면 인코딩처리를 했었어요!

작업형3에서 사용하는 ols(회귀), logit(로지스틱회귀)는 범주형 변수가 있다면 자동으로 이를 (원핫인코딩)처리 해줍니다. 하지만 여전히 숫자일 인 범주형 변수 그러니깐 1등급, 2등급으로 작성된 것이 아니라 1, 2로 장성된 변수는 별도 범주형 변수로 인식시켜줘야 해요

이때 C()를 사용합니다.

분산분석에서는 독립변수가 범주형 변수이니 숫자만 C()로 묶어도 되고, 습관적으로 독립변수 모두를 각각 C()로 묶어도 됩니다.

 

그 동안 작업형2에서는 범주형 변수가 숫자더라도 그냥 나뒀습니다. 레이블 인코딩과 별반 다를 것이 없어서요! 그런데 작업형3은 p값 등의 정답이 있는 문제여서 정확하게 처리할 필요가 있어요

작성자 없음

작성자 정보가 삭제된 글입니다.

질문하기