작성한 질문수
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
해결된 질문
작성
·
172
수정됨
0
선생님 안녕하세요, 3유형 공부하다가 궁금한 점이 있어서 질문남깁니다.
선형회귀분석에서 독립변수가 범주형일 경우에 원핫인코딩 처리를 안하고, C( )처리를 안해도 자동으로 인코딩이 되는건가요??
반면에 anova에서는 꼭 C ( )를 붙여야 범주화변수 처리가 되나요???
답변 1
문자로 되어 있는 경우 붙이지 않아도 되지만
범주형인데 숫자로 되어 있다면 붙여 줘야 합니다. 🙂
앗 그럼 범주형인데 숫자로 되어 있는 경우에 C 붙이는 것이 선형회귀, 로지스틱회귀, 분산분석에 모두 해당하는건가요!!?
숫자로 되어 있는데 범주형인지, 수치형인지 구분이 불가능할 경우에 모두 C를 붙여도 무방한가요!?ㅜㅠㅠㅠ
아니요! 모두 붙이면 안됩니다. 회귀 분석에서 모두 붙여 버리면 에러가 나거나 이상한 결과가 도출됩니다.
숫자인데 범주형이라면 문제에서 명시하거나 상식적으로 누구나 알만한 변수 일 것으로 예상됩니다.
선생님 그러면 회귀분석과 분산분석 모두 문자로 된 범주형 변수는 자동으로 인코딩이 되고, 숫자로 되어 있는 범주형만 C로 묶어주는 걸로 이해하면 될까요!!?
네 맞습니다.
앗 그럼 범주형인데 숫자로 되어 있는 경우에 C 붙이는 것이 선형회귀, 로지스틱회귀, 분산분석에 모두 해당하는건가요!!?
숫자로 되어 있는데 범주형인지, 수치형인지 구분이 불가능할 경우에 모두 C를 붙여도 무방한가요!?ㅜㅠㅠㅠ