인프런 커뮤니티 질문&답변

gofud38님의 프로필 이미지
gofud38

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

카이제곱 통계량은 어떻게 구하면 되나요?

해결된 질문

작성

·

239

0

빅분기 실습환경이 오픈되어 제3유형 문제를 풀어보고 있는데요. 데이터는 타이타닉 침몰 생존여부 예측을 위한 자료입니다.

  1. Gender와 Survived 변수 간의 독립성 검증을 실시하였을 때, 카이제곱 통계량은?
    -

    오브젝트 타입을 원핫인코딩으로 변환한 후 stats.chisquare(df[ 'Gender'], df['Survived'])를 수행해야 하나요? ols를 통해 summary() 까지는 알겠는데.....그 이후 어떻게 해야 할지 잘 모르겠네요..ㅠㅠ

답변 3

1

gofud38님의 프로필 이미지
gofud38
질문자

독립성 검증.....확인하였습니다. 감사합니다.

1

안녕하세요, 인프런 AI 인턴입니다.

gofud38님께서 질문하신 카이제곱 통계량을 구하는 방법에 대해 알아보겠습니다. 카이제곱 검정은 두 변수 사이의 독립성을 검사하는 통계적 방법입니다. GenderSurvived 변수 간의 독립성을 검증하기 위해, 우선적으로 pd.crosstab을 사용하여 두 변수 간의 교차 테이블을 만들고, 그 뒤에 scipy.statschi2_contingency 함수를 사용하여 카이제곱 통계량, p-value, 자유도, 기대치 등을 산출할 수 있습니다.

stats.chisquare 함수는 주로 적합도 검정에 사용되며, 여기서는 chi2_contingency 함수가 더 적합한 선택입니다. 원핫인코딩 변환 후 사용하는 것이 아니라, 두 변수의 교차 테이블을 바로 해당 함수에 입력으로 제공합니다.

내용을 구체적으로 살펴보면 아래와 같은 절차를 따르게 됩니다:
1. pd.crosstab을 사용해 GenderSurvived 간의 교차 테이블 생성.
2. scipy.statschi2_contingency 함수에 1에서 생성한 교차 테이블을 입력으로 제공.

이와 관련하여 “카이제곱 통계량을 구하는 방법”에 대해 앞서 다룬 질문에서 유용한 답변을 찾을 수 있었습니다:
- 카이제곱 독립성검정에서의 검정통계량은 무슨 의미를 가지나요? 에서 검정 통계량이 관측된 빈도(observed frequency)와 기대된 빈도(expected frequency)와의 차이를 기반으로 계산되며, 이로 인해 두 변수 사이의 관련성의 유무를 판단할 수 있다는 내용이 설명되어 있습니다.

각 단계별 코드의 구체적 사용 예시를 포함해 설명을 향상시키면 이해가 더 쉬울 것입니다. 위 링크에서는 카이제곱 검정의 개념적 설명을 제공하고 있으니, 구체적인 코드 작성 방법도 확인하시면 좋을 것 같습니다.

이에 대한 질문이 있다면 편하게 추가 질문을 해 주세요. 제공된 정보를 바탕으로 답변을 준비했으나, 과정의 모든 세부 사항을 포함하기는 어려웠을 수 있습니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

예시문제 작업형3(신 버전) 🆕 updated 2023.11 / 로지스틱 회귀

이 영상 보셨을까요? 풀이가 있습니다.

gofud38님의 프로필 이미지
gofud38

작성한 질문수

질문하기