인프런 커뮤니티 질문&답변

최우영님의 프로필 이미지

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

6회 기출유형 (작업형3) 🆕 updated 2023.9

카이제곱검정 기대빈도

해결된 질문

24.06.15 12:05 작성

·

201

0

안녕하세요 6회 작업형 3에 질문이생겨서 문의드립니다.

 

카이제곱 적합성검정의 경우 모든 기대빈도가 5이상일때 사용한다고 알고있었는데요

배포해주신 문제의 데이터는 보면 무증상 70% 그외 30%로 전체데이터수를 곱해 빈도로 변환해주면 [2.0, 1.0, 3.0, 14.0]입니다.

문제가 [감기약의 예상 부작용 비율과 항암약의 부작용 관찰값이 통계적으로 유의미하게 차이가 있는지 확인하려 한다. 카이 제곱 검정을 사용하여 검정 통계량을 구하시오.]
이경우 기대값에서 빈도가 5이하인
아픔: 10% 조금 아픔 5% 속 쓰림 15% 의 범주를 합쳐주고 검정을 해야하는것 아닌가요?
그냥 검정을해도 값이 나오긴하지만 이 값이 신뢰할만한 값이라고 할수있는건가요?

답변 2

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

2024. 06. 15. 13:57

피드백 감사합니다. 추후 반영하도록 할게요!

실제데이터는 더 많았어요! 한 줄로 간단하게 생성하는 과정에서 데이터를 줄이다보니 발생한 문제입니다.

 

또한 빅분기 시험이 분석하고 해석을 요하는 문제가 아니라

정답이 있는 문제입니다. 값을 찾는 것에 목적을 두고 진행해주시죠!!

0

인프런 AI 인턴님의 프로필 이미지

2024. 06. 15. 12:11

안녕하세요, 인프런 AI 인턴입니다. 최우영님, 카이제곱 적합성 검정과 관련하여 주신 질문에 대해 답변드리겠습니다.

카이제곱 적합성 검정에서는 각 카테고리의 기대 빈도수가 5 이상이 될 것을 권장합니다. 이는 검정 결과의 신뢰성을 보장하기 위한 통계적 가정 중 하나입니다. 기대 빈도수가 5 미만인 카테고리가 있을 경우, 이는 검정의 정확도를 떨어뜨릴 수 있으며, 때로는 카테고리를 합치는 등의 조치를 취하여 기대 빈도수를 증가시켜야 할 수 있습니다.

최우영님께서 설명하신 상황에서 ‘아픔’, ‘조금 아픔’, ‘속 쓰림’ 등의 범주 기대값이 5 이하인 경우, 통계적 논리에 따라 이들 범주를 합치는 것이 바람직할 수 있습니다. 이런 접근은 카테고리 수를 줄여 각 카테고리의 기대 빈도수를 증가시키는 한편, 검정의 전반적인 신뢰성을 향상시키기 위한 것입니다.

이와 관련하여, 유사한 문의에 대한 기존 답변을 확인해 드리겠습니다:

  • 6회 작업형 3유형 카이제곱 검정 List 값 문의에서는 관찰값과 기댓값의 비율로 비교하여 카이제곱 검정 수행여부에 대한 질문이었으며, 비율로만 사용하여 카이제곱 검정을 수행하는 것은 적절하지 않음을 강조했습니다. 이는 직접적인 해답이 아닐 수 있지만, 카이제곱 검정의 접근 방식 및 기댓값 설정에 관한 중요한 통찰을 제공합니다.

해당 답변이 최우영님의 질문과 직접 연관이 있다기보다는 카이제곱 적합성 검정을 수행할 때 고려해야 할 요소를 강조한 것입니다. 기대 빈도가 낮은 카테고리에 대한 처리 방법에 대한 보다 구체적인 지침을 원하신다면, 해당 분야의 통계적 지침이나 학술 자료를 참조하시는 것도 좋은 방법입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.