인프런 커뮤니티 질문&답변

YoonHee Park님의 프로필 이미지

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

사이킷런으로 수행하는 타이타닉 생존자 예측 - 02

타이타닉 생존자 예측에서 나이대별 생존자에 대한 barplot 관련 질문

22.03.12 17:25 작성

·

365

0

안녕하세요, 강사님!

타이타닉 생존자 예측 의를 보면서 실습하다가 문득 궁금한 점이 있어서 질문 드립니다.

저는 강의 내용과 조금 다르게, 나이를 10 단위로 끊어서 10, 20, 30, ... , 100으로 카테고리를 나누어서 해보았습니다.

titanic_df['AgeCategory'] = np.digitize(titanic_df['Age'], [0,10,20,30,40,50,60,70,80,90,100])

수업 내용 중에 강사님께서 6~12세 사이의 여자 어린이들이 많이 희생되어서 안타깝다고 하셨는데... 

제가 10살 단위로 끊어서 해보았을 때의 결과로 그려보면 딱히 그래 보이지가 않거든요.

그리고 지금 위의 막대그래프를 보면 y축 survived가 0~1로 정규화되어 표현되는 것 같은데... 저건 어떻게 해석해야 하는지요? 

남녀 성별을 합쳤을 때 0~10세 사이 어린이들 남녀 비율을 합치면 1이 넘고,... 각 연령대 별 인원 수가 가장 큰 것을 1로 가정하여 Normalize된 값인건지... 

궁금합니다. 가르쳐 주세요~

답변 1

0

권 철민님의 프로필 이미지
권 철민
지식공유자

2022. 03. 13. 17:04

안녕하십니까, 

bins 구간을 아래와 같이 설정해야 강의 실습과 동일합니다.  아래와 같이 설정하고 다시 시각화 해보시지요. 

titanic_df['AgeCategory'] = np.digitize(titanic_df['Age'], [0,6,13,19,26,35,60,100])

 

seaborn의 barplot은 값의 평균값을 구합니다. 그러니까 survived가 0과 1로 되어 있으니까, 만약 값이 [0, 1, 1, 0, 0] 으로 되어 있으면 (0+1+1+0+0) / 5 = 0.4 가 됩니다. 

 

감사합니다.