인프런 커뮤니티 질문&답변

김태범님의 프로필 이미지
김태범

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

Kaggle T-23

해결된 질문

작성

·

185

0

import pandas as pd
df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv')
df = df.sort_values('f1', ascending = False)
f1_10 = df.iloc[9, 3]
print(f1_10)

df['f1'] = df['f1'].fillna(f1_10)
print(df.shape)

median1 = df['f1'].median()
df = df.drop_duplicates(subset = ['age'])
print(df.shape)

median2 = df['f1'].median()

print(median1)
print(median2)
print(abs(median2 - median1))

위와 같이 코드 작성시 결과가

88.0
(100, 8)
(71, 8)
77.5
75.0
2.5

로 나옵니다. 원래 풀이에는 중복값제거 중앙값이 77로 나와있는데 저는 코드를 수정해봐도 어디에 문제가 있는지 잘 모르겠습니다! 혹시 제 코드 어디에 문제가 있는걸까요?

답변 1

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

캐글 자료는 무료 콘텐츠로 검증을 거치지 않아 미흡할 수도 있다는 점 우선 안내드려요~

차이는 정렬한 데이터프레임에서 중복제거와 정렬전 데이터프레임에서 중복제거 때문에 발생한 현상입니다.

제가 문제를 더 명확히 했어야했네요!! :)

김태범님의 프로필 이미지
김태범

작성한 질문수

질문하기