해결된 질문
작성
·
185
0
import pandas as pd
df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv')
df = df.sort_values('f1', ascending = False)
f1_10 = df.iloc[9, 3]
print(f1_10)
df['f1'] = df['f1'].fillna(f1_10)
print(df.shape)
median1 = df['f1'].median()
df = df.drop_duplicates(subset = ['age'])
print(df.shape)
median2 = df['f1'].median()
print(median1)
print(median2)
print(abs(median2 - median1))
위와 같이 코드 작성시 결과가
88.0
(100, 8)
(71, 8)
77.5
75.0
2.5
로 나옵니다. 원래 풀이에는 중복값제거 중앙값이 77로 나와있는데 저는 코드를 수정해봐도 어디에 문제가 있는지 잘 모르겠습니다! 혹시 제 코드 어디에 문제가 있는걸까요?
답변 1
0
캐글 자료는 무료 콘텐츠로 검증을 거치지 않아 미흡할 수도 있다는 점 우선 안내드려요~
차이는 정렬한 데이터프레임에서 중복제거와 정렬전 데이터프레임에서 중복제거 때문에 발생한 현상입니다.
제가 문제를 더 명확히 했어야했네요!! :)