<pre class="hljs"><code>import pandas as pd
df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv')
df = df.sort_values('f1', ascending = False)
f1_10 = df.iloc[9, 3]
print(f1_10)

df['f1'] = df['f1'].fillna(f1_10)
print(df.shape)

median1 = df['f1'].median()
df = df.drop_duplicates(subset = ['age'])
print(df.shape)

median2 = df['f1'].median()

print(median1)
print(median2)
print(abs(median2 - median1))</code></pre>위와 같이 코드 작성시 결과가<pre class="hljs"><code>88.0
(100, 8)
(71, 8)
77.5
75.0
2.5</code></pre>로 나옵니다. 원래 풀이에는 중복값제거 중앙값이 77로 나와있는데 저는 코드를 수정해봐도 어디에 문제가 있는지 잘 모르겠습니다! 혹시 제 코드 어디에 문제가 있는걸까요?

캐글 자료는 무료 콘텐츠로 검증을 거치지 않아 미흡할 수도 있다는 점 우선 안내드려요~ 차이는 정렬한 데이터프레임에서 중복제거와 정렬전 데이터프레임에서 중복제거 때문에 발생한 현상입니다.제가 문제를 더 명확히 했어야했네요!! :)

인프런 커뮤니티 질문&답변

Kaggle T-23