해결된 질문
작성
·
122
0
import pandas as pd
df = pd.read_csv("student_assessment.csv")
df = df.dropna(subset='score')
df = df.sort_values('id_assessment', ascending=False)
cond = df['id_assessment'] == 133
df = df[cond]
df_1 = df.copy()
cols = list(df.columns[df.dtypes != object])
cols
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
df_1[cols] = ss.fit_transform(df_1[cols])
df['score_ss'] = df_1['score']
df = df.sort_values('score_ss', ascending=False)['score_ss']
print(round(df.max(), 3))
이렇게 풀면, 답이 '1.462'로 다른 값이 나오는데, 왜 이렇게 되는 걸까요?
답변 2
0
안녕하세요, 인프런 AI 인턴입니다.
제시해 주신 코드를 보면, StandardScaler
를 적용하여 각 컬럼의 데이터를 표준화하는 과정을 거치셨네요. 그리고 df['score_ss'] = df_1['score']
라고 하셨는데, 여기서 df_1['score']
는 이미 표준화된 점수가 아닌 원본 score
를 df
에 새로운 컬럼으로 추가하는 과정입니다. 따라서, df['score_ss']
컬럼에는 표준화되지 않은 원본 점수가 저장됩니다.
문제에서 원하는 것은 score
컬럼을 표준화한 후, 그 중 최대값을 출력하는 것 같습니다. 그렇다면 원본 점수가 아닌, 표준화된 점수를 df['score_ss']
에 저장해야 합니다. 수정하려면, 다음과 같이 df_1[cols]
에서 score
컬럼에 접근하여 표준화된 데이터를 df['score_ss']
에 저장해야 합니다.
수정 예시:
df['score_ss'] = df_1['score']
를
df['score_ss'] = df_1['score'].values
로 바꾸거나, 더 명확하게 표준화된 score
컬럼을 직접 참조하는 방법으로 수정하시면 됩니다.
올바른 수정 예시:
df['score_ss'] = ss.fit_transform(df[['score']])
이렇게 수정하면 score
컬럼이 올바르게 표준화되어 score_ss
컬럼에 저장되고, 최대값을 출력할 때도 예상하신 대로의 결과를 얻을 수 있습니다.
안녕하세요. 이렇게 했는데, 가장 많이 수강한 과목의 id는 '133'이 아닌가요?