4-1 작업형 예시 질문 있습니다

문제2

문제가 지금 이런 형식인데요.

제가 궁금한 것은, 결측치의 크기를 판단하는 판단하는 위치입니다.

'f1' 칼럼을 dropna 하게되면 다른 행들도 영향을 받아서 결측치가 들어있는 행도 같이 날라가게 되는데

각 칼럼별 결측치의 크기를 판단하는 위치는 모든 작업을 수행하기 전에 하는 것이 맞을까요?

<제가 푼 코드>

# your code

import pandas as pd

import numpy as np

pd.set_option('display.max_columns', None)

# file load

file_path = "/content/drive/MyDrive/Colab Notebooks/빅데이터 분석기사/1. 작업형1/"

df = pd.read_csv(file_path+"members.csv")

check = []

# find na over 30%

for col in list(df.columns):

check.append(df[col].isnull().sum()/len(df))

for col, check in zip(list(df.columns), check):

if check >= 0.3:

df = df.dropna(subset=col)

elif check < 0.3 and check >= 0.2:

df[col] = df[col].fillna(df[col].mode()[0])

print(len(df[df['f3'] == 'gold']))

<강의에서 알려준 코드>

# 풀이

import pandas as pd

df = pd.read_csv("members.csv")

# print(df.isnull().sum())

# print(len(df) * 0.3)

# f1 삭제

# f3 최빈값

# print(df.shape)

df = df.dropna(subset=['f1'])

# print(df.shape)

# print(df.head())

df['f3'] = df['f3'].fillna(df['f3'].mode()[0])

# print(df.head())

# df.isnull().sum()

print(sum(df['f3'] == 'gold'))