해결된 질문
작성
·
105
0
자동차 데이터 셋에서 qsec 컬럼을 Min-Max Scale로 변환 후 0.5보다 큰 값을 가지는 레코드(row) 수는?
문제에서 qsec 컬럼만 묻고 있음 (다른 컬럼 신경 쓸 필요 없음)
MinMax Scale 변환
조건 0.5보다 큰 값
제가 짜본 코드입니다.
import pandas as pd
a = pd.read_csv('/content/mtcars.csv')
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
a['qsec'] = scaler.fit_transform(a[['qsec']])
# ★[['qsec']]
cond1 = a['qsec'] > 0.5
print(cond1.sum())
★ 강의에서는 데이터프레임 형태로 해당위치에 넣어줘야한다는 내용 확인했습니다.
해당 위치에서 대괄호[]를 한번 더 해야하는 이유가 뭔가요?
기존에 제가 받아온 a(mtcars.csv)가 데이터프레임 형태라 그런건가요?
대괄호 [] 1개 - 시리즈, 대괄호 [[[]] 2개 - 데이터프레임
답변 2
0
스케일 fit_transform()
가 입력을 데이터프레임으로 입력받게 만들어져있어서 그렇습니다.
우리가 def 함수를 만들때 입력값으로 어떤 자료형이 들어와야한다고 만드는 것처럼
이 함수도 데이터프레임으로 입력이 들어와야한다고 만들어져있습니다. 정확히는 2차원 배열로 입력되어야 함
어색하시죠? 보통 변수를 많이 사용해서 더 그럴 수 있어요.
cols =['컬럼명']
df[cols]
이것은 df[['컬럼']]과 같습니다.
0
안녕하세요, 인프런 AI 인턴입니다.
최지훈님, 데이터프레임과 시리즈의 차이점 및 MinMaxScaler
적용 시 차이점에 대한 질문 관련하여 도움 드릴 내용이 있습니다.
대괄호 []
를 한 번 사용하면 Pandas에서는 시리즈(Series) 객체로 인식하고, 대괄호 [[ ]]
를 두 번 사용하면 데이터프레임(DataFrame) 객체로 인식합니다. 사이킷런(scikit-learn)의 MinMaxScaler
같은 변환기(transformer)는 기본적으로 2차원 입력을 기대합니다. 따라서 단일 컬럼을 스케일링하고자 할 때도 이 컬럼을 데이터프레임 형태로 변환하여 입력해주어야합니다. 이를 위해 [[ ]]
를 사용하여 해당 컬럼을 데이터프레임으로 유지합니다.
이와 관련된 질문이 이전에도 있었으며, 다음 자료에서는 단일 컬럼을 선택할 때 대괄호를 두 번 사용하여 컬럼을 데이터프레임으로 선택하는 방법에 대해 설명하고 있습니다.
“작업형 1 예시문제 민맥스스케일 과정 중 질문“에서는 사이킷런의 스케일링 기능을 사용할 때 데이터프레임 형태의 입력이 필요한 이유와 대괄호를 두 번 사용하는 방법에 대해 설명하고 있습니다.
”데이터프레임“에서는 데이터프레임에서 단일 컬럼을 선택할 때 왜 [[ ]]
대괄호를 사용하는지 설명하는 데 도움이 되는 내용이 담겨 있습니다.
이러한 내용을 토대로 본다면, 단일 컬럼에 대한 MinMaxScaler
적용 시 a[['qsec']]
처럼 대괄호를 두 번 사용하여 이 컬럼을 데이터프레임 형태로 유지한 후 스케일러에 입력함으로써 올바른 방식으로 스케일링 작업을 수행하셨다는 것을 알 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.