Robustscaler 질문

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

예시문제 작업형2(신 버전)

해결된 질문

작성

227

수치형은 robustscaler를 사용하려고 하는데여

from sklearn.preprocessing import RobustScaler
scaler = RobustScaler()
cols = x_train.select_dtypes(exclude='object')
for col in cols:
    x_train[col] = scaler.fit_transform(x_train[col])
    x_test[col] = scaler.transform(x_test[col])

이렇게 하면 ,ValueError: Expected 2D array, got 1D array instead:

array=[ 888. 1308. 151. ... 173. 1244. 893.].

Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

이런 오류가 납니다... 어떻게 수정해야 하나여

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

우선

스케일링: 반복문 필요 없음
레이블인코딩: 반복문 필요함

반복문을 제거하고 col->cols로 컬럼을 한번에 입력하면 해결됩니다

왜 에러가 발생했냐면요

스케일링에 반복문을 적용하므로 col 이라는 컬럼 1개만 선택해서 입력값으로 넣었어요

컬럼 1개만 선택하면 자료형은 시리즈입니다 df[‘컬럼’]

그런데 사이킷런에서 제공하는 스케일링은 입력값으로 데이터프레임을 입력으로 받아요 컬럼 1개를 선택했을 때도 데이터프레임으로 만들려면 df[[‘컬럼’]] 이렇게 만들어줄 필요가 있어요

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.

질문하신 "RobustScaler"의 사용과 관련하여, 1차원 배열 대신 2차원 배열을 기대하는 오류에 대해 해결 방법을 안내드리겠습니다.

오류 메시지에서 언급한 것처럼, RobustScaler는 2차원 배열을 입력으로 받습니다. 하지만 for 루프를 사용하여 컬럼을 하나씩 전달하게 되면, Pandas는 기본적으로 해당 컬럼을 1차원 배열로 반환합니다. 이를 해결하기 위해서는 각 컬럼을 2차원 배열의 형태로 전달해야 합니다. 다음과 같이 코드를 수정할 수 있습니다:

from sklearn.preprocessing import RobustScaler
scaler = RobustScaler()
cols = x_train.select_dtypes(exclude='object').columns
for col in cols:
    x_train[[col]] = scaler.fit_transform(x_train[[col]])  # 2차원 배열 형태로 변경
    x_test[[col]] = scaler.transform(x_test[[col]])  # 2차원 배열 형태로 변경

이때 x_train[[col]]의 형태는 Pandas의 DataFrame을 반환하므로 2차원 배열로 처리됩니다. fit_transform과 transform 메소드에 적절한 형태로 입력값을 제공하여 오류를 해결할 수 있습니다.

비슷한 상황으로 질문하신 내용과 관련된 유용한 답변을 찾았습니다:
- “작업형2 모의문제1“에서 스케일러를 사용할 때 ValueError를 해결하는 방법에 대해 설명하고 있습니다. 이는 스케일러의 입력값으로 데이터 프레임 형태(2차원 배열)를 넣어주어야 한다는 것을 잘 보여줍니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

Robustscaler 질문