작성자 없음
작성자 정보가 삭제된 글입니다.
22.11.30 16:52 작성
·
329
0
안녕하세요 선생님~
유튜브로 강의 수강한 학생입니다.
인프런에 강의 수록되어있는 것 확인 후 문의글 남깁니다.
선생님께서 알려주신대로 코드 작성하면서 궁금했던 점 3가지가 있습니다.
빅데이터분석기사 실기 응시할때, 더미생성하고 파생변수생성 후에, 기존 변수칼럼은 삭제를 안해도 되는지 궁금합니다.
MinMaxScaler로 스케일링 작업시에 모든 칼럼의 변수가 1과 0 사이가 아니어도 크게 문제가 되지않나요? 모든 컬럼의 수치를 모두 0과 1사이의 값을 가질수 있게 0과 1사이의 값을 갖고 있지않은 나머지 컬럼 모두 스케일링 해야하는 것인지 궁금합니다. 예를 들면, 파생변수 생성으로 만든 컬럼 등의 데이터도 모두 스케일링 해야하는지 궁금해요.
모델학습시에 pred1 = pd.DataFrame(model1.predict(X_valid)) 로 데이터프레임을 감싸지않고,pred1 = model1.predict(X_valid)로 코드입력해도 결과값이 나오던데 상관없을까요??
바쁘시겠지만 답변부탁드립니다.
감사합니다.
답변 1
2
2022. 12. 02. 08:54
말씀해주신 질의에 대한 답변입니다.
파생변수를 만드는 목적이 제공된 데이터에서 도메인 지식을 접목하여 학습에 용이하게 추가 정보를 생성한다는 것인데요, 평가지표를 통해 비교 평가해서 판단하시면 좋을 듯 합니다.(무조건 두어야 한다. 지워야 한다. 이런건 아닙니다.)
연속형 값에 대해서만 스케일 작업으로 데이터 표준화를 진행하고, 범주형 변수는 하지 않습니다.
(범주형 변수는 문자형을 숫자로 인코딩을 함)
동일하게 나오시면 생략해도 될 것 같습니다.
수고하세요.