소개
강의
전체 7수강평
게시글
질문&답변
2022.12.02
작업2유형 문의
말씀해주신 질의에 대한 답변입니다.파생변수를 만드는 목적이 제공된 데이터에서 도메인 지식을 접목하여 학습에 용이하게 추가 정보를 생성한다는 것인데요, 평가지표를 통해 비교 평가해서 판단하시면 좋을 듯 합니다.(무조건 두어야 한다. 지워야 한다. 이런건 아닙니다.)연속형 값에 대해서만 스케일 작업으로 데이터 표준화를 진행하고, 범주형 변수는 하지 않습니다.(범주형 변수는 문자형을 숫자로 인코딩을 함)동일하게 나오시면 생략해도 될 것 같습니다. 수고하세요.
- 0
- 1
- 333
질문&답변
2022.12.02
데이터셋 분리와 관련하여 질문이 있습니다.
안녕하세요.데이터가 많을 때는 큰 문제가 안됩니다.다만, 데이터가 부족할 경우 훈련용 데이터에만 있는 속성으로학습하여 예측을 할 경우 오류가 발생합니다.예를 들면 훈련용 데이터의 변수가 옷의 색깔(빨강, 노랑)로 학습한 후테스트 데이터 예측시 테스트 데이터의 변수(빨강, 노랑, 파랑)가 일 경우기존에 없었던 속성이 있으므로 에러가 발생합니다.이상입니다.
- 0
- 1
- 328
질문&답변
2022.11.15
구름 IDE
안녕하십니까 빅데이터활용센터팀입니다. 오류부분 확인을 위해 복사한 코드와 실행 화면 캡쳐본을 답변으로 남겨주시면 확인 후에 성심껏 답변 드리겠습니다. 감사합니다.
- 0
- 2
- 568
질문&답변
2022.07.04
[공지] 데이터 전처리 관련 오류 수정
수정된 강의 소스는 아래 화면과 같이 업로드를 하였습니다. 해당 페이지에서 "강의 소스코드" 클릭하시면 됩니다. (사진)
- 4
- 1
- 405
질문&답변
2022.06.23
라벨인코더 관련 문의드립니다!
안녕하세요. 질의하신 내용에 대하여 답변을 드립니다. 우선 test 데이터에 대하여 fit을 하지 않는게 맞습니다.(코드 오기입니다. ) 라벨인코딩은 숫자가 아닌 레이블 형태의 데이터를 숫자로 변환하는 작업을 말하며, 이때 레이블 인코더를 맞추는 작업(fit)과 인코딩된 레이블을 반환하는(transform) 작업이 함께 존재합니다. 금번 제공된 강의에서 훈련용 데이터와 테스트 데이터에 각각 fit을 적용하다 보니 테스트 데이터에 없는 레이블이 존재하는 경우 오류가 발생하였습니다. 따라서 라벨인코딩을 정확히 하려면 훈련용 데이터와 테스트 데이터를 결합한 후에 전체 레이블 인코더를 맞추는 fit 작업을 하고, 레이블을 반환하는 transform 작업을 하고, 다시 훈련용, 테스트 데이터를 분리하시면 됩니다. 강의 오기에 대해서는 추후에 영상과 자료에 수정을 하도록 하겠습니다. :) 코드는 내일 유첨하여 첨부하도록 하겠습니다. 좋은 결과 있으시길 바랍니다. :)
- 0
- 2
- 361