분류 모델 학습 강의에 대하여 질문드립니다.

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

라이브러리 및 데이터 불러오기 그리고 EDA

해결된 질문

작성

안녕하세요

강의에서, data info를 확인하고 여러 숫자형, 문자형이 존재하였는데

문자형은 무시하고 숫자형만을 , 또 어떤 숫자에 대한 스케일링 없이 학습을 하였는데

이것은 강의를 위해 축소한 것인가요 혹은, 이것만 해도 충분한것인가요?

또한 실전에서 스케일링, 문자형 숫자형 선택 파라미터 수정, 모델선택등 모두 고려하면 수많은 비교를 해야할것 같은데,

실전에서는 모든걸 비교할 시간이 주어지나요? 혹은 시험자가 임의로 판단하여 어떤 데이터는 별로 영향이나 필요없어 보일거 같다는 판단하에

특정 컬럼을 배재하거나 스케일링은 생략하거나 하나요?

감사합니다.

모든

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

문자형 컬럼 삭제 -> 이렇게라도 제출할 수 있다!! 단, 40점은 어려움
문자 인코딩 -> 문자형 데이터를 사용하기 위해서는 필수
스케일링 -> 선택

입니다!

분류에서 1을 선택한 이유는 전처리보다는 분류 모델에 집중하기 위함입니다.

말씀한 것 처럼 전처리 작업으로 강의 내용을 늘리지 않기 위함이기도 해요

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. 김호준님.

강의 내용에 대해 질문 주셨군요. 데이터 처리 시 문자형 데이터를 무시하고 숫자형 데이터만을 사용하며 스케일링 없이 진행한 것은 특정 교육 목적을 위해 단순화된 것일 가능성이 큽니다. 실제 현업에서는 다음과 같은 사항을 고려해야 합니다.

스케일링: 트리 계열의 모델에서는 스케일링 효과가 미미하다고 알려져 있지만, 선형 모델이나 신경망에서는 데이터 스케일이 성능에 영향을 미칠 수 있습니다. 따라서 사용하는 모델에 따라 스케일링 여부를 결정하게 됩니다.
문자형 데이터 처리: 문자형 데이터, 즉 범주형 변수는 라벨 인코딩, 원-핫 인코딩 등의 과정을 거쳐 수치로 변환해야 머신러닝 모델이 올바르게 학습할 수 있습니다.
실전에서의 고려사항: 시험이나 실전에서는 모든 경우의 수를 다 테스트해볼 수 있는 시간적 여유가 없기에, 이전 경험이나 도메인 지식을 바탕으로 중요한 변수와 전처리 방법을 우선적으로 선택합니다. 특정 컬럼은 분석 결과에 큰 영향을 미치지 않는다고 판단하면 생략하는 것이 효율적일 수 있습니다.

관련하여 다른 수강생분들과 조언을 나누고 싶으시다면, 강의의 Q&A 게시판에서 같은 상황을 겪었던 수강생분들과 소통할 수 있습니다. 또한 이전 비슷한 질문과 답변을 참조하시기 바랍니다.

추천 드리는 유사한 질문 답변 링크는 다음과 같습니다:

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

분류 모델 학습 강의에 대하여 질문드립니다.