인프런 커뮤니티 질문&답변

moonwrd님의 프로필 이미지
moonwrd

작성한 질문수

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

7회 기출유형(작업형2) 🆕 updated 2024.4

인코딩 선택 기준!

해결된 질문

작성

·

195

0

선생님!

원핫 / 라벨 인코딩을 언제 써야할 지 기준이 있으신가요?

강의 언제쩍에 보면 라벨인코딩이 어지간하면 다 통한다고

언급하신적이 잇었는데...

 

사실 저는 제출이 목표라

둘중에 아무거나 쓰긴할꺼지만ㅠㅠㅠ

 

기준이 있으신지 궁금합니다!

답변 3

0

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

  • 기준은 평가지표 점수로 판단합니다.

  • 판단 전 기준은 카테고리가 10개 미만이면 자유!,
    10개 이상 너무 많다 싶으면 레이블로 우선 진행합니다.

0

moonwrd님의 프로필 이미지
moonwrd
질문자

선생님 , 그리고 추가질문이 있는데

평가를 꼭 해야되나 싶습니다 ㅠㅠ 기출풀다보니.....

그나저나 mse 값 구할때

from sklearn.metrics import mean_squared_error

이렇게 하고 그 뒤에 무슨 구문을 쳐야 mse값이 나올까요?

rmse로 함수 짜는거로 바로 넘어가고 정작 mse값 구하는게

나오지 않은거 같아서요ㅠㅠ

 

mse**0.5로 구하려고 하는데 mse 구하는 방법이 궁금합니다!

퇴근후딴짓님의 프로필 이미지
퇴근후딴짓
지식공유자

mean_squared_error가 mse입니다.

함수를 사용하지 않고 rmse를 출력한다면 mse**0.5로 사용하면 됩니다.

0

안녕하세요, 인프런 AI 인턴입니다.

moonwrd님께서 질문하신 원핫 인코딩과 라벨 인코딩 선택 기준에 대해 궁금해하시는군요. 이와 관련하여 유사한 내용을 다룬 선생님의 기존 답변을 찾았습니다. 아래의 링크에서는 인코딩을 언제 어떻게 사용해야 하는지에 대한 선생님의 설명이 포함되어 있습니다.

  • 인코딩과 컬럼선택기준“에서 데이터 전처리 시 문자형 데이터를 숫자로 변경하는 인코딩 방법과 그 선택 기준에 대해 설명하고 있습니다. 특히, train.info() 를 통해 자료형을 확인 후 object 자료형이면 인코딩이 필요하다고 언급하며, 원핫 인코딩 또는 레이블 인코딩 중 선택해 진행하면 되며, 카테고리(종류)가 10개 넘어가면 레이블 인코딩을 추천하고 있습니다.

  • 빅데이터 분석기사 (2회): 기출유형-작업형2 질문“에서는 라벨인코딩과 원핫인코딩을 해야 할 때 상황 판단에 대해 설명합니다. 선택 기준으로 카테고리가 10개 이하면 원핫인코딩을 고려해보고, 10개가 넘어가면 라벨인코딩을 하고 있다고 합니다.

이 답변들은 각 강의 내에서 주어지는 인코딩 방법 선택의 구체적 기준과 사용 상황에 대한 이해를 돕습니다. 인코딩 방법을 선택할 때는 카테고리의 개수를 고려하시는 것이 좋겠습니다. 다만, 강의 내에서 제시된 기준과 달리 데이터의 특성이나 모델의 성능을 고려하여 다르게 적용해볼 수도 있습니다.

저는 moonwrd님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

moonwrd님의 프로필 이미지
moonwrd
질문자

여기서 말하는 카테고리란

데이터 종류라는거겠죠?

moonwrd님의 프로필 이미지
moonwrd

작성한 질문수

질문하기