기출 8회 데이터 drop

[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

8회 기출유형(작업형2)

작성

저는 데이터를 drop하지 않고

그냥 바로

target = train.pop['타켓컬럼']

한뒤 바로

train =pd.get_dummies(train)

test =pd.get_dummies(test)

를 바로해주는데,,

꼭 id값을 drop 해야하나요? 안하면,, 결과가 많이 안좋나요?

python 머신러닝 빅데이터 pandas 빅데이터분석기사

답변 2

퇴근후딴짓

지식공유자

id 제거 전과 후의 결과를 직접 비교해 보면 좋을 것 같습니다. 차이가 없다면 어떤 쪽을 선택해도 됩니다.

lovelove567님, 궁금한 부분이 생긴다는 건 공감합니다.

혹 지난번 제게 연장 요청 이후 제가 안내한 메일을 확인해 보셨을까요? 동의한 것이라 생각했는데 아쉽습니다.

일부 답변을 드렸는데 계속 질문을 올려주셔서 추가 댓글을 작성드립니다.

lovelove567

질문자

이메일 확인은 했었는데, 자세히 읽어보지 못했습니다... 죄송합니다.

제가 이메일이 많으면 환경에 안좋다고 해서,, 최근에 무리하게 몇천건을 다 삭제를 했습니다..

정말 죄송한데, 이메일 다시 한번 더 보내주실 수 있나요??

죄송합니다.

lovelove567

질문자

오늘안에 보내주시면 바로 확인하고 조치를 취하겠습니다. 죄송합니다.

퇴근후딴짓

지식공유자

이렇게까지 죄송할 일은 아니고요.

내일 시험이니 시험 준비에 우선 집중하시죠!!! 화이팅입니다!!!

lovelove567

질문자

이메일 보내주시면 제가 내일 시험치고 조취를 바로 취해보겠습니다. 죄송합니다. 감사합니다.

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다. lovelove567님.

질문 주신 내용은 데이터 전처리에서 ID값을 처리하는 방법에 관한 것으로 보입니다.

ID 값의 중요성: 일반적으로 모델 학습 시 ID 값은 각 행을 구별하는 고유한 식별자로 역할을 하기 때문에 모델이 예측할 수 있는 유의미한 정보가 아닐 가능성이 높습니다. 따라서 ID값을 포함시킬 경우 모델의 성능에 부정적인 영향을 미칠 수 있으며, ID 값을 feature에서 제거한 후 학습시키는 것이 일반적인 방법입니다.
drop과 pop: drop는 단순히 특정 열을 삭제하는 반면, pop은 삭제함과 동시에 해당 열의 데이터를 반환합니다. ID 값을 pop으로 처리하려면 필요하지 않은 경우 drop만 사용하셔도 무방합니다. 이는 코드의 간결성을 높일 수 있습니다.
pd.get_dummies 사용 시 주의점: 범주형 데이터를 인코딩할 때, pd.get_dummies를 바로 사용하셨다면 train과 test 데이터셋에서 동일한 열 설정이 필요합니다. 그렇지 않으면 모델이 예측 시 문제가 발생할 수 있습니다.

관련된 유사한 질문을 통해 더 자세한 내용을 확인하실 수 있습니다:
- 작업형2에서 pop 함수
- 작업형 2 고민끝에 정리하여 질문드립니다.

도움이 되었기를 바랍니다. 만약 추가적인 질문이 있다면, 언제든지 질문해 주세요. 감사합니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

인프런 커뮤니티 질문&답변

기출 8회 데이터 drop