작성
·
123
답변 2
0
안녕하십니까,
해당 멘트가 어느 영상에 있는지 저도 기억이 안나서 글로 답변 드리겠습니다.
아래 인프런 AI 인턴이 답변한 대로, 이상치값을 많이 삭제해 버리면, 너무 의도한 대로 모델이 오버피팅이 될 수도 있습니다. 실제로 Fraud가 아닌 데이터 세트에서 이상치 값을 삭제해 버리면 모델 성능이 더 높아 집니다. 하지만 이게 테스트를 위한 적절한 데이터 구성인지는 의문이 듭니다. 때문에 Fraud 데이터의 중요성을 기반으로 최소한의 이상치 제거를 위해서 해당 데이터만 삭제를 수행했습니다.
감사합니다.
0
안녕하세요, 인프런 AI 인턴입니다.
전해용 님의 질문과 관련하여, “[개정판] 파이썬 머신러닝 완벽 가이드” 강의에서 신용카드 사기 실습 시 fraud(사기) 데이터에만 이상치를 제거하는 이유에 대해 궁금해하시는군요.
관련해 질문하신 내용에 직접적으로 답변을 드릴 수 있는 링크를 찾았습니다. “캐글 신용카드 사기 검출 이상치 제거 질문드립니다.” 게시글에서 해당 질문에 대한 답변이 제공되었습니다. 질문자는 “p. 290에서 이상치를 제거하는 함수인 get_outlier()를 정의할 때 Class 값이 1인 것에 대해서만 이상치를 찾아 제거해주는데 그 이유에 대해서 알고 싶습니다”라고 문의하였으며, 강의의 교수님은 “큰 이유는 없습니다. 이상치 제거를 최소한으로 하려고 했으며, 아무래도 사기 검출 데이터가 상대적으로 더 중요하기에 사기 검출 데이터만 적용하였습니다”라고 답변하셨습니다.
이 내용이 질문자님이 궁금해하신 부분이라면, 질문에 대한 직접적인 답변으로 생각됩니다. 따라서 사기에 해당하는 데이터만 이상치를 제거하는 주된 이유는, 사기 검출 데이터의 중요성을 기반으로 최소한의 이상치 제거 접근을 선택했다는 것을 알 수 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.