인프런 커뮤니티 질문&답변

눈물이많아요님의 프로필 이미지
눈물이많아요

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

사용자 패턴을 학습해서 목적지 예측을 하고 싶은데 데이터 전처리를 어떻게 하는것이 맞을까요?

해결된 질문

작성

·

342

0

선생님, 사용자 패턴을 학습해서 목적지 예측을 하는 모델을 구현하고 싶습니다.

현재 아래와 같은 Sample Dataset을 만들었는데요 :)

데이터 전처리를 어떻게 해야할지 잘 모르겠습니다. 일단 day_of_week 피처는 원핫 인코딩으로 처리하려고 하고

출발 시간 피처(hour,min)은 log 값으로 scaling 하려고 합니다.

여기까지는 올바른 방향이 맞을까요?

 

또 시작 좌표(start_lat, start_lon)와 목적지 좌표(end_lat, end_lon) 를 어떻게 처리해야할까요?

일단 제가 생각한 것은 각각 좌표 지점을 군집화하여 원핫 인코딩으로 바꾸는 것을 생각했습니다.

아직 군집화 수업을 듣기 전이라 이것도 맞는 방향인지 모르겠습니다.

선생님께서 생각하는 방향과 제가 생각한 방향이 일치할지 모르겠습니다.

또 제가 잘못 생각하고 있는 부분이 있으면 말씀부탁드려요 :)

답변 1

1

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까, 

피처 엔지니어링은 정해진 답이 없습니다.  모델을 돌려 보고 성능을 파악하면서 적용해나가는 것입니다. 

먼저 선형 회귀를 적용하시겠다면, 피처들을 스케일링 적용하는 것이 좋습니다. 

출발 시간 피처의 로그 변환이 옳은지 그렇지 않은지는 알 수 없습니다. 모델에 적용해 봐야 됩니다. 

먼저 스케일링 먼저 변환해 보시고 아래와 같은 사항을 적용해 보시지요. 

시간/분 은 시간대(오전 출근 시간, 점심시간, 오후시간, 퇴근 시간, 야간, 심야등)

요일은 주간, 휴일 구분

좌표의 경우 좌표 이동(end - start), 전체 출발 평균 좌표 - 출발좌표, 전체 종료 평균 좌표 - 종료 좌표, 최대 이동 좌표 대비 이동좌표등의 속성

주말 시간대 평균 이동 좌표 거리, 주중 시간대 평균 이동 좌표 거리, 오전 출근시간대 평균 이동 좌표 거리등과 현재 이동 거리의 비율

 

 

눈물이많아요님의 프로필 이미지
눈물이많아요

작성한 질문수

질문하기