인프런 커뮤니티 질문&답변

kskim님의 프로필 이미지
kskim

작성한 질문수

[개정판] 파이썬 머신러닝 완벽 가이드

<신규> 왜 feature importance는 feature selection의 절대 기준이 될 수 없는가?

전압, 진동과 같은 데이터를 학습 및 테스트 하기 위한 방법이 궁금합니다.

작성

·

320

0

- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! 데이터 예시.png
안녕하세요.

우선 머신러닝에 대해 알기쉽게 강의해 주셔서 감사합니다.

저는 기계의 고장진단 및 예측을 위해서 머신러닝을 공부하고 있는 직장인 입니다.

다름이아니라, 실습에서 다루는 데이터는 다양한 정보들이 1개의 파일에 있어, 학습 및 테스트를 진행하였습니다.

그러나, 전압,진동과 같이 물리적 데이터는 일정시간 동안 데이터를 계측하게 되고, 이러한 파일이 여러게 존재하게 됩니다.(첨부된 그림 참조)

이렇게 데이터 취득시, 현실적으로는 고장데이터를 취득한 파일 전체의 레이블이 1(1이 고장이라 하면), 정상상태를 취득한 파일은 0이 되어야 합니다.

이렇듯 다수의 파일, 1개의 파일 안에 시간순으로 측정된 다수의 데이터가 있을 경우, 학습 및 테스트를 하기위한 데이터 전처리 방법이 궁금합니다.

수고하세요.

답변 1

1

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

음, kskim님의 데이터를 생성하는 시스템이 어떻게 되어 있는지 잘몰라서 정확한 답변이 될지는 모르겠지만,

먼저 엑셀에 sheet 별로 데이터를 생성하시지 마시고, 전체 데이터를 csv로 만들어 달라고 (데이터 생성팀이 있으시다면) 요청을 해주시면 될 것 같습니다.

그러니까, 날짜별로 별도의 엑셀이 아니라 하나의 csv 파일에 날짜/시간 필드를 추가해서 전체 데이터를 하나로 만들어 달라고 요청하시면 될 것 같습니다. 그리고 이 데이터에 학습과 테스트 데이터를 나누어서 모델 학습과 테스트를 진행하시면 될 것 같습니다.

근데, 질문에는 명확하지 않지만, 데이터가 시계열로 계속 쌓이는 데이터 같은데, 이런 시계열성 데이터를 어떻게 처리할 건지를 여쭤 보신다면, 이건 좀 다른 주제입니다.

일단 시간등에 따라 데이터의 특성이 변하지 않는다면(예를 들어, 특정 업무시간대별, 또는 특정 요일별/일자별로) 며칠정도의 데이터만으로도 충분이 머신러닝 모델을 구축하실 수 있습니다. 왜냐하면 시간/일자/요일/월/분기 특성에 상관없이 데이터가 규칙적으로 만들어지기 때문입니다.

그런데, 특정 시간대/요일/월말등에 장애가 더 자주 발생하거나, 데이터의 특성이 이에 따라 변한다면 이들 시간데이터를 효과적으로 피처화 할 수 있도록 모델을 만들어 줘야 되는데, 이에 대한 설명은 여기서 설명드리기에는 너무 긴것 같습니다. 필요하시다면 5장 회귀의 자전거 대여 모델을 학습해보시고, 다시 질문을 해주셨으면 합니다.

감사합니다.

kskim님의 프로필 이미지
kskim
질문자

친절한 답변 감사합니다.

 추가로 저희 데이터 계측 시스템을 말씀드리면 우선, 데이터 계측의 목적은 금속판의 균열을 판단하는 것이 목적입니다.

그래서 피로시험기에 금속판(시편)을 대상으로 피로시험을 진행하고, 정상일때는 2만사이클마다 정지 후, 전압을 3분간 측정합니다.(5Hz로 데이터를 취득합니다.)

그러다, 시편에 균열이 생기면 5천사이클마다 정지한 상태에서 3분간 전압을 측정합니다. 이때는, 균열이 약 10mm 정도 커질때 까지 실험을 수행합니다.

이렇듯, 정상상태의 전압데이터, 균열상태의 데이터를 취득할 때, 1개의 파일에는 약 900개의 데이터가 저장되게 됩니다.

이때, 머신러닝 학습을 하기 위해 레이블링을 어떻게 하는 것이 효율적인지 궁금하여 위와 같은 질물을 하였습니다.

수고하세요.

kskim님의 프로필 이미지
kskim

작성한 질문수

질문하기