인프런 커뮤니티 질문&답변

박창언님의 프로필 이미지
박창언

작성한 질문수

캐글 Advanced 머신러닝 실전 박치기

데이터 분석 도메인의 이해 - 02

수치 데이터의 경우 도메인을 정의할 수 있나요?

해결된 질문

작성

·

149

0

안녕하세요. 제가 주로 다루는 데이터는

특정 지역에서 나타난 어떠한 것들의 개수 인데요.

이런 수치데이터만 있는 경우는 도메인, 데이터 수집과 가공이

잘 매치가 안되는데 수치만 있는 데이터들도

도메인을 정의하고 데이터가공이 가능한지 궁금합니다.

답변 2

1

권 철민님의 프로필 이미지
권 철민
지식공유자

안녕하십니까,

데이터 타입에 관계 없이 데이터  도메인은 충분히 분석되고 정의될 수 있습니다. 

하지만 질문의 의도는 이것 보다는 일반적으로 feature/컬럼들이 매우 많은 metric이나 수치값으로 이뤄져있고,  제대로 도메인, 정의 매칭이 어려운 경우를 지칭하는 걸로 판단됩니다.

데이터 분석 도메인을 세운다는 것은 분석하려는 데이터의 본질적인 의미가 무엇인지 파악하는 것이 첫째 입니다.  데이터가 어떤 기준으로 새롭게 만들어 지는지, 이 데이터의 본질적인 식별자(데이터를 유일하게 만드는 식별자), 해당 피처들의 개별적인 의미가 무엇인지 지속적으로 파악하고 분석하자는 것입니다.

하나씩 파고들면 어떤 피처들은 좀더 그룹화/카테고리화 되어 질수 있습니다. 강의의 예에서는 고객이라고 한다면, 고객의 등급, 고객의 성별, 고객 관리 조직등 특성들에 따라서 여러가지 속성들을 그룹화 할 수 있습니다. 이렇게 그룹화 하면서 새로운 피처들이 추가될 수 있는지, 또는 아예 새로운 그룹을 만들수 있는지 보다 다양한 분석의 요소를 끄집어 낼 수 있습니다.

이게 어떤 규칙이 있는게 아닙니다. 그룹화 또는 세분화 작업을 수행하면서 데이터(또는 테이블) 자체의 본질적인 의미, 개별 피처들이 어떠한 그룹 속성에 속하는지, 그리고 분석하고자 하는 목표에 맞춰서 추가적인, 또는 기존 피처들을 가공해서 새로운 피처들을 만들어 내고자 하는 시도를 계속적으로 하면 추상적이었던 데이터 개념이나 피처들의 의미가 보다 명확해지고 이를 기반으로 분석 고도화를 가능하게 할 수 있습니다.

해당 데이터가 너무 많은 수치값으로 되어 있다고 포기하지 마시고, 먼저 비슷한 속성끼리 묶어서 그룹화 하면서 적절한 그룹명을 생각해 보시고, 이런 식으로 하나씩 확장해 가면서 데이터 도메인을 스스로 정해 보시는게 분석 능력을 향상 시키는데 큰 도움이 될 것입니다.

감사합니다.

0

박창언님의 프로필 이미지
박창언
질문자

안녕하세요.

20여 개의 지역에서 20년 동안 나타난 수백개의 품목들에 관한 내용이라서 수치가 오로지 개수 밖에 없는 상황인데

선생님 말씀 듣고 지역, 연도, 품목 별로 따로 떼어내서 본다던지 묶어서 본다던지에 대해 어느정도 답을 얻은 것 같습니다.

품목 속성도 제 나름대로 붙여 볼 수 있을 것 같습니다. 

정성껏 써주신 답변 덕분에 도움이 많이 되었습니다.

감사합니다.

박창언님의 프로필 이미지
박창언

작성한 질문수

질문하기