균일도와 불균일 데이터..

Question

제가 이해한 것이 맞는지 질문드리고 싶습니다.

(a) 10000개의 데이터 중에서 100개 정도만 다른 데이터라면 imbalanced 데이터이며

(b) 5000개 5000개로 나뉘어있으면 balanced 데이터인 것이 맞나요?

4장 첫 번째 강의에서 하얀색과 검은색 데이터가 섞여있으면 균일도가 낮다고 하셨는데 1번 질문의 (b) 예시가 맞다면 데이터가 반반 나뉘어져 있는 경우 균일한(balanced) 데이터가 되는데, 이 경우는 균일한 데이터이면서 균일도가 낮다고 볼 수 있을까요?

둘의 차이를 검색하다가 알게 된 것인데요.

둘의 공통점은 균일도가 높은 것 기준으로 분류하는 것이고

지니계수는 balanced 데이터, 정보이득지수는 imbalanced 데이터의 경우 선호된다..는 것이 맞을까요?

질문이 길어서 죄송합니다.

감사합니다.

권 철민 · Answer

안녕하십니까,

질문이 길다니요, 절대 아닙니다. 질문은 언제나 환영입니다.

제가 설명드린 균일도는 혼잡도라고 생각하셔도 될 것 같습니다. 원래 책 쓸때도 혼잡도라고 할까 고민하다가 균일도가 보다 직관적일 것 같아서 그렇게 표현했습니다.

이 균일도/혼잡도는 데이터가 얼마나 다양하고 많은 유형으로 구성되어 있는가를 지수로 나타낸것입니다. 균일도가 낮고, 혼잡도가 높을 수록 데이터가 다양하고 많은 유형으로 구성되어 있습니다.

근데 데이터의 균일도와 imbalanced data와 같은 데이트의 불균형이 좀 헷갈리게 이해될 수 있는 측면이 있는 것 같습니다.

균일도/혼잡도는 데이터가 얼마나 동일하게 또는 혼잡하게 분포 되어 있는가를 지칭하는 반면에 imbalanced는 전체 데이터중에 특정 데이터가 너무 비율이 작거나 또는 너무 크게 있는 경우를 의미 합니다.

이런 차이때문에 좀 헷갈리신 부분이 있었던것 같습니다.

1. imbalanced data는 앞에 말씀드린 대로 균일 개념 보다는 균형의 개념으로 보시면 좋을 것 같습니다.

2. 이 부분도 균일과 균형 개념이 혼재 되어서 질문 주신것 같습니다.

반반이 섞여 있으면, 균형 잡힌 데이터 이지만, 균일하지는 않아서 균일도는 낮다고 생각하시면 좋을 것 같습니다.

3. 일반적으로 정보의 혼잡도를 엔트로피로가 하는데 정보이득지수는 1 - 엔트로피 이므로 혼잡하지 않고 균일하면 정보이득 지수가 높게 됩니다.

지니 계수 역시 개념 자체는 비슷한데, 공식이 다르고 데이터가 균일하면, 정보이득 지수와 다르게 지니 계수가 낮아지게 됩니다.

감사합니다.

인프런 커뮤니티 질문&답변