인프런 영문 브랜드 로고
인프런 영문 브랜드 로고

인프런 커뮤니티 질문&답변

제이크님의 프로필 이미지

작성한 질문수

관찰가능성 엔지니어링

정형화된 이벤트: 관찰가능성의 기본 구성 요소

카디널리티(Cardinality)와 디멘션(Demension

작성

·

65

0

개념

관찰가능성 측면에서 "카디널리티"와 "디멘션"은 데이터를 이해하고 분석하는 데 중요한 역할을 하는 두 가지 개념입니다. 이 두 개념은 주로 데이터셋의 구성을 설명하는 방법이지만 서로 다른 관점을 제공합니다.

1. 카디널리티(Cardinality):

  • 카디널리티는 데이터 내의 특정 열 또는 속성에서 서로 다른 값의 수를 나타냅니다.

  • 높은 카디널리티는 해당 속성이 많은 고유한 값을 가지는 것을 의미하며, 예를 들어 유저 ID나 이메일 주소 같은 경우입니다.

  • 낮은 카디널리티는 유사한 값이 반복적으로 나타나는 경우로, 도시명이나 국가 코드 같은 속성일 수 있습니다.

  • 관찰가능성 측면에서 높은 카디널리티를 가진 데이터는 분석이나 시각화 시 복잡성을 증가시킬 수 있으며, 낮은 카디널리티는 경향이나 패턴을 식별하는 데 용이할 수 있습니다.

2. 디멘션(Dimension):

  • 디멘션은 데이터세트의 다양한 특징을 설명하는 데 사용되는 변수 또는 속성을 의미합니다.

  • 보통 데이터를 분석할 때 관찰의 맥락(예: 시간, 지역, 제품 등)을 설명하기 위한 축(axis)입니다.

  • 이러한 디멘션은 관찰의 범위와 깊이를 제공하며, 다차원 분석(Multidimensional analysis)에서 중요하게 사용됩니다.

  • 데이터의 디멘션 수가 증가하면 분석의 복잡성이 증가하지만, 동시에 더 깊이 있는 인사이트를 제공할 수 있습니다.

이 두 가지 개념은 데이터 분석에서 종종 함께 고려됩니다. 예를 들어, 고차원 데이터(디멘션이 많음)의 경우 여러 디멘션에 걸쳐 높은 카디널리티를 포함할 수 있으며, 이는 데이터 분석 및 저장 관점에서 효율적인 접근 방식을 필요로 합니다. 데이터의 관찰 및 분석 시, 어떤 방식으로 데이터가 구조화되고 변형될 수 있는지를 이해하는 것이 중요합니다.

예시

카디널리티와 디멘션을 좀 더 명확히 이해할 수 있도록 다양한 예시를 제시하겠습니다.

1. 온라인 쇼핑몰 데이터베이스:

  • 카디널리티:

    • 제품 ID 컬럼은 높은 카디널리티를 가지고 있습니다. 이는 각 제품마다 고유한 ID를 가지고 있기 때문입니다.

    • 반면, 카테고리 컬럼은 낮은 카디널리티를 가질 수 있습니다. 예를 들어, "의류", "전자기기", "생활용품"과 같이 한정된 수의 카테고리만 존재할 수 있습니다.

  • 디멘션:

    • 고객 정보, 제품 정보, 주문 날짜 등의 다양한 디멘션이 존재합니다. 각각의 디멘션은 분석 시 고객 행동, 판매 패턴 등의 관점에서 데이터를 평가하는 데 사용됩니다.

2. 인구 조사 데이터:

  • 카디널리티:

    • 개인 식별 번호(예: 주민등록번호)는 매우 높은 카디널리티를 가집니다. 모든 개인이 고유한 번호를 가지기 때문입니다.

    • 성별 컬럼은 매우 낮은 카디널리티를 가질 수 있으며, 대부분 "남자" 또는 "여자"로만 분류됩니다.

  • 디멘션:

    • 연령, 성별, 직업, 거주 지역 등의 디멘션이 있습니다. 각각의 디멘션은 인구의 특정 세그먼트에 대한 인사이트를 제공합니다.

3. 스마트폰 센서 데이터:

  • 카디널리티:

    • 특정 시간 동안 수집된 온도 데이터는 각 순간마다 미세하게 값이 달라질 수 있어 높은 카디널리티를 나타낼 수 있습니다.

    • 반면, 위치 데이터가 "실내" 또는 "실외"로만 분류되어 저장되는 경우, 이는 낮은 카디널리티를 가질 것입니다.

  • 디멘션:

    • 가속도, 자이로스코프, 위치 데이터 등 다양한 센서 정보가 디멘션 역할을 하며, 이는 모션 분석이나 활동 인식 등에 활용될 수 있습니다.

이러한 예시들은 카디널리티가 데이터 안의 고유한 값의 수 또는 다양성을 어떻게 나타내는지를 보여주며, 디멘션은 분석이나 평가하고자 하는 다양한 관점이나 특징을 정의하는 변수임을 설명합니다.

 

 

답변 1

0

인프런 AI 인턴님의 프로필 이미지

안녕하세요, 인프런 AI 인턴입니다. 제이크님께서 질문하신 카디널리티와 디멘션에 대한 설명을 잘 작성해 주셨습니다. 카디널리티는 데이터 속성의 고유 값 수를 가리키며, 디멘션은 데이터를 설명하는 다양한 속성이나 변수로 정의됩니다. 코드를 통해 봤을 때, Spring Boot의 관찰 가능성 기능 중 Micrometer Observation을 사용하여 관찰 데이터를 생성할 때, 저카디널리티(낮은 카디널리티)와 고카디널리티(높은 카디널리티) 태그를 처리하는 방법이 언급되었음을 확인할 수 있습니다.

Micrometer에서 저카디널리티 태그는 메트릭과 추적 모두에 추가되지만 고카디널리티 태그는 추적에만 추가된다는 점이 강조됩니다. 따라서 시스템의 여러 요소를 모니터링하기 위해 이 개념을 적절히 활용하는 것이 중요합니다.

자세한 내용은 Spring Boot 문서에서 확인하실 수 있습니다. 도움이 되길 바랍니다.