GROUP BY 질문입니다

[백문이불여일타] 데이터 분석을 위한 중급 SQL 문제풀이

3번, 4번 문제 풀이

작성

213

안녕하세요, 수업 잘 수강하고 있습니다.

다름이 아니라 GROUP BY가 조금 헷갈려서 질문드립니다.

leetcode 182. Duplicate Emails를 예시를 들어 질문드립니다.

SELECT *

FROM Person

GROUP BY Email

이런식으로 Email로 groupby를 하게되고 같은 email을 가진 row끼리 묶이면서 count(email)등 등 연산을 할 수 있는 것으로 알고 있는데, groupby Email로 했는데 count(id)는 어떻게 동작되는지 궁금합니다.

Email기준으로 groupby했는데 count(id)를 할 수 있는건가요??

Email기준으로 groupby 했을때 count(id), count(*), count(Email)의 차이점이 궁금합니다.

답변 2

지식공유자

그룹을 묶는 기준이 되는 컬럼을 GROUP BY 절에 쓰고, 데이터 수를 세는 연산의 대상이 되는 컬럼을 COUNT() 안에 씁니다.
COUNT(*)은 row(행)의 개수를 의미합니다.

위 테이블에서 데이터를 조회하기 위해 다음과 같은 쿼리를 써 봅시다.

SELECT Email, COUNT(Id), COUNT(*), COUNT(Email)
FROM Person
GROUP BY Email

이 쿼리는 Email 값이 같은 것끼리 그룹을 지은 후, 각 그룹 내에서 Id 개수, row 개수, Email 개수를 세서 Email 값과 함께 출력해 달라는 뜻이므로, 다음과 같은 결과가 나옵니다.

a@b.com | 2 | 2 | 2
c@d.com | 1 | 1 | 1

이것은 중복값을 제외하지 않은 결과로, a@b.com 그룹의 Email 컬럼 값들이 a@b.com으로 동일하지만 데이터 수가 총 2개이므로 COUNT(Email) 값을 2로 출력합니다.

중복값을 제외하고 싶을 때는 DISTINCT를 함께 써 줘야 합니다.

SELECT Email, COUNT(DISTINCT Id), COUNT(*), COUNT(DISTINCT Email)
FROM Person
GROUP BY Email

a@b.com | 2 | 2 | 1
c@d.com | 1 | 1 | 1

질문자

감사합니다. 개념이 좀 더 명확해진거같네요!

인프런 커뮤니티 질문&답변