인프런 커뮤니티 질문&답변

박서현님의 프로필 이미지

작성한 질문수

초보자를 위한 BigQuery(SQL) 입문

5-6. JOIN 연습 문제 3~5번

JOIN 5번 문제 질문 있습니다!

해결된 질문

24.08.15 11:08 작성

·

46

0

안녕하세요, 카일님! 수업 잘 듣고 있습니다!

문제 해설 보기 전 혼자 풀었을 때, 저는 아래와 같이 쿼리를 작성했어요. 서브쿼리 안에 필요한 컬럼만 넣고 보면서 쓰는 게 편하더라고요. 제 쿼리로 쓰면 데이터를 더 많이 처리하게 되는 건지 궁금해서 질문합니다!

image.png

 

 

답변 2

1

카일스쿨님의 프로필 이미지
카일스쿨
지식공유자

2024. 08. 15. 11:25

박서현님 안녕하세요.

 

작성해주신 쿼리는 trainer_pokemon 데이터에서 필터링을 해주지 않고 전체 데이터에서 JOIN을 수행하게 됩니다. 그렇기 때문에 쿼리의 연산이 더 걸리게 됩니다. 다만 지금 데이터는 매우 작기 때문에 연산이 더 걸린다를 체감하지 못할거에요.

JOIN을 할 때는 필요한 데이터만 먼저 작게 만들고, 그 후에 작게 만든 것들끼리 JOIN해야 연산이 빠르게 됩니다. 지금 쿼리에서는 문제가 없어도, 이런 맥락을 인지하셔야 쿼리 최적화라는 것을 실행하게 되어요.

 

제가 작성했었던 쿼리에서

SELECT
  generation,
  COUNT(tp.id) AS pokemon_cnt
FROM (
  SELECT
    id,
    trainer_id,
    pokemon_id,
    status
  FROM basic.trainer_pokemon
  WHERE
    status IN ("Active", "Training")
) AS tp
LEFT JOIN basic.trainer AS t
ON tp.trainer_id = t.id 
LEFT JOIN basic.pokemon AS p
ON tp.pokemon_id = p.id
WHERE
  t.hometown = "Incheon"
GROUP BY
  generation

 

이렇게 답을 드렸는데, 엄밀히 말하면 t.hometown의 Incheon 조건도 서브쿼리로 만들어서 하는게 연산 수행에 더 적습니다.

 

JOIN을 할 때 Row 수 관점으로 생각해보세요.

지금 작성하신 trainer_pokemon x trainer x pokemon

row 수 만큼(물론 어떤 JOIN이냐에 따라 조금 다르지만) 계산한다고 생각하시면 이해하기 편할거에요. row를 줄였다면 위 식에서 trainer_pokemon이 줄어들었기 때문에 연산이 더 빠르겠지요.

 

쿼리 퍼포먼스 관점에서 줄이는 것이 좋고, 데이터를 탐색하는 관점에서도 필터링을 하는 것이 더 좋습니다. 데이터가 많아지면 체감이 될 수 있으므로(물론 빅쿼리는 연산 파워가 좋은 편이라 크게 체감은 안될수도 있어요. 데이터가 엄청 많아질 때 이슈) 지금부터 JOIN 할 때는 줄여가며 해보시는 것을 추천드려요.

 

약간은 다른 맥락이지만, 저번에 올라온 질문 답변을 보시는 것도 추천드려요. 실행 세부 정보를 보여드리면서 알려드렸던 질문이 있어요.

https://www.inflearn.com/community/questions/1342790/5-6-2%EB%B2%88-%EC%97%B0%EC%8A%B5%EB%AC%B8%EC%A0%9C-%EC%A7%88%EB%AC%B8%EC%9E%85%EB%8B%88%EB%8B%A4

0

박서현님의 프로필 이미지
박서현
질문자

2024. 08. 16. 07:36

아, 실행 세부정보를 보면 어떤 게 더 최적화된 쿼리인지 알 수 있군요! 감사합니다👍🏻