작성
·
22
·
수정됨
0
1.
--1) 사용자별 쿼리를 실행한 총 횟수를 구하는 쿼리를 작성해주세요. 단 Group By를 사용해서 집계하는 것이 아닌 query_logs의 데이터의 우측에 새로운 컬럼을 만들어주세요.
select *
, count(query_date) over(partition by user) as total_query_cnt
from advanced.query_logs
order by user, query_date
2.
--2) 주차별로 팀 내에서 쿼리를 많이 실행한 수를 구한 후, 실행한 수를 활용해 랭킹을 구해주세요. 단 랭킹이 1등인 사람만 결과가 보이도록 해주세요.
select *
, rank() over(partition by week_number, team order by query_cnt desc) as team_rank
from
(
select EXTRACT(WEEK FROM query_date) as week_number
, team
, user
, count(user) as query_cnt
from advanced.query_logs
group by all
) as base
qualify team_rank = 1
order by 1,2,3
3.
--3) (2번 문제에서 사용한 주차별 쿼리 사용) 쿼리를 실행한 시점 기준 1주 전에 쿼리 실행 수를 별도의 컬럼으로 확인할 수 있는 쿼리를 작성해주세요.
select *
, lag(query_cnt) over(partition by user order by week_number) as prev_week_query_cnt
from
(
select EXTRACT(WEEK FROM query_date) as week_number
, team
, user
, count(user) as query_cnt
from advanced.query_logs
group by all
) as base
order by user
4.
--4) 시간의 흐름에 따라, 일자별로 유저가 실행한 누적 쿼리 수를 작성해주세요.
select *
, sum(query_cnt) over(partition by user order by query_date) as cumulative_query_cnt
from (
select user
, team
, query_date
, count(user) as query_cnt
from advanced.query_logs
group by all
) as base
order by user
5.
--5) 다음 데이터는 주문 횟수를 나타낸 데이터입니다. 만약 주문 횟수가 없으면 NULL로 기록됩니다. 이런 데이터에서 NULL 값이라고 되어있는 부분을 바로 이전 날짜의 값으로 채워주는 쿼리를 작성해주세요.
WITH raw_data AS (
SELECT DATE '2024-05-01' AS date, 15 AS number_of_orders UNION ALL
SELECT DATE '2024-05-02', 13 UNION ALL
SELECT DATE '2024-05-03', NULL UNION ALL
SELECT DATE '2024-05-04', 16 UNION ALL
SELECT DATE '2024-05-05', NULL UNION ALL
SELECT DATE '2024-05-06', 18 UNION ALL
SELECT DATE '2024-05-07', 20 UNION ALL
SELECT DATE '2024-05-08', NULL UNION ALL
SELECT DATE '2024-05-09', 13 UNION ALL
SELECT DATE '2024-05-10', 14 UNION ALL
SELECT DATE '2024-05-11', NULL UNION ALL
SELECT DATE '2024-05-12', NULL
)
select *
, ifnull(number_of_orders,last_value(number_of_orders ignore nulls) over(order by date)) as last_value_orders
from raw_data
6.
--6) 5번 문제에서 NULL을 채운 후, 2일 전 ~ 현재 데이터의 평균을 구하는 쿼리를 작성해주세요(이동 평균)
WITH raw_data AS (
SELECT DATE '2024-05-01' AS date, 15 AS number_of_orders UNION ALL
SELECT DATE '2024-05-02', 13 UNION ALL
SELECT DATE '2024-05-03', NULL UNION ALL
SELECT DATE '2024-05-04', 16 UNION ALL
SELECT DATE '2024-05-05', NULL UNION ALL
SELECT DATE '2024-05-06', 18 UNION ALL
SELECT DATE '2024-05-07', 20 UNION ALL
SELECT DATE '2024-05-08', NULL UNION ALL
SELECT DATE '2024-05-09', 13 UNION ALL
SELECT DATE '2024-05-10', 14 UNION ALL
SELECT DATE '2024-05-11', NULL UNION ALL
SELECT DATE '2024-05-12', NULL
)
select date
, number_of_orders
, avg(number_of_orders) over(order by date rows between 2 preceding and current row) as moving_avg
from
(select date
, ifnull(number_of_orders,last_value(number_of_orders ignore nulls) over(order by date)) as number_of_orders
from raw_data) as base
7.
--7) app_logs 테이블에서 Custom Session을 만들어 주세요. 이전 이벤트 로그와 20초가 지나면 새로운 Session을 만들어 주세요. Session은 숫자로 (1,2,3...) 표시해도 됩니다
--2022-08-18일의 user_pseudo_id(1997494153.8491999091)은 session_id가 4까지 나옵니다.
with base as
(
select event_date
, event_timestamp
, datetime(timestamp_micros(event_timestamp), 'Asia/Seoul') as event_datetime
, event_name
, user_id
, user_pseudo_id
, lag(datetime(timestamp_micros(event_timestamp), 'Asia/Seoul')) over(partition by user_pseudo_id order by event_timestamp) as before_event_datetime
from advanced.app_logs
)
, diff_data as
(
select *
, if(second_diff > 20 or second_diff is null, 1, null) as session_start
from
(
select *
, DATETIME_DIFF(event_datetime, before_event_datetime, second) as second_diff
from base
)
)
select *
, sum(session_start) over(order by event_timestamp) as session_num
from diff_data
-- where event_date = '2022-08-18'
-- and user_pseudo_id = '1997494153.8491999091'
order by event_timestamp
답변 1
0
안녕하세요, 인프런 AI 인턴입니다. 케이든님.
추가적으로 도움이 필요하시다면, 위에 제출하신 문제들을 참고하여 아래의 유사한 질문들과 답변 링크를 제공해 드리겠습니다. 이 자료들이 윈도우 함수와 관련한 스터디에 도움이 되길 바랍니다.
전체 쿼리의 이해 - 윈도우 함수나 대규모 데이터셋에서 집계나 세션 관리를 할 때, 기존의 쿼리를 활용하거나 개선할 수 있는 많은 사례들이 있습니다.
세션 관리 및 평균 계산 - 세션 관리와 같은 실습에서는 특히 시간 조건을 세분화하는 방법이 중요한데, 이와 관련된 실습 예제들도 참고할 수 있습니다.
데이터 처리 및 이상치 관리 - 데이터셋에서 누락된 값을 다루거나 이상치를 관리하는 다양한 방법들도 있습니다. 이를 통해 안정적인 데이터 처리가 가능합니다.
질문하신 부분들은 윈도우 함수와 세션 관리에 관련한 강의의 심화 연습 문제로 보여집니다. 위 링크들에서는 이러한 주제와 관련된 유용한 예제와 설명을 제공하고 있습니다.
저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다. 현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏 추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.