카테고리

질문 & 답변
세부 분야

데이터베이스
해결 여부

해결됨

커버링 인덱스 질문 드립니다

24.07.05 14:11 작성 조회수 65

안녕하세요! 페이징 쿼리 관련해서 질문 좀 드립니다

방명록(사진) 목록을 조회하는 페이징 쿼리에서 테이블에 soft delete(deleted_at), 공개 여부(is_private) column이 있어서 post.deleted_at is null and post.is_private is false 조건이 자주 들어가는데 커버링 인덱스를 위해 해당 column을 인덱스에 추가하는 것은 어떻게 생각하시나요?

Real MySQL 시즌 1 - Part 1

Ep.04 페이징 쿼리 작성

강의실 바로가기

답변 2

좋아요순

최신순

답변을 작성해보세요.

이성욱

지식공유자

2024.07.05

code-tree님, 안녕하세요. 수강 감사드려요.

우선, 이 질문에는 몇가지 상황에 따른 가정이 필요한데요.

원하시는 쿼리가 단순 SELECT COUNT(*) 쿼리라면
1. 커버링 인덱스로 처리되면 좋은데,
2. 문제는 2개 컬럼이외에도 쿼리에서 사용중인 모든 컬럼이 인덱스에 추가되어야만 커버링 인덱스 효과를 얻을 수 있습니다.
SELECT * 쿼리라면, 인덱스에 해당 컬럼을 추가해도, 커버링 인덱스 실행 계획은 사용할수 없습니다.
1. 다만, deleted_at is null and is_privte=false 조건에 부합되지 않는 레코드가 많다면, 커버링이 아니어도 인덱스에 2개 컬럼을 넣어주면 성능을 개선하실 수 있어요.
2. 그렇지 않다면, 굳이 인덱스에 2개 컬럼을 추가할 필요는 없어 보입니다.
사용하시는 쿼리 전체를 보여주시면, 더 자세히 답변 드릴 수 있을 것 같아요.

혹시 위 답변이 이해되지 않거나 이상하다면, 쿼리를 좀 같이 질문에 추가해주세요.

감사합니다.

code-tree

질문자

2024.07.05

답변 감사합니다! 쿼리도 같이 보여드리겠습니다

장소에는 방명록을 남길 수 있고 방명록은 해당 장소에서 찍은 사진과 기타 정보들이 있습니다. 방명록은 삭제, 비공개가 가능합니다

- 장소(Spot) : 방명록(Post) = 1 : N
- 방명록 : 사진(Photo) = 1 : 1

페이징 쿼리는 다음과 같은 형태입니다

select
    p.spot_id, p.id, p.user_id, ph.photo_url, p.is_private
from post p
join photo ph on ph.id = p.photo_id
where p.spot_id = 1 and p.deleted_at is null and (p.is_private = false or p.user_id = 1)
order by p.id desc
limit 0, 10;

다음 쿼리는 특정 장소별로 최신 방명록 미리보기 n개를 조회하는 쿼리입니다

select s.id, spot_id, photo_url
from spot s
join lateral (
    select p.id, spot_id, photo.photo_url
    from post p
    join photo on p.photo_id = photo.id
    where p.spot_id = s.id and p.is_private = false and p.deleted_at is null
    order by spot_id DESC, p.id DESC
    limit 5) as recent_post
where s.id in (1, 2, 3, 7, 9);

더미 데이터(장소 10개, 장소별 방명록 1000개)를 넣고 테스트 해본 결과 일부입니다

1. post_search_idx(spot_id desc, id desc, is_private, deleted_at, photo_id)

explain

1 | PRIMARY | s | index | PRIMARY | null | 10 |50 | Using where; Using index; Rematerialize (<derived2>)
1 | PRIMARY | <derived2> | ALL | null | 5 | 100 | null
2 | DEPENDENT DERIVED | p | ref | post_search_idx | photospot.s.id | 10000 | 5 | Using where; Using index
2 | DEPENDENT DERIVED | photo | eq_ref | PRIMARY | photospot.p.photo_id | 1 |100 | null

explain analyze
-> Nested loop inner join (cost=1206 rows=25) (actual time=0.268..1.01 rows=25 loops=1)
-> Invalidate materialized tables (row from s) (cost=1.25 rows=5) (actual time=0.0292..0.039 rows=5 loops=1)
-> Filter: (s.id in (1,2,3,7,9)) (cost=1.25 rows=5) (actual time=0.0285..0.0378 rows=5 loops=1)
-> Covering index scan on s using PRIMARY (cost=1.25 rows=10) (actual time=0.0269..0.033 rows=10 loops=1)
-> Table scan on recent_post (cost=240..242 rows=5) (actual time=0.191..0.192 rows=5 loops=5)
-> Materialize (invalidate on row from s) (cost=239..239 rows=5) (actual time=0.19..0.19 rows=5 loops=5)
-> Limit: 5 row(s) (cost=239 rows=5) (actual time=0.0809..0.182 rows=5 loops=5)
-> Nested loop inner join (cost=239 rows=500) (actual time=0.0806..0.181 rows=5 loops=5)
-> Filter: ((p.is_private = false) and (p.deleted_at is null) and (p.photo_id is not null)) (cost=63.6 rows=500) (actual time=0.0659..0.147 rows=5 loops=5)
-> Covering index lookup on p using post_search_idx (spot_id=s.id) (cost=63.6 rows=10000) (actual time=0.06..0.121 rows=140 loops=5)
-> Single-row index lookup on photo using PRIMARY (id=p.photo_id) (cost=0.25 rows=1) (actual time=0.00652..0.00655 rows=1 loops=25)

2. post_search_idx(spot_id desc, id desc, photo_id)

explain
id | select_type | table | type | key | ref | rows | filtered | Extra
1 | PRIMARY | s | index | PRIMARY | null |10 |50 |Using where; Using index; Rematerialize (<derived2>)
1 | PRIMARY | <derived2> | ALL | null | null | 5 |100 |null
2 | DEPENDENT DERIVED | p | index | FKqng73nkpy18qx7h7k6wq87ygx | null | 5 |1 | Using where; Backward index scan
2 | DEPENDENT DERIVED| photo | null | eq_ref | PRIMARY | photospot.p.photo_id | 1 | 100 | null

explain analyze
-> Nested loop inner join (cost=1024 rows=0.25) (actual time=16.2..51 rows=25 loops=1)
-> Invalidate materialized tables (row from s) (cost=1.25 rows=5) (actual time=0.0244..0.0368 rows=5 loops=1)
-> Filter: (s.id in (1,2,3,7,9)) (cost=1.25 rows=5) (actual time=0.0241..0.0359 rows=5 loops=1)
-> Covering index scan on s using PRIMARY (cost=1.25 rows=10) (actual time=0.0224..0.0289 rows=10 loops=1)
-> Table scan on recent_post (cost=15.6..15.6 rows=0.05) (actual time=10.2..10.2 rows=5 loops=5)
-> Materialize (invalidate on row from s) (cost=13.1..13.1 rows=0.05) (actual time=10.2..10.2 rows=5 loops=5)
-> Limit: 5 row(s) (cost=13.1 rows=0.05) (actual time=10..10.2 rows=5 loops=5)
-> Nested loop inner join (cost=13.1 rows=0.05) (actual time=10..10.2 rows=5 loops=5)
-> Filter: ((p.is_private = false) and (p.spot_id = s.id) and (p.deleted_at is null) and (p.photo_id is not null)) (cost=0.975 rows=0.05) (actual time=10..10.2 rows=5 loops=5)
-> Index scan on p using FKqng73nkpy18qx7h7k6wq87ygx (reverse) (cost=0.975 rows=5) (actual time=0.0147..9.43 rows=5727 loops=5)
-> Single-row index lookup on photo using PRIMARY (id=p.photo_id) (cost=0.252 rows=1) (actual time=0.00392..0.00395 rows=1 loops=25)

조회 성능 자체는 인덱스에 2개 컬럼(is_private, deleted_at)을 포함하면 좋은 것 같은데 선택도도 떨어지고 where 조건에 비교 조건으로 사용되는 컬럼들을 인덱스에 추가하면 성능적인 이점보다 단점이 커질 수 있다고 하신 부분 때문에 고민이 되어서 질문 드렸습니다..!

이성욱

지식공유자

2024.07.06

안녕하세요.

선택도가 떨어지는 건 커버링 인덱스 전략에 큰 영향 요소가 아닙니다. 즉 (is_private=FALSE이고 deleted_at IS NULL인 레코드 건수가 적다 하더라도, 이 2개 컬럼이 인덱스에 포함되면서 (클러스터링 인덱스에서) 테이블의 레코드를 읽지 않아도 된다는 것은 큰 장점이 될 수 있습니다.

커버링 인덱스에서 제가 우려했던 것은,

이 쿼리에서는 다행히(p.user_id가 PK의 일부로 참여하고 있는거죠?) post 테이블을 커버링으로 사용하고 있는데, 이런 류의 쿼리는 WHERE 조건절이 쉽게 바뀌는 특성이 있어요. 그럴 때마다 해당 컬럼을 인덱스에 계속 추가시켜줄 것인지가 걱정스러운 부분이었습니다.
그리고, 이 테이블에서 is_private=TRUE 이거나 deleted_at IS NOT NULL인 레코드의 비율이 20%라고 가정했을때, WHERE 조건절을 읽고 데이터 파일을 읽어서 최종적으로 버리는 레코드 건수가 20%라는 것인데, 그럼 지금 이 쿼리에서는 LIMIT 10 이므로, 12건 읽어서 2건 버리고 10건을 사용자에게 반환하게 되는데, 이정도면 매우 효율이 좋은 편입니다. 서비스의 특성과 쿼리의 빈도에 따라서 다를 수 있지만, 이런 쿼리까지 커버링 인덱스를 꼭 유도하지는 않아도 왠만해서는 괜찮다고 생각합니다. 만약 is_private=TRUE 이거나 deleted_at IS NOT NULL인 레코드의 비율이 매우 높다면, 이 컬럼들도 인덱스에 포함시켜주는 것만으로도 (커버링 인덱스가 아니어도) 충분히 효율적일 가능성이 높습니다.

제 설명이 조금 애매할 수 있지만, 실제 튜닝을 해야 할지 그대로 유지할지는 상대적인 기준으로 결정되기 때문에.. 명확히 몇건이면 커버링으로 하고, 몇건이면 커버링이 아니어도 괜찮다고 표현하기 어려운 점 양해 부탁드려요.

사용하시다가 쿼리의 성능이 많이 느린 것 같을 때, 더이상 튜닝할 여지가 없을 때 커버링을검토하시는 것이 좋습니다. 서비스 초기부터 커버링을 검토하면,,, 서비스 성장과 동시에 계속 요건이 변경되기 때문에... 커버링 최적화를 유지하기 어려운 경우가 많습니다.

마지막으로, is_private과 deleted_at 컬럼은 서비스의 특성 (데이터의 분포)에 따라서, (커버링이 목적이 아니어도) 인덱스에 추가하는 것이 효율적인 경우도 있을 수 있습니다.

감사합니다.

code-tree

질문자

2024.07.07

상세한 답변 감사합니다!!

code-tree

커버링 인덱스 질문 드립니다

이 글과 비슷한 Q&A

채팅 클라이언트는 누구와 연결되는지

섹션11 [UserModel 생성하기] postgresql Explorer 에서 UserModel 생성문제

비주얼 스튜디오 솔루션 탐색기 구조 짜는법

완전초보 질문 죄송합니다 ㅠ