default_batch_fetch_size 관련질문

Question

안녕하세요 선생님 최근 default_batch_fetch_size 관련 질문과 비슷한 상황이지만 조금 다릅니다.

현재 A 테이블과 B테이블이 one to many 로 연관관계가 있고 현재 A 테이블 기준으로 쿼리를 날린다음(테이블 B는 페치조인하지 않음) 서비스 단에서 (테이블 B)부분 lazy를 강제 초기화 해주고 있습니다.

제가 batchsize를 다르게 주면서 테스트를 해보았습니다.

1. 쿼리 결과물 : 180개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 1073개

default_batch_fetch_size=100

in 절에 나가는 batch size= 100, 50, 25, 5

총 4번 비정상 fetch size되로면 2번에 나가야함

2.쿼리 결과물 : 180개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 1073개

default_batch_fetch_size=80

in 절에 나가는 batch size= 80,80,20

총 3번 정상

3.쿼리 결과물 : 180개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 1073개

default_batch_fetch_size=500

in 절에 나가는 batch size= 125, 31, 15 ,9

총 4번 비정상 fetch size되로면 1번에 나가야함

4.쿼리 결과물 : 180개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 1073개

default_batch_fetch_size=180

in 절에 나가는 batch size= 180

총 1번 정상

5.쿼리 결과물 : 30개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 23개

default_batch_fetch_size=100

in 절에 나가는 batch size= 25, 5

총 2번 비정상 fetch size되로면 1번에 나가야함

6.쿼리 결과물 : 30개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 23개

default_batch_fetch_size=30

in 절에 나가는 batch size= 30

총 1번 정상

7.쿼리 결과물 : 30개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 23개

default_batch_fetch_size=20

in 절에 나가는 batch size= 20, 10

총 2번 정상

8.쿼리 결과물 : 30개(A 테이블 기준 결과물 갯수) B 테이블의 결과물은 23개

default_batch_fetch_size=500

in 절에 나가는 batch size= 15, 15

총 2번 비정상 fetch size되로면 1번에 나가야함

혹시 자체적으로 최적화 알고리즘이 적용되면서 이렇게 제각각 나가는건가요?

아니라면 혹시 저 in 절을 만드는 부분을 디버깅을 해볼려면 어떤 클래스를 찾아보면 될까요?

김영한 · Answer

안녕하세요. asdkfur님 좋은 질문입니다.

좀 깊은 내용이기는 하지만, 먼저 이렇게 동작하는 배경을 설명드릴께요.

보통 RDB들은 select * from x where in (?) 와 같은 preparedstatement는 미리 문법을 파싱해서 최대한 캐싱을 해둡니다.

그런데 데이터가 1개, 2개, 3개, 100개가 있으면 모두 각각 다음 처럼 최대 100개의 preparedstatement 쿼리를 만들어야 합니다.

select * from x where in (?)

select * from x where in (?, ?)

select * from x where in (?, ?, ?)

select * from x where in (?, ?, ? ...)

이렇게 되면 DB 입장에서 너무 많은 preparedstatement 쿼리를 캐싱해야 하고, 성능도 떨어지게 됩니다.

그래서 하이버네이트는 이 문제를 해결하기 위해 내부에서 나름 최적화를 합니다.

100 = 설정값

50 = 100/2

25 = 50/2

12 = 25/2

그리고 1~10까지는 자주 사용하니 모두 설정

이런식으로 잡아둡니다.

그러면 기존에 100개의 preparedstatement 모양을, 1~10, 12, 25, 50 ,100 해서 총 14개의 모양으로 최적화 할 수 있습니다.

이렇게 해서 100으로 최대값을 설정하고,

18을 설정하면 12, 6 이렇게 다음과 같이 나누어서 실행됩니다.

select * from x where in (?*12)

select * from x where in (?*6)

추가로 다음과 같은 속성으로 최적화 전략을 제어할 수 있습니다.

spring.jpa.properties.hibernate.batch_fetch_style: legacy //기본

spring.jpa.properties.hibernate.batch_fetch_style: padded

spring.jpa.properties.hibernate.batch_fetch_style: dynamic //최적화X

위에 말씀드린 전략이 기본 전략입니다.

최적화 대신에 설정한 값을 기준으로 사용하려면 dynamic를 선택하면 됩니다.(설명드린 내용 때문에 권장하지 않습니다.)

padded 전략은 다음을 참고해주세요: https://docs.jboss.org/hibernate/orm/4.2/manual/en-US/html/ch20.html#performance-fetching-batch

감사합니다^^

asdkfur · Answer

왜그런지 혼자 찾아보았지만 잘 나오지 않아  헤맸는데역시나 감사합니다. ㅎㅎ

인프런 커뮤니티 질문&답변

default_batch_fetch_size 관련질문