Section 16 [이론] Transformer의 Encoder... - 인프런

안녕하세요 변정현입니다!

(96번째 슬라이드 참조)

H는 기존의 attention의 query Q, key K, value V vector의 차원에 해당됩니다!

(113번째 슬라이드 참조)

그리고 M은 Multi-head attention의 Head의 개수입니다!

참고로, Multi-head을 사용할때, 저희는 각 Head에 해당되는 query, key, value vector들의 크기는 H/M으로 설정하게 됩니다. 그 이유는 다음과 같습니다.

Multi-head attention에서는 각 head가 output vector O_m을 하나씩 출력하게 됩니다.
따라서 M개의 output vector O_m을 구하게됩니다.
저희는 M개의 output vector들을 하나의 vector로 concatenation해서 최종 output vector인 O을 구하게 됩니다.
하지만, Q, K, V의 차원의 크기를 H로 그대로 사용하게 되면 concatenation된 최종 output vector O의 크기는 M*H가 됩니다.
그리고 Layer을 거듭할수록 M*H, M*M*H 이렇게 늘어나게 됩니다.
따라서 최종 출력되는 O의 크기가 일정하게 유지하기 위해서 각 head의 Q, K, V의 차원 크기를 H/M으로 설정하는 것입니다!

인프런 커뮤니티 질문&답변