미해결
최신 딥러닝 기술 Vision Transformer 개념부터 Pytorch 구현까지
멀티헤드 어텐션 효과
안녕하세요 좋은 강의 늘 감사드립니다!
멀티헤드 어텐션 관련 궁금한 사항이 있는데요
헤드별로 개별 계산을 하면 어텐션 스코어 행렬 자체가 헤드 수만큼 나오는데
reshpape하여 한번에 진행 하는 거면 헤드를 나누지 않고 어텐션을 적용한 결과와 동일하지 않나요?
목적이 훈련 간 가중치 행렬들의 업데이트 되는 공간과 값들이 헤드 수만큼 분리되서 업데이트 되니
그 부분에 대하 정보의 차이를 기대하는게 맞다고 보면 될까요?
이것도 아니라면 단순히 병렬처리 속도 차이를 위함일까요~
(추가)
검색 해보니 softmax 함수로 인해서 Attention을 나눠서하면 값이 다르다는 글이 있는데
이게 맞다면 결과론적으로 최종 결과치가 일괄로 진행하는 것과 멀티헤드로 진행하는 것의 차이가
있는게 맞겠죠?^^