Attention 메커니즘 : 디코더에서 출력벡터를 예측할 때 인코더의 입력 문장을 참고한다. 즉, 엔코더와 디코더의 입력벡터들간의 유사도를 구해서 **해당 시점에서 예측해야할 단어와 연관이 있는 입력 단어 부분을 좀 더 집중(attention)**한다.
Attention 과정 :
Query와 Key의 행렬곱을 Softmax 함수를 취해 나온 Attention Weight(a) 와 Value의 곱을 통한 Attention 값(Output feature)
출처 :
15-01 어텐션 메커니즘 (Attention Mechanism)
Self-Attention 메커니즘
Transformer 모델에서 사용된다. Transformer는 RNN 구조(입력 벡터의 순서를 고려)를 사용하지 않고, 인코더-디코더 구조에서 Attention 모듈만 사용한다.
기존의 Attention 메커니즘(엔코더와 디코더의 유사도)과 달리, Self-Attention은 입력 문장 내의 단어들끼리 유사도를 구한다.