크크루쿠쿠

Transformer (1) 본문

DeepLearning/부스트캠프 AI Tech

Transformer (1)

JH_KIM 2021. 9. 14. 22:12

Attention os all you need, NeurlPS'17

- No more RNN or CNN modules

 

RNN: Long-term dependency

정보를 계속 축적시켜가며 encoding 하게 된다.

길어질수록 앞의 단어의 정보가 손실,변질 위험이 크다.

 

Bi-Directional RNNs

양방향에서 나오는 hidden state를 concat하여 사용한다.

 Transformer: Long-Term Dependency

 

근처 단어 정보를 전부 반영한다.

보통 자기자신과의 내적 시 큰 값이 나온다. -> 자기자신 정보만 너무 큰것이 아닌가?

Queries -> 어느 벡터를 선별적으로 가져올지 정해주는 벡터

Keys -> 유사도를 구할 때 사용하는 재료 벡터

Values -> 나온 유사도에 가중치를 적용해서 사용할 재료 벡터  원래는 Key가 이 역할을 대체하였음.

 

입력: query 의 key-value set

출력: value의 가중평균

 

value vector는 query와 key vector와 차원이 맞을 필요가 없다. 

최종 식에서는 차원수에 루트를 씌운값으로 나눠주는데 이 값은 표준편차 값으로 softmax시 큰 값에 너무 쏠리는 현상을 막아준다.

'DeepLearning > 부스트캠프 AI Tech' 카테고리의 다른 글

[데이터 제작] 1. 데이터 제작의 A to Z  (0) 2021.11.08
Transformer (2)  (0) 2021.09.20
Beam Search and BLEU score  (0) 2021.09.13
Sequence to Sequence with Attention  (0) 2021.09.13
[NLP] LSTM and GRU  (0) 2021.09.07
Comments