Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- prompt engineering
- Deeplearning
- LeetCode
- ChatGPT
- BFS
- gradient descent
- 파이썬
- 프로그래머스
- Linear Regression
- transformer
- attention
- Python
- deque
- NLP
- 부스트캠프
- 일기
- rnn
- LLM
- 기계학습
- Programmers
- 프롬프트
- Django
- 코딩테스트
- 머신러닝
- 코테
- machinelearning
- Linear Model
- GPT
- 알고리즘
- dl
Archives
- Today
- Total
크크루쿠쿠
Transformer (1) 본문
Attention os all you need, NeurlPS'17
- No more RNN or CNN modules
RNN: Long-term dependency
정보를 계속 축적시켜가며 encoding 하게 된다.
길어질수록 앞의 단어의 정보가 손실,변질 위험이 크다.
Bi-Directional RNNs
양방향에서 나오는 hidden state를 concat하여 사용한다.
Transformer: Long-Term Dependency
근처 단어 정보를 전부 반영한다.
보통 자기자신과의 내적 시 큰 값이 나온다. -> 자기자신 정보만 너무 큰것이 아닌가?
Queries -> 어느 벡터를 선별적으로 가져올지 정해주는 벡터
Keys -> 유사도를 구할 때 사용하는 재료 벡터
Values -> 나온 유사도에 가중치를 적용해서 사용할 재료 벡터 원래는 Key가 이 역할을 대체하였음.
입력: query 의 key-value set
출력: value의 가중평균
value vector는 query와 key vector와 차원이 맞을 필요가 없다.
최종 식에서는 차원수에 루트를 씌운값으로 나눠주는데 이 값은 표준편차 값으로 softmax시 큰 값에 너무 쏠리는 현상을 막아준다.
'DeepLearning > 부스트캠프 AI Tech' 카테고리의 다른 글
[데이터 제작] 1. 데이터 제작의 A to Z (0) | 2021.11.08 |
---|---|
Transformer (2) (0) | 2021.09.20 |
Beam Search and BLEU score (0) | 2021.09.13 |
Sequence to Sequence with Attention (0) | 2021.09.13 |
[NLP] LSTM and GRU (0) | 2021.09.07 |
Comments