일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- prompt engineering
- deque
- 머신러닝
- 코딩테스트
- 코테
- Deeplearning
- Linear Model
- 부스트캠프
- BFS
- 기계학습
- 프롬프트
- dl
- 프로그래머스
- Programmers
- Python
- NLP
- 일기
- 알고리즘
- GPT
- LLM
- Django
- LeetCode
- ChatGPT
- rnn
- 파이썬
- gradient descent
- Linear Regression
- transformer
- machinelearning
- attention
- Today
- Total
목록리스트 (91)
크크루쿠쿠
Multi-head Attention 동일한 V,K,Q에 대해서 여러 버전의 W 를 적용시켜 h개의 attention을 수행한다. 왜 필요한가? -> 특정한 쿼리에서 다양한 측면에서 정보를 뽑을 필요가 있다. Self-Attention -> 행렬의 계산을 한번에 하기 때문에 O(1) 로 가능 (GPU가 받쳐준다는 가정 하에) Recurrent -> 매 time step 마다 따로 계산해줘야 하기 때문에 O(n), 병렬화가 불가능하다. 하지만 메모리 관점에서는 Self-Attention이 더 많이 차지함. Transformer: Block based model Add & Norm 에서 Residual Connection이라 부르는 Add 와 Layer Noramlization을 거침 Add 과정을 통해 학..
Attention os all you need, NeurlPS'17 - No more RNN or CNN modules RNN: Long-term dependency 정보를 계속 축적시켜가며 encoding 하게 된다. 길어질수록 앞의 단어의 정보가 손실,변질 위험이 크다. Bi-Directional RNNs 양방향에서 나오는 hidden state를 concat하여 사용한다. Transformer: Long-Term Dependency 근처 단어 정보를 전부 반영한다. 보통 자기자신과의 내적 시 큰 값이 나온다. -> 자기자신 정보만 너무 큰것이 아닌가? Queries -> 어느 벡터를 선별적으로 가져올지 정해주는 벡터 Keys -> 유사도를 구할 때 사용하는 재료 벡터 Values -> 나온 유사도에..
Beam Search Greedy decoding 근시안적으로 현재 time step에서 좋아보이는것을 decode -> 중간에 오류가 나면 어떻게함? Exhaustive search 확률값을 제일 크게 만드는 y를 찾아야함! 앞에서 가장 큰 값만을 찾는게 아니라 적절하게 뒤에 값들도 고려를 해줘야함. -> 계산값이 너무 많아져서 불가능함 Beam search 앞의 경우 두개의 경우를 조합한 idea 매 time step마다 k개의 가지수를 고려해준다. 마지막 까지 고려한 뒤에 가장 적절한 후보를 뽑아준다. k = beam size (5~10) globally optimal solution을 항상 찾아주는것은 아니지만 계산량이 효율적임. k^2 개 중에서 k개만큼 골라서 나아간다. T 라는 timeste..
Seq2Seq Model Many to many 구조에 해당함 hidden state를 넘겨줌으로써 decode 과정을 거침 Seq2Seq with Attention - attention 으로 bottleneck problem을 해결해줌 - time step마다 decoder에서 단어를 생성해줌 전 단계에서 예측을 잘못 했더라도 올바른 답(Ground Truth)을 넣어서 다음 단계로 가는 방법 -> Teacher Forcing Teacher forcing을 안 썼을 경우가 실생활에 더 잘 맞음. 썼다 안썼다 잘 조합을 해야한다. Score dot 기본 내적 general score 부분에도 학습가능한 행렬을 넣어 단순내적 사용 X concat
Long Short-Term Memory (LSTM) 기존 Vanilla RNN 에서 가지는 문제를 해결하기 위해 나온 model 기존 RNN 식에서 Ct 라는 변수가 추가됨 -> cell state - i : input gate sigmoid를 거치고 나옴 - f : forget gate sigmoid를 거치고 나옴 element wise로 곱해줌으로써 얼만큼만 넘겨줄지 - o: output gate sigmoid를 거치고 나옴 hidden state 만들 때 사용 - g : gate gate tanh를 거치고 나옴 input gate와 gate gate를 곱해 Ct를 구해줌 Gated Recurrent Unit (GRU) What is GRU? cell state vector와 hidden state..
RNN - Basic structure (Vanilla RNN) 전 data 에서 나온 hidden state를 입력으로 들어간다. 왼쪽 -> rolled 오른쪽 -> unrolled - how to calculate the hidden state of RNNs ht-1: old hidden-state ht: new hidden-state fW: RNN function with parameters W Types of RNNs - One-to-one Standard Neural Network - One-to-many Image Captioning - many-to-one Sentiment Classification - Sequence-to-sequence Machine Translation -> 다 읽은 ..
Word Embedding - word를 vector로 변환하는것. - 'cat' 과 'kitty' 는 비슷한 단어 -> short distance - 'hamburger' 와 'cat'은 유사X -> far distance Word2Vec - 같은문장 내에서 인접한 단어는 유사도가 높을것이다 ex) 'The cat purrs.','This cat hunts mice' - "cat" 단어 주변 단어의 확률 분포를 갖게됨 How Word2Vec Algorithm Works Sentence: "I study math.", Vocabulary: {"I","study","math"}, Input: "study" [0,1,0], Output: "math" [0,0,1] word vector를 공간에 표현하면 wo..
Intro to Natural Language Processing(NLP) Natural language processing (major conferences: ACL, EMNLP, NAACL) - Low-level parsing - Tokenization, Stemming(어근 추출) - Word and phrase level - NER(고유명사 인식), POS tagging (품사,성분),noun-phrase chunking, dependency parsing, conference resolution - Sentence level - Sentiment analysis, machine translation - Multi-sentence and paragraph level - Entailment pred..