일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- deque
- 부스트캠프
- transformer
- dl
- rnn
- prompt engineering
- Django
- Linear Regression
- 코테
- 파이썬
- 기계학습
- Programmers
- 프롬프트
- ChatGPT
- LeetCode
- 일기
- 프로그래머스
- LLM
- Linear Model
- attention
- GPT
- Python
- 머신러닝
- machinelearning
- NLP
- gradient descent
- Deeplearning
- 코딩테스트
- 알고리즘
- BFS
- Today
- Total
목록machinelearning (5)
크크루쿠쿠
Transformer Sequential Model What makes sequential moedling a hard problem to handle? 이러한 다른 sequence 를 다루기 힘들어짐. Transformer Transformer is the first sequence transduction model based entirely on attention. -> recurrent한 구조X, attention 이라는 구조 활용 기계어 번역 뿐만 아니라 이미지 분류에도 활용될정도로 많은 활용가치가 있음. model 자체는 하나의 model이다. -> 몇개의 단어가 들어가든 한번에 처리함. - Encoder The Self-Attention in both encoder and decoder is ..
Text Classification Input : natural language sentence/paragraphOutput: category → text가 어디에 속해있는가?ex) spam, gmail categorization, election 하지만 언어 자체는 arbitrary 함!→ 어떻게 하지 그럼? Tokentoken은 그냥 아무렇게나 sentence를 쪼개놓은것 단어들을 찾아서 indexing 해줌→ integer index로 바뀜 Table Lookup하지만 이것도 arbitrary 하다. 우리는 neural net 이 의미를 capture할 수 있도록 해야함→ 각 토큰마다 continuous 한 vector를 줌 one hot vector와 weight matrix를 곱해줌 이를 Tab..
PyTorch forward/backward pass Forward pass. → 값을 대입함으로써 loss를 계산하는 과정 Backward pass ← 계산된 loss를 이용하여 뒷 방향으로 gradient값 chain rule이용해 넘겨줌 PyTorch Rhythm 1. model을 class와 Variables를 사용해서 디자인 해라 torch model에서 필요한 두가지 __ init __ forward init 함수는 말그대로 생성자 느낌. 여기 예시에서는 한개의 input 이 들어가 한개의 output이 나오므로 torch.nn.Linear(1,1)로 해줌 forward는 x라는 input을 model에 넣었을 때 예상값 2. loss함수와 optimizer 결정 전에 배웠던 MSE loss ..
역전파 알고리즘 Backpropagation 전에 본 예시들처럼 간단하다면 상관X But 인공지능 신경망이 이렇게 복잡하다면? → loss에 대한 gradient 값을 계산 불가능 농구의 자유투 연습을 생각해보자 자유투를 던지는 과정 → 순전파 과정 (forward propagation) 공이 도착한 위치를 보고 던지는 위치 수정 → Backpropagation 즉 loss를 구한 다음 그 loss를 뒤로 전파해가면서 변수들을 갱신해주는 것 그렇담 어떻게? Chain rule 역전파 방식을 사용하기 위해선 이 chain rule을 이용해야한다. 이런 방식으로 뒤로 미분값을 계속 곱해줌으로써 모든 parameter의 loss에 대한 미분값을 알 수 있음. 예시 y=w*x의 경우를 예시로 들어보자 x=1,y..
What is the learning? loss(MSE)를 최소화하는 w를 찾는것! 그렇담 어떻게 찾아야할까? Gradient Descent algorithm 편미분을 사용한다! 편미분을 사용해서 w값을 점점더 loss의 minimum값으로 이동시켜줌 이때 편미분값을 이용하여 한번 이동시 얼만큼 이동하느냐? 에 사용되는 parameter인 알파 즉 learning rate가 사용된다. Code 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 # Training Data x_data = [1.0, 2.0, 3.0] y_data = [2.0, 4.0, 6..