일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 프롬프트
- Django
- transformer
- gradient descent
- LLM
- 파이썬
- Linear Model
- machinelearning
- dl
- deque
- Deeplearning
- BFS
- 코테
- 알고리즘
- ChatGPT
- 코딩테스트
- 부스트캠프
- attention
- Programmers
- 머신러닝
- 기계학습
- NLP
- prompt engineering
- GPT
- LeetCode
- 프로그래머스
- 일기
- rnn
- Python
- Linear Regression
- Today
- Total
목록DeepLearning (49)
크크루쿠쿠
데이터 구축 프로세스 데이터 주석 데이터 주석 유형 1. 분류 문장 또는 텍스트에 대한 분류 레이블 주석하는 유형: 감성 분석, 주제 분류, 자연어 추론 등 -> 난이도는 낮은 편이다 데이터 주석 유형 2. 특정 범위(span) 주석 -NER, 형태 분석 텍스트 일부를 선택하여 특정 레이블을 주석하는 유형 - 개체명, 형태 분석 등 -> 난이도는 과제에 따라 다르다. 전체 Text에 하는것이 아닌 특정 단어, 어휘들에만 적용시킨다. 데이터 주석 유형 3. 대상 간 관계 주석 - 개체명 연결, 구문 분석 대상 간 관계를 주석해야 하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등 2번 유형에 한번 더 하는것 -> 난이도가 올라감 데이터 주석 유형 4. 텍스트 생성 - 번역 주어진 텍스트에 대한 텍스트 ..
원시 데이터란? 과제를 해결하기 위해 수집한 데이터 로써 주석 단계를 거치지 않은 상태의 데이터 무엇을 검토해야 하는가? -> 원시 데이터의 종류 원시 데이터 수집 방식에 따른 분류 기존 데이터가 있다면 사용하는것이 최고다 원시 텍스트 데이터 사용역(장르)에 따른 분류 문어 -> 신문기사, 소설, 수필, 논문, 잡지, 보고서 구어 -> 일상 대화, 연설, 강연 (준구어 -> 방송 대본, 영화 대본 등) 전사하는것이 힘든 과정이라 준구어 데이터도 많이 사용한다(차선책). 웹 -> SNS, 커뮤니티 게시판, 메신저 대화, 블로그, 이메일 등 웹 같은 경우는 문어의 특성을 띄기도 하고 구어의 특성을 띄기도 한다. 원시 텍스트 데이터의 메타 정보 텍스트 외에 텍스트를 설명하는 정보 텍스트ID, 이름, 저장 정보..
최신 데이터셋을 찾는 법 http://nlpprogress.com/ Tracking Progress in Natural Language Processing Repository to track the progress in Natural Language Processing (NLP), including the datasets and the current state-of-the-art for the most common NLP tasks. nlpprogress.com https://paperswithcode.com/search?q_meta=&q_type=&q=lexical+semantic Papers with Code - Search for lexical semantic 10 search results pap..
국내 언어 데이터의 구축 프로젝트 세종 계획과 엑소 브레인의 차이는 언어학 중점으로 구축을 하였는가 아니면 인공지능을 위해 구축이 되었는가의 차이가 있다. 21세기 세종 계획 1998년부터 2007년까지 시행된 국어 정보화 중장기 발전 계획. 총 2억 어절의 자료 구축, 공개 -> XML 형식, 언어정보나눔터 누리집을 통해 배포하다 중단 후 DVD 로만 배포 -> 현재 한국어 데이터에 많은 영향을 끼쳤다 mecap, khaii 등등에서 형태 분석 태그표를 채용하였음. 모두의 말뭉치 2019년부터 데이터 구축을 시작했고 바로 그 해부터 공개를 시작하였다. 4차 산업혁명에서 필요한 한국어 학습 자료를 필요로 하기 때문에 공개되었다. 구어 비중을 높히고 주석이 조금 적더라도 원시 말뭉치를 수집해서 공개하는 방..
인공지능 모델 개발을 위한 데이터 데이터의 종류 인공지능 기술의 발전 하려는 것은 같지만 어떻게 할지에 대해서만 변화가 있음! 언어 모델 평가를 위한 종합적인 벤치마크 등장 벤치마크 구성 데이터 관련 용어 정리 텍스트 text 주석,번역, 서문 및 부록 따위에 대한 본문이나 원문. 문장이 모여서 이루어진 한 덩어리의 글을 이룬다. 말뭉치 corpus, plural corpora 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치 text archive vs corpus -> 아카이브는 기준,조건 없이 그냥 모아둔 것, 말뭉치는 특정한 기준을 갖고 모은것들 최근에는 그냥 텍스트 데이터 자체를 말뭉치라는 말을 쓰게 된다. 데이터 data 컴퓨터가 처리할 수 있는 문자,소리,숫자, 그림 따위의 형태로 된 정보..
데이터 제작의 중요성 인공지능 서비스 개발 과정과 데이터 -> 각각 분야에서 얼마나 시간이 걸릴까?? 실질적으로 프로젝트를 진행 시에 데이터 작업이 대부분의 시간을 차지한다. -> 데이터가 얼마나 중요한지에 대해서 알 수 있다. 데이터 구축 과정 1. 원시 데이터 선정 및 확보 (저작권, task와 적합한가?) 원래 존재하는 데이터가 있다면 사용하는것을 추천! (매우 고통스럽다..) 2. 구축 및 가공 프로세스 확립 (어떻게 구축? 검수? 작업자는 누가?) 3. 구축 및 가공 지침 작성 (소통 및 교육) 4. 데이터 구축 및 가공 (여러 실패를 예상하고 해야함 기대 X, 작업자 관맆) 5. 데이터 검수 AI 데이터 설계의 구성 요소 데이터 설계 1. 데이터의 유형 크게 4가지로 분류됨 : 소리, 텍스트,..
Multi-head Attention 동일한 V,K,Q에 대해서 여러 버전의 W 를 적용시켜 h개의 attention을 수행한다. 왜 필요한가? -> 특정한 쿼리에서 다양한 측면에서 정보를 뽑을 필요가 있다. Self-Attention -> 행렬의 계산을 한번에 하기 때문에 O(1) 로 가능 (GPU가 받쳐준다는 가정 하에) Recurrent -> 매 time step 마다 따로 계산해줘야 하기 때문에 O(n), 병렬화가 불가능하다. 하지만 메모리 관점에서는 Self-Attention이 더 많이 차지함. Transformer: Block based model Add & Norm 에서 Residual Connection이라 부르는 Add 와 Layer Noramlization을 거침 Add 과정을 통해 학..