일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- gradient descent
- Django
- NLP
- Linear Model
- BFS
- 프롬프트
- 파이썬
- GPT
- 머신러닝
- 알고리즘
- 기계학습
- Linear Regression
- 프로그래머스
- Python
- prompt engineering
- LeetCode
- attention
- dl
- 코테
- LLM
- ChatGPT
- Programmers
- deque
- 일기
- transformer
- Deeplearning
- 부스트캠프
- rnn
- 코딩테스트
- machinelearning
- Today
- Total
크크루쿠쿠
[데이터 제작] 4. 자연어 처리 데이터 소개 (2) 본문
최신 데이터셋을 찾는 법
https://paperswithcode.com/search?q_meta=&q_type=&q=lexical+semantic
https://aclweb.org/aclwiki/Main_Page
질의응답 Question Answering
SQuAD
위키피디아 데이터 기반으로 제작된 기계 독해 및 질의응답 데이터
https://rajpurkar.github.io/SQuAD-explorer/
1.0 vs 2.0
2.0 버전의 경우에는 한 문단만을 봐서는 대답하기 힘든 어려운 질문들이 들어가 있음.
+ 질문이 없는 article 삭제
기계 번역 Machine Translation
WMT 데이터셋
다국어 번역 데이터이며 두 언어간의 병렬 말뭉치로 구성됨
이런 형식으로 이루어져 있음.
http://www.statmt.org/wmt18/pdf/WMT028.pdf
요약 Text Summarization
CNN/Daily Mail
추상 요약 말뭉치. 기사에 대해서 사람이 직접 작성한 요약문이 쌍을 이루고 있다.
저작권 문제로 URL list 형태로 제공한다.
https://github.com/abisee/cnn-dailymail
대화 Dialogue
DSTC - Dialog System Technologyy Challenges
DSTC1,2,3...
Wizard-of-OZ
WoZ 방식으로 수집된 데이터셋
-> 참여자가 대화 시스템을 통해 대화를 하고 있다 생각하게 한 뒤 실제로는 실제 사람이 응답을 제시하고 대화를 이끌어내면서 대화를 수집하는 방식
https://huggingface.co/datasets/woz_dialogue
UDC
우분투 플랫폼 포럼의 대화를 수집한 데이터
비구조적 상호작용의 특성을 모두 갖고있다.
https://arxiv.org/pdf/1506.08909v3.pdf
'DeepLearning > 부스트캠프 AI Tech' 카테고리의 다른 글
[데이터 제작] 6. 데이터 구축 작업 설계 (0) | 2021.11.10 |
---|---|
[데이터 제작] 5. 원시 데이터의 수집과 가공 (0) | 2021.11.10 |
[데이터 제작] 3. 자연어 처리 데이터 소개 (1) (0) | 2021.11.08 |
[데이터 제작] 2. 자연어처리 데이터 기초 (0) | 2021.11.08 |
[데이터 제작] 1. 데이터 제작의 A to Z (0) | 2021.11.08 |