크크루쿠쿠

[데이터 제작] 4. 자연어 처리 데이터 소개 (2) 본문

DeepLearning/부스트캠프 AI Tech

[데이터 제작] 4. 자연어 처리 데이터 소개 (2)

JH_KIM 2021. 11. 9. 14:18

최신 데이터셋을 찾는 법

http://nlpprogress.com/

 

Tracking Progress in Natural Language Processing

Repository to track the progress in Natural Language Processing (NLP), including the datasets and the current state-of-the-art for the most common NLP tasks.

nlpprogress.com

https://paperswithcode.com/search?q_meta=&q_type=&q=lexical+semantic 

 

Papers with Code - Search for lexical semantic

10 search results

paperswithcode.com

https://aclweb.org/aclwiki/Main_Page

 

https://aclweb.org/aclwiki/Main_Page

 

aclweb.org

질의응답 Question Answering

SQuAD

위키피디아 데이터 기반으로 제작된 기계 독해 및 질의응답 데이터

https://rajpurkar.github.io/SQuAD-explorer/

 

The Stanford Question Answering Dataset

What is SQuAD? Stanford Question Answering Dataset (SQuAD) is a reading comprehension dataset, consisting of questions posed by crowdworkers on a set of Wikipedia articles, where the answer to every question is a segment of text, or span, from the correspo

rajpurkar.github.io

1.0 vs 2.0

2.0 버전의 경우에는 한 문단만을 봐서는 대답하기 힘든 어려운 질문들이 들어가 있음.

+ 질문이 없는 article 삭제

 

기계 번역 Machine Translation

WMT 데이터셋

다국어 번역 데이터이며 두 언어간의 병렬 말뭉치로 구성됨

이런 형식으로 이루어져 있음.

http://www.statmt.org/wmt18/pdf/WMT028.pdf

요약 Text Summarization

CNN/Daily Mail

추상 요약 말뭉치. 기사에 대해서 사람이 직접 작성한 요약문이 쌍을 이루고 있다.

저작권 문제로 URL list 형태로 제공한다.

https://github.com/abisee/cnn-dailymail

 

GitHub - abisee/cnn-dailymail: Code to obtain the CNN / Daily Mail dataset (non-anonymized) for summarization

Code to obtain the CNN / Daily Mail dataset (non-anonymized) for summarization - GitHub - abisee/cnn-dailymail: Code to obtain the CNN / Daily Mail dataset (non-anonymized) for summarization

github.com

 

대화 Dialogue

DSTC - Dialog System Technologyy Challenges

DSTC1,2,3...

DSTC1 데이터 형식

 

Wizard-of-OZ

WoZ 방식으로 수집된 데이터셋

-> 참여자가 대화 시스템을 통해 대화를 하고 있다 생각하게 한 뒤 실제로는 실제 사람이 응답을 제시하고 대화를 이끌어내면서 대화를 수집하는 방식

https://huggingface.co/datasets/woz_dialogue

 

woz_dialogue · Datasets at Hugging Face

[ { "system_transcript": "", "turn_label": [ [ "food", "unusual" ], [ "price range", "cheap" ] ], "turn_idx": 0, "asr": [ [ "hello, i'm looking for a restaurant that serves unique and strange food, but nothing too expensive" ] ], "transcript": "hello, i'm

huggingface.co

 

UDC

우분투 플랫폼 포럼의 대화를 수집한 데이터

비구조적 상호작용의 특성을 모두 갖고있다.

https://arxiv.org/pdf/1506.08909v3.pdf

 

Comments