크크루쿠쿠

[데이터 제작] 3. 자연어 처리 데이터 소개 (1) 본문

DeepLearning/부스트캠프 AI Tech

[데이터 제작] 3. 자연어 처리 데이터 소개 (1)

JH_KIM 2021. 11. 8. 14:51

국내 언어 데이터의 구축 프로젝트

세종 계획과 엑소 브레인의 차이는 언어학 중점으로 구축을 하였는가 아니면 인공지능을 위해 구축이 되었는가의 차이가 있다.

 

21세기 세종 계획

1998년부터 2007년까지 시행된 국어 정보화 중장기 발전 계획. 총 2억 어절의 자료 구축, 공개

-> XML 형식, 언어정보나눔터 누리집을 통해 배포하다 중단 후 DVD 로만 배포

-> 현재 한국어 데이터에 많은 영향을 끼쳤다

mecap, khaii 등등에서 형태 분석 태그표를 채용하였음.

 

모두의 말뭉치

2019년부터 데이터 구축을 시작했고 바로 그 해부터 공개를 시작하였다.

4차 산업혁명에서 필요한 한국어 학습 자료를 필요로 하기 때문에 공개되었다.

구어 비중을 높히고 주석이 조금 적더라도 원시 말뭉치를 수집해서 공개하는 방식을 사용하였다.

학습,검증,평가용 데이터가 나누어져 있지 않으므로 커스텀으로 나누어야 함

원시 말뭉치와 주석 말뭉치로 구성되어있음.

 

엑소브레인

엑소브레인: 내 몸 바깥에 있는 인공 두뇌

세종계획과 주석 말뭉치의 쳬게를 확장하고 추가해서 TTA 표준안 마련

첫 목표가 장학퀴즈 대회 우승이였다 보니 태그가 엄청 세분화 되어서 다양함

 

AI 허브

AI 기술 및 제품,서비스 개발에 필요한 AI 인프라를 지원하는 누구나 활용하고 참여하는 AI 통합 플랫폼

 

KLUE

한국어 이해 능력 평가를 위핸 벤치마크 -> 다양한 task가 존재함

 

KorQuAD

SQuAD를 벤치마킹해서 나온 한국어 QA 데이터셋

 

KorNLU

영어로 된 자연어 추론 및 문장 의미 유사도를 기계 번역한 것

 

 

Comments