크크루쿠쿠

[데이터 제작] 2. 자연어처리 데이터 기초 본문

DeepLearning/부스트캠프 AI Tech

[데이터 제작] 2. 자연어처리 데이터 기초

JH_KIM 2021. 11. 8. 14:09

인공지능 모델 개발을 위한 데이터

데이터의 종류

인공지능 기술의 발전

하려는 것은 같지만 어떻게 할지에 대해서만 변화가 있음!

 

언어 모델 평가를 위한 종합적인 벤치마크 등장

 

벤치마크 구성

 

데이터 관련 용어 정리

텍스트 text

주석,번역, 서문 및 부록 따위에 대한 본문이나 원문.

문장이 모여서 이루어진 한 덩어리의 글을 이룬다.

 

말뭉치 corpus, plural corpora

어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치

text archive vs corpus -> 아카이브는 기준,조건 없이 그냥 모아둔 것, 말뭉치는 특정한 기준을 갖고 모은것들

최근에는 그냥 텍스트 데이터 자체를 말뭉치라는 말을 쓰게 된다.

 

데이터 data

컴퓨터가 처리할 수 있는 문자,소리,숫자, 그림 따위의 형태로 된 정보

 

주석

주석 : tag, label, annotation

주석하다 : tagging, labeling

형태소 분석기 VS 형태소 주석기 -> 영어로는 POS tagger 의미적으론 주석기가 맞다.

 

언어학의 연구 분야

 

텍스트 데이터의 기본 단위

영어 말뭉치의 계량 단위 : 단어(= 띄어쓰기 단위) / 문장 또는 발화

한국어 말뭉치의 계량 단위 : 어절(= 띄어쓰기 단위) / 문장 또는 발화

한국어에서는 "단어"라는 의미가 띄어쓰기 단위와는 다르게 된다. -> 조금 골치가 아프다..

 

타입 type & 토큰 token

tokenization > lemmatization / POS tagging

토큰: 언어를 다루는 가장 작은 기본 단위 -> word, morpheme, subword

타입 : 토큰의 대표 형태

ex) "이 사람은 내가 알던 사람이 아니다" 

- tokenization : 이 사람 은  내 가 알 더 ㄴ 사람 이 아니 다 -> morpheme 기반

- lemmatization : 이, 사람, 나, 알다, 아니다

- POS tagging : 이/MM 사람/NNG+은/JX 나/NP+가/JKS 알/VV+더/EP+ᄂ/ETM 사람/NNG+이/JKS 아니/VA+다/EF

- 토큰 수 : 12개, 타입 수(겹치는 것 제외 ex)"이") : 10개

 

N-gram

연속된 N개의 단위. 입력된 단위는 글자, 형태소, 단어, 어절 등으로 사용자가 지정할 수 있음.

 

표상 representation

대표로 삼을 만큼 상징적인 것.

자연어를 컴퓨터가 이해하게끔 하는것! PLM,word2vec 같은것들

 

HTML (Hypertext Markup Language)

XML (EXtensible Markup Language)

HTML 과 다르게 태그를 맘대로 지정해서 사용할 수 있음

 

JSON, JSONL

속성-값 쌍, 키-값  쌍으로 이루어진 데이터 오브젝트를 전달하기 위해 사용하는 개방형 표준 포맷.

 

CSV,TSV

구분자 차이 -> 문자열에 comma 때문에 tsv 사용 추천

 

공개 데이터

경진대회 공개 데이터 : Kaggle, Dacon

국가 주도 공공 데이터

오픈소스 + benchmark : paperswithcode, nlpprogress

Comments