일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- gradient descent
- Python
- 부스트캠프
- LLM
- dl
- machinelearning
- 프로그래머스
- 기계학습
- transformer
- attention
- Linear Model
- rnn
- prompt engineering
- Programmers
- deque
- BFS
- Deeplearning
- 코딩테스트
- GPT
- 일기
- LeetCode
- NLP
- 코테
- 알고리즘
- Linear Regression
- ChatGPT
- 머신러닝
- 파이썬
- 프롬프트
- Django
- Today
- Total
크크루쿠쿠
[데이터 제작] 2. 자연어처리 데이터 기초 본문
인공지능 모델 개발을 위한 데이터
데이터의 종류
인공지능 기술의 발전
하려는 것은 같지만 어떻게 할지에 대해서만 변화가 있음!
언어 모델 평가를 위한 종합적인 벤치마크 등장
벤치마크 구성
데이터 관련 용어 정리
텍스트 text
주석,번역, 서문 및 부록 따위에 대한 본문이나 원문.
문장이 모여서 이루어진 한 덩어리의 글을 이룬다.
말뭉치 corpus, plural corpora
어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치
text archive vs corpus -> 아카이브는 기준,조건 없이 그냥 모아둔 것, 말뭉치는 특정한 기준을 갖고 모은것들
최근에는 그냥 텍스트 데이터 자체를 말뭉치라는 말을 쓰게 된다.
데이터 data
컴퓨터가 처리할 수 있는 문자,소리,숫자, 그림 따위의 형태로 된 정보
주석
주석 : tag, label, annotation
주석하다 : tagging, labeling
형태소 분석기 VS 형태소 주석기 -> 영어로는 POS tagger 의미적으론 주석기가 맞다.
언어학의 연구 분야
텍스트 데이터의 기본 단위
영어 말뭉치의 계량 단위 : 단어(= 띄어쓰기 단위) / 문장 또는 발화
한국어 말뭉치의 계량 단위 : 어절(= 띄어쓰기 단위) / 문장 또는 발화
한국어에서는 "단어"라는 의미가 띄어쓰기 단위와는 다르게 된다. -> 조금 골치가 아프다..
타입 type & 토큰 token
tokenization > lemmatization / POS tagging
토큰: 언어를 다루는 가장 작은 기본 단위 -> word, morpheme, subword
타입 : 토큰의 대표 형태
ex) "이 사람은 내가 알던 사람이 아니다"
- tokenization : 이 사람 은 내 가 알 더 ㄴ 사람 이 아니 다 -> morpheme 기반
- lemmatization : 이, 사람, 나, 알다, 아니다
- POS tagging : 이/MM 사람/NNG+은/JX 나/NP+가/JKS 알/VV+더/EP+ᄂ/ETM 사람/NNG+이/JKS 아니/VA+다/EF
- 토큰 수 : 12개, 타입 수(겹치는 것 제외 ex)"이") : 10개
N-gram
연속된 N개의 단위. 입력된 단위는 글자, 형태소, 단어, 어절 등으로 사용자가 지정할 수 있음.
표상 representation
대표로 삼을 만큼 상징적인 것.
자연어를 컴퓨터가 이해하게끔 하는것! PLM,word2vec 같은것들
HTML (Hypertext Markup Language)
XML (EXtensible Markup Language)
HTML 과 다르게 태그를 맘대로 지정해서 사용할 수 있음
JSON, JSONL
속성-값 쌍, 키-값 쌍으로 이루어진 데이터 오브젝트를 전달하기 위해 사용하는 개방형 표준 포맷.
CSV,TSV
구분자 차이 -> 문자열에 comma 때문에 tsv 사용 추천
공개 데이터
경진대회 공개 데이터 : Kaggle, Dacon
국가 주도 공공 데이터
오픈소스 + benchmark : paperswithcode, nlpprogress
'DeepLearning > 부스트캠프 AI Tech' 카테고리의 다른 글
[데이터 제작] 4. 자연어 처리 데이터 소개 (2) (0) | 2021.11.09 |
---|---|
[데이터 제작] 3. 자연어 처리 데이터 소개 (1) (0) | 2021.11.08 |
[데이터 제작] 1. 데이터 제작의 A to Z (0) | 2021.11.08 |
Transformer (2) (0) | 2021.09.20 |
Transformer (1) (0) | 2021.09.14 |