일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- LLM
- NLP
- Programmers
- rnn
- Django
- Linear Model
- 파이썬
- 알고리즘
- GPT
- dl
- gradient descent
- machinelearning
- Linear Regression
- transformer
- 일기
- BFS
- Deeplearning
- 코딩테스트
- attention
- ChatGPT
- 부스트캠프
- LeetCode
- 머신러닝
- 기계학습
- prompt engineering
- 프로그래머스
- 프롬프트
- deque
- 코테
- Python
- Today
- Total
크크루쿠쿠
[데이터 제작] 1. 데이터 제작의 A to Z 본문
데이터 제작의 중요성
인공지능 서비스 개발 과정과 데이터
-> 각각 분야에서 얼마나 시간이 걸릴까??
실질적으로 프로젝트를 진행 시에 데이터 작업이 대부분의 시간을 차지한다.
-> 데이터가 얼마나 중요한지에 대해서 알 수 있다.
데이터 구축 과정
1. 원시 데이터 선정 및 확보 (저작권, task와 적합한가?)
원래 존재하는 데이터가 있다면 사용하는것을 추천! (매우 고통스럽다..)
2. 구축 및 가공 프로세스 확립 (어떻게 구축? 검수? 작업자는 누가?)
3. 구축 및 가공 지침 작성 (소통 및 교육)
4. 데이터 구축 및 가공 (여러 실패를 예상하고 해야함 기대 X, 작업자 관맆)
5. 데이터 검수
AI 데이터 설계의 구성 요소
데이터 설계
1. 데이터의 유형
크게 4가지로 분류됨 : 소리, 텍스트, 이미지, 영상 -> 여러개가 혼합해서 나오는 멀티모델 데이터도 존재함
2. 데이터의 In/Out 형식
HTML, XML, CSV, TSV, TXT, JSON, JSONL JPG, Jpeg, PDF, png, ocr
.wav .mp3 .pcm .script 등등..
어떤 단계에서 어떤 형식을 쓰고 그런 것들을 미리 정해놔야함.
3. 데이터(train/dev(validation)/test)별 규모와 구분(split) 방식
규모 선정에 필요한 정보: 확보 가능한 원시데이터의 규모
구분 방식: 데이터별 비율과 기준 정하기 -> 랜덤? 특정 조건?
4. 데이터 주석 유형(NLP)
데이터 수집-가공 설계
원시 데이터 수집 방식: 전산화, 스크래핑, 작업자 작성 등등.. -> 적합한 데이터가 무엇인지 기준을 세워야함
작업자 선정: 전문가 vs 크라우드 소싱 -> 주석 작업의 난이도와 규모에 맞는 작업자 선정 및 관리
구축 및 검수 설계 : 파일럿,
데이터 구축 및 가공
- 파일럿 : 설계 시 발견하지 못한 이슈 발굴, 작업자 선정, 가이드라인 보완 및 개정
- 본 구축: 작업 일정 관리, 작업자 관리 , 중간 검수를 통해 품질 관리
데이터 검수 및 분석
- 전문가 : 샘플링 검사, 가이드라인 적합도 분석
- 자동 평가 및 분석 : 데이터 형식, 레이블 분포, 일괄적 수정 사항 반영
자연어처리 데이터
자연어란 무엇인가?
자연어 처리란 사람의 언어를 컴퓨터가 알아듣도록 처리하는 인터페이스 역할이다!
크게 자연어 이해와 자연어 생성으로 구성되어 있다.
최종 목표: 컴퓨터가 사람의 언어를 이해하고 여러 가지 문제를 수행할 수 있도록 하는 것
데이터 분류 방식
원천 데이터 장르(도메인) : 문어 (기사, 도서), 구어 (음성 기준, 음성을 텍스트로 바꾼 것들), 웹 (메신저 대화, 게시판)
과제의 유형 : 자연어 이해(형태 분석, 구문 분석, 문장 유사도 평가), 자연어 생성(기계 번역, 추상 요약), 혼합(챗봇)
자연어처리 데이터를 만들 때는 복잡한 과제도 단순화 하여서 단계별로 구축해야한다
'DeepLearning > 부스트캠프 AI Tech' 카테고리의 다른 글
[데이터 제작] 3. 자연어 처리 데이터 소개 (1) (0) | 2021.11.08 |
---|---|
[데이터 제작] 2. 자연어처리 데이터 기초 (0) | 2021.11.08 |
Transformer (2) (0) | 2021.09.20 |
Transformer (1) (0) | 2021.09.14 |
Beam Search and BLEU score (0) | 2021.09.13 |