크크루쿠쿠

[데이터 제작] 1. 데이터 제작의 A to Z 본문

DeepLearning/부스트캠프 AI Tech

[데이터 제작] 1. 데이터 제작의 A to Z

JH_KIM 2021. 11. 8. 13:13

데이터 제작의 중요성

인공지능 서비스 개발 과정과 데이터

-> 각각 분야에서 얼마나 시간이 걸릴까??

실질적으로 프로젝트를 진행 시에 데이터 작업이 대부분의 시간을 차지한다.

-> 데이터가 얼마나 중요한지에 대해서 알 수 있다.

 

데이터 구축 과정

1. 원시 데이터 선정 및 확보 (저작권, task와 적합한가?)

원래 존재하는 데이터가 있다면 사용하는것을 추천! (매우 고통스럽다..)

2. 구축 및 가공 프로세스 확립 (어떻게 구축? 검수? 작업자는 누가?)

3. 구축 및 가공 지침 작성 (소통 및 교육)

4. 데이터 구축 및 가공 (여러 실패를 예상하고 해야함 기대 X, 작업자 관맆)

5. 데이터 검수 

 

AI 데이터 설계의 구성 요소

 

데이터 설계

1. 데이터의 유형

크게 4가지로 분류됨 : 소리, 텍스트, 이미지, 영상 -> 여러개가 혼합해서 나오는 멀티모델 데이터도 존재함

2. 데이터의 In/Out 형식

HTML, XML, CSV, TSV, TXT, JSON, JSONL JPG, Jpeg, PDF, png, ocr
.wav .mp3 .pcm .script 등등..

어떤 단계에서 어떤 형식을 쓰고 그런 것들을 미리 정해놔야함.

3. 데이터(train/dev(validation)/test)별 규모와 구분(split) 방식

규모 선정에 필요한 정보: 확보 가능한 원시데이터의 규모

구분 방식: 데이터별 비율과 기준 정하기 -> 랜덤? 특정 조건?

 

4. 데이터 주석 유형(NLP)

데이터 수집-가공 설계

원시 데이터 수집 방식: 전산화, 스크래핑, 작업자 작성 등등.. -> 적합한 데이터가 무엇인지 기준을 세워야함

작업자 선정: 전문가 vs 크라우드 소싱 -> 주석 작업의 난이도와 규모에 맞는 작업자 선정 및 관리

구축 및 검수 설계 : 파일럿,

데이터 구축 및 가공

- 파일럿 : 설계 시 발견하지 못한 이슈 발굴, 작업자 선정, 가이드라인 보완 및 개정

- 본 구축: 작업 일정 관리, 작업자 관리 , 중간 검수를 통해 품질 관리

 

데이터 검수 및 분석

- 전문가 : 샘플링 검사, 가이드라인 적합도 분석

- 자동 평가 및 분석 : 데이터 형식, 레이블 분포, 일괄적 수정 사항 반영

 

자연어처리 데이터

자연어란 무엇인가?

 

자연어 처리란 사람의 언어를 컴퓨터가 알아듣도록 처리하는 인터페이스 역할이다!

크게 자연어 이해와 자연어 생성으로 구성되어 있다.

최종 목표: 컴퓨터가 사람의 언어를 이해하고 여러 가지 문제를 수행할 수 있도록 하는 것

 

데이터 분류 방식

원천 데이터 장르(도메인) : 문어 (기사, 도서), 구어 (음성 기준, 음성을 텍스트로 바꾼 것들), 웹 (메신저 대화, 게시판)

과제의 유형 :  자연어 이해(형태 분석, 구문 분석, 문장 유사도 평가), 자연어 생성(기계 번역, 추상 요약), 혼합(챗봇)

자연어처리 데이터를 만들 때는 복잡한 과제도 단순화 하여서 단계별로 구축해야한다

Comments