일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- rnn
- 기계학습
- 코딩테스트
- BFS
- 일기
- machinelearning
- prompt engineering
- 알고리즘
- 프롬프트
- attention
- Linear Model
- 머신러닝
- dl
- gradient descent
- ChatGPT
- 부스트캠프
- 프로그래머스
- Django
- transformer
- Python
- Programmers
- LLM
- 코테
- Linear Regression
- 파이썬
- deque
- LeetCode
- Deeplearning
- NLP
- GPT
- Today
- Total
크크루쿠쿠
[데이터 제작] 6. 데이터 구축 작업 설계 본문
데이터 구축 프로세스
데이터 주석
데이터 주석 유형 1. 분류
문장 또는 텍스트에 대한 분류 레이블 주석하는 유형: 감성 분석, 주제 분류, 자연어 추론 등
-> 난이도는 낮은 편이다
데이터 주석 유형 2. 특정 범위(span) 주석 -NER, 형태 분석
텍스트 일부를 선택하여 특정 레이블을 주석하는 유형 - 개체명, 형태 분석 등
-> 난이도는 과제에 따라 다르다.
전체 Text에 하는것이 아닌 특정 단어, 어휘들에만 적용시킨다.
데이터 주석 유형 3. 대상 간 관계 주석 - 개체명 연결, 구문 분석
대상 간 관계를 주석해야 하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등
2번 유형에 한번 더 하는것 -> 난이도가 올라감
데이터 주석 유형 4. 텍스트 생성 - 번역
주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 - 대화문, 번역, 요약 등
데이터 주석 유형 5. 그 외 - 복합 유형
앞에 나온 유형들이 복합적으로 사용되는 유형 : 질의 응답, 슬롯필링 대화 등
데이터 검수
- 가이드라인 정합성 : 체계, 내용 등이 가이드라인에 부합하는가?
- 데이터 형식 : 메타데이터, 레이블 ,내용 등이 형식이 맞는가?
- 통계 정보 : 메타 데이터 및 레이블의 분포, 문장 길이, 단위 별 규모 확인
- 모델 성능 확인 : 결과값 확인
오류 원인 분석
- 구축방법 측면의 오류 원인 : 모델,데이터의 대상 선정,수집,정제, 라벨링 등의 통제 미흡으로 생길 수도
- 가이드라인 측면의 오류 원인 : 가이드라인을 지키지 않을 경우 품질이 안좋아짐
- 데이터셋 측면의 오류 원인 : 데이터셋 설계를 잘못했을 경우, 중복된 데이터를 수집했을 경우(어뷰징 기사)
- 학습모델 측면의 오류 원인 : 학습모델이 적합한 데이터 구축이 수행되지 않았거나 모델 선정에서의 오류
데이터 검수 유형
데이터 평가
데이터 구축 작업 설계 시 유의 사항
데이터 구축 기간은 넉넉하게 할 것
검수에 충분한 시간을 확보할 것
검수 내용을 언제 반영할것인가? 어떻게 할것인가?
품질 미달일 경우 어떻게 할 것인가
난이도에 따라 인력 선정해야함
단계별 작업 주체를 고려할 것
단계별 검수 유형을 지정해둘 것
외부 인력 및 자원을 활용하는 경우 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것
'DeepLearning > 부스트캠프 AI Tech' 카테고리의 다른 글
[모델 최적화] 1. 최적화 소개 및 강의 개요 (0) | 2021.11.25 |
---|---|
[데이터 제작] 7. 데이터 구축 가이드라인 작성 기초 (0) | 2021.11.11 |
[데이터 제작] 5. 원시 데이터의 수집과 가공 (0) | 2021.11.10 |
[데이터 제작] 4. 자연어 처리 데이터 소개 (2) (0) | 2021.11.09 |
[데이터 제작] 3. 자연어 처리 데이터 소개 (1) (0) | 2021.11.08 |