크크루쿠쿠

[데이터 제작] 6. 데이터 구축 작업 설계 본문

DeepLearning/부스트캠프 AI Tech

[데이터 제작] 6. 데이터 구축 작업 설계

JH_KIM 2021. 11. 10. 13:57

데이터 구축 프로세스

 

MAMA 과정

 

 

데이터 주석

데이터 주석 유형 1. 분류

문장 또는 텍스트에 대한 분류 레이블 주석하는 유형: 감성 분석, 주제 분류, 자연어 추론 등

-> 난이도는 낮은 편이다

트위치 문장 긍/부정 라벨링

 

데이터 주석 유형 2. 특정 범위(span) 주석 -NER, 형태 분석

텍스트 일부를 선택하여 특정 레이블을 주석하는 유형 - 개체명, 형태 분석 등

-> 난이도는 과제에 따라 다르다.

전체 Text에 하는것이 아닌 특정 단어, 어휘들에만 적용시킨다.

NER 예시

 

데이터 주석 유형 3. 대상 간 관계 주석 - 개체명 연결, 구문 분석

대상 간 관계를 주석해야 하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등

2번 유형에 한번 더 하는것 -> 난이도가 올라감

 

데이터 주석 유형 4. 텍스트 생성 - 번역

주어진 텍스트에 대한 텍스트 또는 발화를 생성하는 유형 - 대화문, 번역, 요약 등

 

데이터 주석 유형 5. 그 외 - 복합 유형

앞에 나온 유형들이 복합적으로 사용되는 유형 : 질의 응답, 슬롯필링 대화 등

 

 

데이터 검수

- 가이드라인 정합성 : 체계, 내용 등이 가이드라인에 부합하는가?

- 데이터 형식 : 메타데이터, 레이블 ,내용 등이 형식이 맞는가?

- 통계 정보 : 메타 데이터 및 레이블의 분포, 문장 길이, 단위 별 규모 확인

- 모델 성능 확인 : 결과값 확인

 

오류 원인 분석

- 구축방법 측면의 오류 원인 : 모델,데이터의 대상 선정,수집,정제, 라벨링 등의 통제 미흡으로 생길 수도

- 가이드라인 측면의 오류 원인 : 가이드라인을 지키지 않을 경우 품질이 안좋아짐

- 데이터셋 측면의 오류 원인 : 데이터셋 설계를 잘못했을 경우, 중복된 데이터를 수집했을 경우(어뷰징 기사)

- 학습모델 측면의 오류 원인 : 학습모델이 적합한 데이터 구축이 수행되지 않았거나 모델 선정에서의 오류

 

데이터 검수 유형

 

데이터 평가

 

데이터 구축 작업 설계 시 유의 사항

데이터 구축 기간은 넉넉하게 할 것

검수에 충분한 시간을 확보할 것

검수 내용을 언제 반영할것인가? 어떻게 할것인가?

품질 미달일 경우 어떻게 할 것인가

난이도에 따라 인력 선정해야함

단계별 작업 주체를 고려할 것

단계별 검수 유형을 지정해둘 것

외부 인력 및 자원을 활용하는 경우 비용 산정을 위해 기본 단가 산정 기준을 잘 세울 것

Comments