일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Programmers
- 프로그래머스
- 알고리즘
- dl
- LeetCode
- prompt engineering
- Deeplearning
- Python
- transformer
- gradient descent
- 코딩테스트
- LLM
- NLP
- 코테
- Linear Model
- attention
- deque
- Linear Regression
- 기계학습
- Django
- BFS
- 프롬프트
- 부스트캠프
- machinelearning
- rnn
- 머신러닝
- GPT
- ChatGPT
- 일기
- 파이썬
- Today
- Total
목록DeepLearning/부스트캠프 AI Tech (36)
크크루쿠쿠
Overview Data Engineering 이란. 사람이 직접 해야한다는게 문제 -> 이걸 자동으로 하자! AutoML DL model Configuration (Architecture, Hyperparameter)의 특징 1. 주요 타입 구분 A. Categorical : optimizer, module B. Continuous : learning rate, regularization param C. integer : batch_size 2. Conditional 한 configuration 에 따라 search space가 달라질 수 있음 A. Optimizer의 sample에 따라서 parameter의 종류, search space도 달라짐. B. Module의 sample에 따라 module의..
Introduction(경량화) 1) On device AI - 파워에 대한 제약이 있다. 2) AI on cloud - latency와 throughput의 제약이 존재한다. -> 사용량이 돈과 직결되기 때문에 3) Computation as a key component of AI progress 날이 갈수록 필요한 성능이 exponential 하게 증가함 경량화 분야 소개 경량화,최적화의 종류 - 네트워크 구조 관점 1. Efficient Architecture Design ( AutoML; NAS) 매년 나오는 블록 모듈들이 특성이 전부 다름 NAS -> 모델을 찾는 네트워크 -> 사람의 직관을 상회하는 모델을 찾을 수 있음. 2. Network Pruning 중요도가 낮은 파라미터를 제거하는 것...
문서형 가이드라인 예시 튜토리얼 가이드라인 예시 가이드라인의 구성 요소 데이터 수집 및 정제 작업 : 데이터 정의, 특성 분석, 정제 방식, 도구, 고려 사항 ->수집을 위한 가이드 라인 데이터 주석 작업 : 특성 분류 체계, 주석 방법 및 절차, 형식과 정의,주석 도구 사용법, 주석 완료 후 관리 방법, 반려 및 통과 기준 -> 주석을 위한 가이드 라인 데이터 검수 및 평가 : 검수 절차 정의, 검수 방식, 평가 지표, 검수 결과 분석법, 검수 결과 반영법 -> 검수를 위한 가이드라인 ex) 서울시 -> location 과 organization 둘다 가능한데 하나로만 정할것인가? 문맥에 따라 할것인가? 가이드라인 버전 관리 가이드라인은 구축과 검수 과정을 통해 지속적으로 개정되어야 함. 개정 전과 개..
데이터 구축 프로세스 데이터 주석 데이터 주석 유형 1. 분류 문장 또는 텍스트에 대한 분류 레이블 주석하는 유형: 감성 분석, 주제 분류, 자연어 추론 등 -> 난이도는 낮은 편이다 데이터 주석 유형 2. 특정 범위(span) 주석 -NER, 형태 분석 텍스트 일부를 선택하여 특정 레이블을 주석하는 유형 - 개체명, 형태 분석 등 -> 난이도는 과제에 따라 다르다. 전체 Text에 하는것이 아닌 특정 단어, 어휘들에만 적용시킨다. 데이터 주석 유형 3. 대상 간 관계 주석 - 개체명 연결, 구문 분석 대상 간 관계를 주석해야 하는 유형 - 관계 추출, 개체명 연결, 구문 분석 등 2번 유형에 한번 더 하는것 -> 난이도가 올라감 데이터 주석 유형 4. 텍스트 생성 - 번역 주어진 텍스트에 대한 텍스트 ..
원시 데이터란? 과제를 해결하기 위해 수집한 데이터 로써 주석 단계를 거치지 않은 상태의 데이터 무엇을 검토해야 하는가? -> 원시 데이터의 종류 원시 데이터 수집 방식에 따른 분류 기존 데이터가 있다면 사용하는것이 최고다 원시 텍스트 데이터 사용역(장르)에 따른 분류 문어 -> 신문기사, 소설, 수필, 논문, 잡지, 보고서 구어 -> 일상 대화, 연설, 강연 (준구어 -> 방송 대본, 영화 대본 등) 전사하는것이 힘든 과정이라 준구어 데이터도 많이 사용한다(차선책). 웹 -> SNS, 커뮤니티 게시판, 메신저 대화, 블로그, 이메일 등 웹 같은 경우는 문어의 특성을 띄기도 하고 구어의 특성을 띄기도 한다. 원시 텍스트 데이터의 메타 정보 텍스트 외에 텍스트를 설명하는 정보 텍스트ID, 이름, 저장 정보..
최신 데이터셋을 찾는 법 http://nlpprogress.com/ Tracking Progress in Natural Language Processing Repository to track the progress in Natural Language Processing (NLP), including the datasets and the current state-of-the-art for the most common NLP tasks. nlpprogress.com https://paperswithcode.com/search?q_meta=&q_type=&q=lexical+semantic Papers with Code - Search for lexical semantic 10 search results pap..
국내 언어 데이터의 구축 프로젝트 세종 계획과 엑소 브레인의 차이는 언어학 중점으로 구축을 하였는가 아니면 인공지능을 위해 구축이 되었는가의 차이가 있다. 21세기 세종 계획 1998년부터 2007년까지 시행된 국어 정보화 중장기 발전 계획. 총 2억 어절의 자료 구축, 공개 -> XML 형식, 언어정보나눔터 누리집을 통해 배포하다 중단 후 DVD 로만 배포 -> 현재 한국어 데이터에 많은 영향을 끼쳤다 mecap, khaii 등등에서 형태 분석 태그표를 채용하였음. 모두의 말뭉치 2019년부터 데이터 구축을 시작했고 바로 그 해부터 공개를 시작하였다. 4차 산업혁명에서 필요한 한국어 학습 자료를 필요로 하기 때문에 공개되었다. 구어 비중을 높히고 주석이 조금 적더라도 원시 말뭉치를 수집해서 공개하는 방..
인공지능 모델 개발을 위한 데이터 데이터의 종류 인공지능 기술의 발전 하려는 것은 같지만 어떻게 할지에 대해서만 변화가 있음! 언어 모델 평가를 위한 종합적인 벤치마크 등장 벤치마크 구성 데이터 관련 용어 정리 텍스트 text 주석,번역, 서문 및 부록 따위에 대한 본문이나 원문. 문장이 모여서 이루어진 한 덩어리의 글을 이룬다. 말뭉치 corpus, plural corpora 어떤 기준으로든 한 덩어리로 볼 수 있는 말의 뭉치 text archive vs corpus -> 아카이브는 기준,조건 없이 그냥 모아둔 것, 말뭉치는 특정한 기준을 갖고 모은것들 최근에는 그냥 텍스트 데이터 자체를 말뭉치라는 말을 쓰게 된다. 데이터 data 컴퓨터가 처리할 수 있는 문자,소리,숫자, 그림 따위의 형태로 된 정보..