Data-Centric AI

NAVER AI TECH 2023. 5. 23. 12:57

앞으로 2주일 동안은 Data-Centric AI에 대해서 배울 예정이다. AI = Code + Data라고 할 때 Data에 전체 시간의 80%를 쏟게 된다는 강의 내용에 동의한다. 지금까지 두 번의 프로젝트를 진행했다. 그리고 모델의 성능 향상을 이끌었던 것은 데이터에 변화를 주는 방법이었다. 첫 번째 프로젝트에서는 Data Augmentation과 Oversampling 기법이 유용했고 두 번째 프로젝트에서는 Typed Entity Marker와 Semantic Typing 기법이 효과적이었다. 그래서 그런지 아래와 같은 표를 마주했을 때도 그다지 놀랍지 않았다. “Garbage In —> Garbage Out”이다.

2강에 들어가기 전에 이번 대회의 데이터를 잠시 보고 넘어가자.

KLUE-TC(YNAT) 데이터셋과 같은 포맷을 가진다. KLUE 논문을 보러 가자.

KLUE-TC (Yonhap News Agency Topic Classification (YNAT)): We formulate KLUE-TC as a multi-class classification problem with seven classes. Because the headline alone is often not enough to precisely identify the proper class to which it belongs, we manually annotate and keep 70,000 headlines, for each of which there was a majority consensus on the class by the annotators. We then use the consensus classes as ground-truth classes and use macro F1 score as an evaluation metric.

input_text: 뉴스 제목
label_text: 평가자에 의해 평가된 최종 라벨
predefined_news_category: 뉴스 내용 카테고리
annotations: 평가 내용(세 명의 평가자에 의해 1-3 순위로 평가됨)

하지만 잘 정제된 데이터라면 그대로 사용하면 된다. 역시 오류를 섞어 놓았다.

그렇다면 이번 프로젝트의 목표는 다음과 같을 것이라고 예상할 수 있다.

노이즈 데이터를 찾아 제거한다.
정상적인 데이터를 증강한다.

우선적으로는 1번이 진행되어야 할 것으로 보인다. 데이터의 양과 질이 모델 정확도에 미치는 영향을 비교한 그래프를 보면 질이 양보다 훨씬 중요하다는 것을 알 수 있다.

https://www.deeplearning.ai/wp-content/uploads/2021/06/MLOps-From-Model-centric-to-Data-centric-AI.pdf

이제 2강으로 들어가보자!

앞으로 대회를 진행하면서 검색하게 될 중요한 키워드를 얻을 수 있었다.

Keyword: Data Management, Data Augmentation, Data Filtering, Synthetic Data, Label Consistency, Data Consistency, Data Tool, DMOps, DataPerf

3강 내용이다. 다음 논문에 대해 다루고 있다. 실제로 논문을 읽으며 정리해보자.

DMOps: Data Management Operation and Recipes

해당 논문에서는 DMOps를 12단계로 나누어 구분하고 있다. Dataset을 어떻게 구축하면 좋을지 구조화해놓았다.

Establish the Project Goal
Secure Raw Data
Data Pre-processing
- adjusting the format of data
- filtering nonethical, privacy invading, and noisy data
Design a Data Schema
- designing an efficient annotation schema that captures all required information
Prepare a Guideline
Recruit Annotators
Instruct Annotators
Data Annotation
Data Internal Factor Verification
- inspectors must identify commonly occurring human errors
Data External Factor Verification
- 1) data sufficiency, 2) data diversity, 3) data trustworthiness, 4) data privacy and security, 5) data ethics suitability should be reviewed
Data Evaluation via Model Verification
Data Deliverables

대학원생 시절에 수행했던 국가과제에서 데이터셋을 만들었던 경험이 떠올랐다. 사전에 점검되지 않은 오류가 발생했을 때 얼마나 고생했었는지 기억난다. DL 분야에서는 빅데이터를 요구하는 경우가 많아 데이터 구축이 더 어려운 것 같다. 그렇다고 필요로 하는 데이터가 접근 가능한 상태로 세상에 존재하는 경우는 꽤나 드물 것이다. 최근 심리학 관련 빅데이터, 특별히 심리검사나 상담 관련 데이터를 찾고 있는데 내가 원하는 데이터는 전혀 찾지 못했다. 모델 구축보다 데이터 확보가 훨씬 더 어려운 것 같다.

'NAVER AI TECH' 카테고리의 다른 글

CleanLab (0)	2023.06.04
모델 성능 향상을 위한 데이터 처리 방법 (0)	2023.05.25
9주차 Embedding 평가 방법 (0)	2023.05.03
8주차 회고록 (AI 서비스 개발 기초) (0)	2023.04.28
7주차 회고록 (Level 1 Project 종료) (0)	2023.04.22

ABOUT ME

동산 동산

'NAVER AI TECH' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'NAVER AI TECH' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바