ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Data-Centric AI
    NAVER AI TECH 2023. 5. 23. 12:57

    앞으로 2주일 동안은 Data-Centric AI에 대해서 배울 예정이다. AI = Code + Data라고 할 때 Data에 전체 시간의 80%를 쏟게 된다는 강의 내용에 동의한다. 지금까지 두 번의 프로젝트를 진행했다. 그리고 모델의 성능 향상을 이끌었던 것은 데이터에 변화를 주는 방법이었다. 첫 번째 프로젝트에서는 Data Augmentation과 Oversampling 기법이 유용했고 두 번째 프로젝트에서는 Typed Entity Marker와 Semantic Typing 기법이 효과적이었다. 그래서 그런지 아래와 같은 표를 마주했을 때도 그다지 놀랍지 않았다. “Garbage In —> Garbage Out”이다.

    부스트캠프 AI Tech NLP Data-Centric 2강

     

    2강에 들어가기 전에 이번 대회의 데이터를 잠시 보고 넘어가자.

     

    KLUE-TC(YNAT) 데이터셋과 같은 포맷을 가진다. KLUE 논문을 보러 가자.

    KLUE-TC (Yonhap News Agency Topic Classification (YNAT)): We formulate KLUE-TC as a multi-class classification problem with seven classes. Because the headline alone is often not enough to precisely identify the proper class to which it belongs, we manually annotate and keep 70,000 headlines, for each of which there was a majority consensus on the class by the annotators. We then use the consensus classes as ground-truth classes and use macro F1 score as an evaluation metric.

    • input_text: 뉴스 제목
    • label_text: 평가자에 의해 평가된 최종 라벨
    • predefined_news_category: 뉴스 내용 카테고리
    • annotations: 평가 내용(세 명의 평가자에 의해 1-3 순위로 평가됨)

     

    하지만 잘 정제된 데이터라면 그대로 사용하면 된다. 역시 오류를 섞어 놓았다.

    그렇다면 이번 프로젝트의 목표는 다음과 같을 것이라고 예상할 수 있다.

    1. 노이즈 데이터를 찾아 제거한다.
    2. 정상적인 데이터를 증강한다.

    우선적으로는 1번이 진행되어야 할 것으로 보인다. 데이터의 양과 질이 모델 정확도에 미치는 영향을 비교한 그래프를 보면 질이 양보다 훨씬 중요하다는 것을 알 수 있다.

    https://www.deeplearning.ai/wp-content/uploads/2021/06/MLOps-From-Model-centric-to-Data-centric-AI.pdf

     

    이제 2강으로 들어가보자!

    앞으로 대회를 진행하면서 검색하게 될 중요한 키워드를 얻을 수 있었다.

    Keyword: Data Management, Data Augmentation, Data Filtering, Synthetic Data, Label Consistency, Data Consistency, Data Tool, DMOps, DataPerf

     

    3강 내용이다. 다음 논문에 대해 다루고 있다. 실제로 논문을 읽으며 정리해보자.

    DMOps: Data Management Operation and Recipes

    해당 논문에서는 DMOps를 12단계로 나누어 구분하고 있다. Dataset을 어떻게 구축하면 좋을지 구조화해놓았다.

    1. Establish the Project Goal
    2. Secure Raw Data
    3. Data Pre-processing
      - adjusting the format of data
      - filtering nonethical, privacy invading, and noisy data
    4. Design a Data Schema
      - designing an efficient annotation schema that captures all required information
    5. Prepare a Guideline
    6. Recruit Annotators
    7. Instruct Annotators
    8. Data Annotation
    9. Data Internal Factor Verification
      - inspectors must identify commonly occurring human errors 
    10. Data External Factor Verification
      - 1) data sufficiency, 2) data diversity, 3) data trustworthiness, 4) data privacy and security, 5) data ethics suitability should be reviewed
    11. Data Evaluation via Model Verification
    12. Data Deliverables

    대학원생 시절에 수행했던 국가과제에서 데이터셋을 만들었던 경험이 떠올랐다. 사전에 점검되지 않은 오류가 발생했을 때 얼마나 고생했었는지 기억난다. DL 분야에서는 빅데이터를 요구하는 경우가 많아 데이터 구축이 더 어려운 것 같다. 그렇다고 필요로 하는 데이터가 접근 가능한 상태로 세상에 존재하는 경우는 꽤나 드물 것이다. 최근 심리학 관련 빅데이터, 특별히 심리검사나 상담 관련 데이터를 찾고 있는데 내가 원하는 데이터는 전혀 찾지 못했다. 모델 구축보다 데이터 확보가 훨씬 더 어려운 것 같다.

     

     

    댓글

Designed by Tistory.