ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 모델 성능 향상을 위한 데이터 처리 방법
    NAVER AI TECH 2023. 5. 25. 13:55

    모델 성능 향상을 위해 어떤 데이터 처리 기법을 적용할 수 있을까?

    1. Tokenization
      1) 음절
      2) 문자
      3) 형태소
      4) 단어
      여러 방법이 있지만 한국어가 교착어라는 점을 고려할 때 형태소 기반 서브워드 토큰화가 유리하다.
    2. Data Augmentation
      1) Rule-Based Techniques
          [1] EDA(Easy Data Augmentation)을 한국어에 활용하고 싶다면 아래 링크를 참조하자.
               https://github.com/catSirup/KorEDA
               <1> SR(Synonym Replacement)
               <2> RI(Random Insertion)
               <3> RS(Random Swap)
               <4> RD(Random Deletion)
          [2] 추가적으로 UDA(Unsupervised Data Augmentation)을 활용할 수도 있다.
      2) Model-Based Techniques
          [1] BT(Back Translation)
          [2] LLM for Paraphrasing
    3. Data Filtering
      병렬 말뭉치를 활용하여 다음 작업을 수행할 수 있다.
      1) 언어 감지 필터
      2) 수용 가능성 필터
      3) 도메인 필터
      하지만 현업에서는 지저분한 데이터가 들어오는 경우가 많기 때문에 Noised Data를 잘 처리하는
      모델을 구축하는 것이 더 중요할 수 있다.
    4. Training Strategies
      - 커리큘럼 학습

     

    구축된 데이터는 일관성이 있는 데이터일까?

    IAA(Inter-Annotator Agreement)를 통해 평가해보자.

    1. Cohen's Kappa
      평가자가 2명일 때 사용
    2. Fleiss' Kappa
      평가자가 3명 이상일 때 사용
    3. Krippendorff’s Alpha
      평가자에 의한 평가가 누락된 데이터가 있을 때 사용

     

    현재 필요한 EDA(Exploratory Data Analysis)

    1. 현재 사용하는 토크나이저의 토큰화 방식 확인
    2. 현재 데이터의 Krippendorff's Alpha 확인
    3. Noise Synthetic Data(Grapheme to Phoneme) 처리 방안 연구

    'NAVER AI TECH' 카테고리의 다른 글

    NextRise 2023, Seoul 회고록  (0) 2023.06.04
    CleanLab  (0) 2023.06.04
    Data-Centric AI  (0) 2023.05.23
    9주차 Embedding 평가 방법  (0) 2023.05.03
    8주차 회고록 (AI 서비스 개발 기초)  (0) 2023.04.28

    댓글

Designed by Tistory.