-
모델 성능 향상을 위한 데이터 처리 방법NAVER AI TECH 2023. 5. 25. 13:55
모델 성능 향상을 위해 어떤 데이터 처리 기법을 적용할 수 있을까?
- Tokenization
1) 음절
2) 문자
3) 형태소
4) 단어
여러 방법이 있지만 한국어가 교착어라는 점을 고려할 때 형태소 기반 서브워드 토큰화가 유리하다. - Data Augmentation
1) Rule-Based Techniques
[1] EDA(Easy Data Augmentation)을 한국어에 활용하고 싶다면 아래 링크를 참조하자.
https://github.com/catSirup/KorEDA
<1> SR(Synonym Replacement)
<2> RI(Random Insertion)
<3> RS(Random Swap)
<4> RD(Random Deletion)
[2] 추가적으로 UDA(Unsupervised Data Augmentation)을 활용할 수도 있다.
2) Model-Based Techniques
[1] BT(Back Translation)
[2] LLM for Paraphrasing - Data Filtering
병렬 말뭉치를 활용하여 다음 작업을 수행할 수 있다.
1) 언어 감지 필터
2) 수용 가능성 필터
3) 도메인 필터
하지만 현업에서는 지저분한 데이터가 들어오는 경우가 많기 때문에 Noised Data를 잘 처리하는
모델을 구축하는 것이 더 중요할 수 있다. - Training Strategies
- 커리큘럼 학습
구축된 데이터는 일관성이 있는 데이터일까?
IAA(Inter-Annotator Agreement)를 통해 평가해보자.
- Cohen's Kappa
평가자가 2명일 때 사용 - Fleiss' Kappa
평가자가 3명 이상일 때 사용 - Krippendorff’s Alpha
평가자에 의한 평가가 누락된 데이터가 있을 때 사용
현재 필요한 EDA(Exploratory Data Analysis)
- 현재 사용하는 토크나이저의 토큰화 방식 확인
- 현재 데이터의 Krippendorff's Alpha 확인
- Noise Synthetic Data(Grapheme to Phoneme) 처리 방안 연구
'NAVER AI TECH' 카테고리의 다른 글
CleanLab (0) 2023.06.04 Recent Work in Data-Centric NLP (0) 2023.05.31 NLP based Data-Centric AI (0) 2023.05.24 Data-Centric AI (0) 2023.05.23 9주차 Embedding 평가 방법 (0) 2023.05.03 - Tokenization