ABOUT ME

-

Today: -

Yesterday: -

Total: -

동산 동산

모델 성능 향상을 위한 데이터 처리 방법

NAVER AI TECH 2023. 5. 25. 13:55

모델 성능 향상을 위해 어떤 데이터 처리 기법을 적용할 수 있을까?

Tokenization
1) 음절
2) 문자
3) 형태소
4) 단어
여러 방법이 있지만 한국어가 교착어라는 점을 고려할 때 형태소 기반 서브워드 토큰화가 유리하다.
Data Augmentation
1) Rule-Based Techniques
[1] EDA(Easy Data Augmentation)을 한국어에 활용하고 싶다면 아래 링크를 참조하자.
https://github.com/catSirup/KorEDA
<1> SR(Synonym Replacement)
<2> RI(Random Insertion)
<3> RS(Random Swap)
<4> RD(Random Deletion)
[2] 추가적으로 UDA(Unsupervised Data Augmentation)을 활용할 수도 있다.
2) Model-Based Techniques
[1] BT(Back Translation)
[2] LLM for Paraphrasing
Data Filtering
병렬 말뭉치를 활용하여 다음 작업을 수행할 수 있다.
1) 언어 감지 필터
2) 수용 가능성 필터
3) 도메인 필터
하지만 현업에서는 지저분한 데이터가 들어오는 경우가 많기 때문에 Noised Data를 잘 처리하는
모델을 구축하는 것이 더 중요할 수 있다.
Training Strategies
- 커리큘럼 학습

구축된 데이터는 일관성이 있는 데이터일까?

IAA(Inter-Annotator Agreement)를 통해 평가해보자.

Cohen's Kappa
평가자가 2명일 때 사용
Fleiss' Kappa
평가자가 3명 이상일 때 사용
Krippendorff’s Alpha
평가자에 의한 평가가 누락된 데이터가 있을 때 사용

현재 필요한 EDA(Exploratory Data Analysis)

현재 사용하는 토크나이저의 토큰화 방식 확인
현재 데이터의 Krippendorff's Alpha 확인
Noise Synthetic Data(Grapheme to Phoneme) 처리 방안 연구

'NAVER AI TECH' 카테고리의 다른 글

NextRise 2023, Seoul 회고록 (0)	2023.06.04
CleanLab (0)	2023.06.04
Data-Centric AI (0)	2023.05.23
9주차 Embedding 평가 방법 (0)	2023.05.03
8주차 회고록 (AI 서비스 개발 기초) (0)	2023.04.28

관련글 관련글 더보기

댓글

인기포스트

ABOUT ME

LINK

ADMIN

티스토리툴바