전체 글
-
모델 성능 향상을 위한 데이터 처리 방법NAVER AI TECH 2023. 5. 25. 13:55
모델 성능 향상을 위해 어떤 데이터 처리 기법을 적용할 수 있을까? Tokenization 1) 음절 2) 문자 3) 형태소 4) 단어 여러 방법이 있지만 한국어가 교착어라는 점을 고려할 때 형태소 기반 서브워드 토큰화가 유리하다. Data Augmentation 1) Rule-Based Techniques [1] EDA(Easy Data Augmentation)을 한국어에 활용하고 싶다면 아래 링크를 참조하자. https://github.com/catSirup/KorEDA SR(Synonym Replacement) RI(Random Insertion) RS(Random Swap) RD(Random Deletion) [2] 추가적으로 UDA(Unsupervised Data Augmentation)을 활용..
-
Data-Centric AINAVER AI TECH 2023. 5. 23. 12:57
앞으로 2주일 동안은 Data-Centric AI에 대해서 배울 예정이다. AI = Code + Data라고 할 때 Data에 전체 시간의 80%를 쏟게 된다는 강의 내용에 동의한다. 지금까지 두 번의 프로젝트를 진행했다. 그리고 모델의 성능 향상을 이끌었던 것은 데이터에 변화를 주는 방법이었다. 첫 번째 프로젝트에서는 Data Augmentation과 Oversampling 기법이 유용했고 두 번째 프로젝트에서는 Typed Entity Marker와 Semantic Typing 기법이 효과적이었다. 그래서 그런지 아래와 같은 표를 마주했을 때도 그다지 놀랍지 않았다. “Garbage In —> Garbage Out”이다. 2강에 들어가기 전에 이번 대회의 데이터를 잠시 보고 넘어가자. KLUE-TC(Y..
-
9주차 Embedding 평가 방법NAVER AI TECH 2023. 5. 3. 11:24
Embedding이 잘 되었는지 어떻게 확인할 수 있을까? 두 가지 방법이 있다. 1.Human-annotated similarity scores를 사용한다 WordSim-353, SimLex-999, MEN과 같은 Human-annotated similarity scores data가 있다. 다음은 WordSim-353 data 일부를 발췌한 것이다. # i = identical tokens # s = synonym (at least in one meaning of each) # a = antonyms (at least in one meaning of each) # h = first is hyponym of second (at least in one meaning of each) # H = first ..
-
8주차 회고록 (AI 서비스 개발 기초)NAVER AI TECH 2023. 4. 28. 14:45
1. 개요 이번 주 월요일(4/24) ~ 금요일(4/28)을 회고해보자. 2. 학습 목표 이번 주 학습 목표는 다음과 같았다. 첫째, 강의내용 숙지하고 과제 제출하기. 둘째, 휴식하기. 사실 프로젝트를 진행하며 심신이 어느정도 지쳤다. 이번 주는 조금은 쉬어가는 한 주가 되었으면 했다. 3. 목표 달성률 ★★★ 첫째, 강의내용 숙지에는 별점 ★★★☆을 주고 싶다. 둘째, 결과적으로 주중에는 별로 휴식하지 못했다. 애니메이션 '서머타임 렌더'를 조금 보긴 했다. 재미있다.... 4. 배운 것 뒤돌아봤을 때 결국 생각나는 것은 실습한 내용이더라. 첫째, 버전 관리를 위한 새로운 시스템을 구축했다. 기존에는 conda를 활용하여 가상환경 관리를 하고 있었다. 하지만 강의에서는 pyenv, venv, poetr..
-
7주차 회고록 (Level 1 Project 종료)NAVER AI TECH 2023. 4. 22. 21:55
1. 개요 4주차(3/27) ~ 7주차(4/21)까지 겪었던 일들에 대해서 돌아보자. 2. 학습 내용 4주차: NLP Part 1(Bag of Words, Embedding), NLP Part 2(RNN, LSTM, GRU), Data Visualization(2/2), Git(2/2) 5주차: NLP Part 3(Transformer), NLP Part 4(Self-supervised Pre-training models) 6주차: STS(Semantic Text Similarity) 대회 1주차 7주차: STS(Semantic Text Similarity) 대회 2주차 3. 프로젝트에서 내가 한 일 4. 좋았던 점 5. 아쉬웠던 점 3~5번은 아래 pdf 파일 참조.
-
Attention Is All You NeedNAVER AI TECH 2023. 3. 28. 15:58
나동빈님께서 Transformer에 대해서 잘 설명해주셨다. 동영상, 실습 코드, ppt 파일까지 제공하고 있다. https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice GitHub - ndb796/Deep-Learning-Paper-Review-and-Practice: 꼼꼼한 딥러닝 논문 리뷰와 코드 실습 꼼꼼한 딥러닝 논문 리뷰와 코드 실습. Contribute to ndb796/Deep-Learning-Paper-Review-and-Practice development by creating an account on GitHub. github.com 오늘(3/28) 피어 세션에서 다루었던 내용을 정리해보겠다. 논문 Attention Is ..
-
Word Embedding (4주차)NAVER AI TECH 2023. 3. 27. 18:14
우리는 자연어 처리가 컴퓨터가 인간의 언어를 이해, 해석 및 생성하는 방법이라는 점을 배웠다. 그러나 컴퓨터가 이해할 수 있는 것은 숫자뿐이다. 따라서 자연어 처리에서 말뭉치를 숫자로 변환하는 작업은 필수적이다. 자연어를 벡터로 변환하는 가장 쉬운 방법은 one-hot encoding을 적용하는 것이다. 예를 들어서 "I really really love eating ice cream."이라는 문장이 있다고 하자. 이때, 중복되는 단어를 제외하면 'I', 'really', 'love', 'eating', 'ice', 'cream'이라는 6개의 단어가 있다. 6개의 단어에 one-hot encoding을 적용하게 되면 각 단어에 순서대로 다음 벡터가 할당되게 된다. [1, 0, 0, 0, 0, 0] [0,..
-
Intro to NLP (4주차)NAVER AI TECH 2023. 3. 27. 15:16
공부를 시작하기에 앞서 NLP가 무엇인지 OpenAI에게 물어보았다. NLP stands for Natural Language Processing. It is a subfield of artificial intelligence (AI) and computer science that deals with the interaction between human language and computers. The goal of NLP is to enable computers to understand, interpret, and generate human language, allowing them to communicate with people in a way that is more natural and intuit..