전체 글
-
[Coursera] Text Retrieval and Search Engines (MODULE 3)개인 프로젝트 A 2024. 7. 21. 22:38
Module 31) Vector Space Model - Improved Instantiation간단한 벡터 공간 모델에는 다음과 같은 문제점이 있었다. 첫째, 단어의 빈도수를 고려하지 못한다. 즉, 쿼리에 있는 단어가 문서에 여러 번 등장해도 한 번 등장한 것과 동일하게 유사도를 계산한다. 둘째, 중요하지 않은 단어에 페널티를 주지 못한다. 즉, "a", "the", "about" 등 전혀 중요하지 않은 단어와 핵심 단어가 동등한 가중치를 지닌다. 이를 해결하기 위해서 TF(Term Frequency)와 IDF(Inverse Document Frequency)를 고려한 TF-IDF 기법을 적용한다. 자세한 수식은 대학원에서 들었던 수업을 정리한 문서(https://koppie.tistory.com/5)..
-
[Coursera] Text Retrieval and Search Engines (MODULE 2)개인 프로젝트 A 2024. 7. 20. 09:26
1. 개요질의응답 모델을 배포하기 위해서 가장 먼저 해야 하는 일은 검색 모델(Retrieval Model)을 구축하는 것이다. 검색 모델을 구축하는 데 사용할 수 있는 다양한 알고리즘이 있는데, 어떤 알고리즘이 내 과제에 가장 적합한지 잘 모르겠다는 느낌이 들었다. 따라서 코세라 강의를 통해 부족한 지식을 보충하고자 한다. University of Illinois에서 Chengxiang Zhai 교수님께서 강의하시는 수업이 있길래 해당 과목을 수강했다. 다행히 코세라에서는 제공하는 1주일 무료 서비스를 통해 공짜로 강의를 듣고 수료증도 발급할 수 있게 되었다. 2. MODULE 2바로 강의 내용으로 들어가겠다. MODULE 1은 앞으로 어떻게 학습해야 하는지 알려주는 부분이라 따로 기록할 만한 부분은 ..
-
목표 설정개인 프로젝트 A 2024. 7. 17. 19:59
임상심리대학원을 졸업하고 프로그래밍을 제대로 시작한 지 1년 반이 넘어간다. 회사에서 일한 지도 반년이 되어 간다. 가끔 그런 생각을 하게 된다. 나는 무엇을 하고 싶은 걸까? 그런 생각이 들 때면 다시 개인 프로젝트를 보게 된다. 이 프로젝트를 마칠 때면, "저는 개발자입니다."라고 자신 있게 말할 수 있을 것이다. 최근에 회사에서는 데이터 분석을 하고, 개인적으로는 자격증을 따고 여러 프레임워크를 익히면서 개인 프로젝트의 목표가 무엇인지 조금 더 명확하게 생각할 수 있게 되었다. 궁극적으로는 "모델을 만드는 것"에서 끝나는 것이 아니라 "모델을 배포하는 것"이 내 목표이다. 이를 위해서는 다음과 같은 과정이 필요하다. 질의응답 모델을 만든다.최근에 내가 원하는 논문을 찾아주고 요약해 주는 사이트(..
-
Granular Corneal Dystrophy Type 2기타 2024. 7. 17. 07:36
These days, I felt extreme eye strain. Yesterday, I found my eyes bloodshot. That's why I went to the optometrist yesterday. He prescribed anti-inflammatory agent and artificial tears to me. What I got also was a diagnosis named Granular corneal dystrophy Type 2 which is also known as Avellino corneal dystrophy. Granular Corneal Dystrophyhttps://eyewiki.aao.org/Granular_Corneal_Dystrophy Granula..
-
[Paper Review] Transformer to T5 (XLNet, RoBERTa, MASS, BART, MT-DNN,T5) - 고려대학교 산업경영공학부 DSBA 연구실세미나 훔쳐보기 2024. 6. 12. 15:13
[Paper Review] Transformer to T5 (XLNet, RoBERTa, MASS, BART, MT-DNN,T5) 속이 뻥 뚫리는 시원한 리뷰였다. 4년 전 영상이니, 발표자분께서 지금은 무엇을 하고 지내실지 궁금하다. 해당 발표에서는 6개의 논문을 리뷰했다. 1) XLNet(June, 2019), 2) RoBERTa(July, 2019), 3) MASS(July, 2019), 4) BART(October, 2019), 5) MT-DNN(April, 2019), 6) T5(October, 2019) 아래에서 하나씩 살펴보겠다. XLNet(June, 2019)배경기존 언어모델 훈련 방법으로는 AE(Auto-Encoding)와 AR(Auto-Regressive) 방법이 있다.AE는 [MASK..
-
Intro세미나 훔쳐보기 2024. 6. 11. 11:39
하루하루가 바쁘다. 회사도 다녀야 하고, Kaggle Competition도 참가해야 하고, 자격증도 따야 하고, 심리학 트렌드도 따라가야 하고, 교회 일정도 적지 않다. 그런데 "논문도 읽어야 한다." 읽고 싶은 논문이 참 많은데, 읽을 시간은 부족하고.... 그렇다면, 다른 사람이 정리한 내용이라도 공부하는 게 좋지 않을까? 유튜브는 이동하면서도 볼 수 있잖아!? 훔쳐볼 세미나 링크고려대학교 산업경영공학부 DSBA 고려대학교 산업경영공학부 DSBA 연구실고려대학교 산업경영공학부 Data Science & Business Analytics Lab입니다.www.youtube.com 목록[Paper Review] Transformer to T5 (XLNet, RoBERTa, MASS, BART, MT-D..
-
30 Days of Streamlit기타 2024. 5. 13. 18:42
부트캠프에서 간단하게 사용해봤던 Streamlit을 업무 중 쓸 일이 있어 찾아 보았는데, 30 Days of Streamlit이라는 Challenge가 있다는 것을 알게 되었다. 정말 재밌을 것 같아 안 해볼 수가 없었다.https://blog.streamlit.io/30-days-of-streamlit/ 30 Days of StreamlitA fun challenge to learn and practice using Streamlitblog.streamlit.io DAY 1: Setting up a local development environmentConda로 가상환경을 설정했다. 가상환경은 venv로 설정하는 것을 선호하지만, 30 Days of Streamlit에 참가한만큼, 지시하는 그대로 ..
-
MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields논문 2024. 4. 12. 17:01
https://arxiv.org/abs/2302.02978 MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields Previous research has demonstrated the advantages of integrating data from multiple sources over traditional unimodal data, leading to the emergence of numerous novel multimodal applications. We propose a multimodal classification benchmark MuG with eight arxiv.org 분류..