전체 글
-
세 번째 과제: Reader Model + Gradio개인 프로젝트 A 2024. 8. 28. 21:54
안타깝게도 내게는 학습할 수 있는 데이터가 전혀 없다. 따라서 기존의 모델을 활용할 수밖에 없었다. 또다시 안타깝게도, 내게는 기존 모델 중 어떤 모델이 가장 적합한지 판단할 수 있는 데이터셋도 없다. 따라서 기본 모델을 사용했다. from transformers import pipelinedef qa_model(question, text): model = pipeline("text2text-generation") answer = model(f"question: {question} context: {text}") return answer[0]['generated_text'] QuestionAnsweringPipeline도 활용해 보았지만, 단답형 답변을 생성하는 것이 부적절하여 "text..
-
두 번째 과제: ElasticSearch개인 프로젝트 A 2024. 8. 28. 19:37
Retrieval Model + Reader Model의 앞단에 해당하는 Retrieval Model을 제작했다. 아래 페이지를 참조했다.https://dylancastillo.co/posts/elasticseach-python.html How to Use Elasticsearch in Python – Dylan CastilloElasticsearch (ES) is a technology used by many companies, including GitHub, Uber, and Facebook. It’s not often taught in Data Science courses, but it’s something you’ll likely come across in your career. Many data..
-
[Coursera] Text Retrieval and Search Engines (MODULE 7)개인 프로젝트 A 2024. 7. 25. 13:17
수업에서 제시하는 Guiding Questions에 따라 이번 수업 내용을 설명하고자 한다. Guiding QuestionsDevelop your answers to the following guiding questions while completing the readings and working on assignments throughout the week.What’s the basic idea of learning to rank? How can logistic regression be used to combine multiple features for improving ranking accuracy of a search engine? What is content-based information fil..
-
[Coursera] Text Retrieval and Search Engines (MODULE 6)개인 프로젝트 A 2024. 7. 25. 13:15
수업에서 제시하는 Guiding Questions에 따라 이번 수업 내용을 설명하고자 한다. Guiding QuestionsDevelop your answers to the following guiding questions while completing the readings and working on assignments throughout the week.What is relevance feedback? What is pseudo-relevance feedback? What is implicit feedback? How does Rocchio work? Why do we need to ensure that the original query terms have sufficiently large weig..
-
[Coursera] Text Retrieval and Search Engines (MODULE 5)개인 프로젝트 A 2024. 7. 22. 13:29
MODULE 51) Probabilistic Retrieval Model - Basic IdeaModule 5는 확률적(통계적) 언어 모델에 대해 다룬다. 벡터 공간 모델에 익숙한 내게 무척 어려운 개념이었다. 차근차근 하나씩 뜯어보자. 지금까지는 쿼리 q와 문서 d의 관련도를 계산했다. 이를 확률 모델로 나타내면 $p(R=1|q,d)$가 된다. 이 문제를 사용자가 유용하다고 판단한(R=1) 문서(d)가 주어졌을 때, 쿼리를 뽑아내는 문제로 바꿀 수 있다. 이를 확률 모델로 나타내면 $p(q|d,R=1)$이 된다. 말로 표현하면 "문서 d를 좋아하는 사용자는 쿼리 q를 제기할 것이다."라고 할 수 있다. 이렇게 바뀐 문제를 Query Likelihood라고 부른다. 그렇다면 이 확률 모델 $p(q|d)$..
-
[Coursera] Text Retrieval and Search Engines (MODULE 4)개인 프로젝트 A 2024. 7. 22. 11:18
Module 4에서는 다음 키워드에 대해 배운다. 하나씩 살펴보도록 하자.Cranfield evaluation methodologyPrecision and recallAverage precision, mean average precision (MAP), and geometric mean average precision (gMAP) Reciprocal rank and mean reciprocal rank F-measure Normalized discounted cumulative Gain (nDCG) Statistical significance test Cranfield evaluation methodology모델의 성능을 평가하기 위해 흔히 사용하는 방법이다. 미리 쿼리 및 쿼리와 관련된 문서를 준비한..
-
[Coursera] Text Retrieval and Search Engines (MODULE 3)개인 프로젝트 A 2024. 7. 21. 22:38
Module 31) Vector Space Model - Improved Instantiation간단한 벡터 공간 모델에는 다음과 같은 문제점이 있었다. 첫째, 단어의 빈도수를 고려하지 못한다. 즉, 쿼리에 있는 단어가 문서에 여러 번 등장해도 한 번 등장한 것과 동일하게 유사도를 계산한다. 둘째, 중요하지 않은 단어에 페널티를 주지 못한다. 즉, "a", "the", "about" 등 전혀 중요하지 않은 단어와 핵심 단어가 동등한 가중치를 지닌다. 이를 해결하기 위해서 TF(Term Frequency)와 IDF(Inverse Document Frequency)를 고려한 TF-IDF 기법을 적용한다. 자세한 수식은 대학원에서 들었던 수업을 정리한 문서(https://koppie.tistory.com/5)..
-
[Coursera] Text Retrieval and Search Engines (MODULE 2)개인 프로젝트 A 2024. 7. 20. 09:26
1. 개요질의응답 모델을 배포하기 위해서 가장 먼저 해야 하는 일은 검색 모델(Retrieval Model)을 구축하는 것이다. 검색 모델을 구축하는 데 사용할 수 있는 다양한 알고리즘이 있는데, 어떤 알고리즘이 내 과제에 가장 적합한지 잘 모르겠다는 느낌이 들었다. 따라서 코세라 강의를 통해 부족한 지식을 보충하고자 한다. University of Illinois에서 Chengxiang Zhai 교수님께서 강의하시는 수업이 있길래 해당 과목을 수강했다. 다행히 코세라에서는 제공하는 1주일 무료 서비스를 통해 공짜로 강의를 듣고 수료증도 발급할 수 있게 되었다. 2. MODULE 2바로 강의 내용으로 들어가겠다. MODULE 1은 앞으로 어떻게 학습해야 하는지 알려주는 부분이라 따로 기록할 만한 부분은 ..