분류 전체보기
-
빅데이터분석기사 제9회 실기기타 2024. 12. 18. 18:42
📅 시험 일정 및 준비 기간당초에는 6월 22일에 실기 시험을 보려고 했으나, 시험 신청을 깜빡했다. (왜 시험 신청 기간이 3일밖에 되지 않는가....)이에 따라, 9회 실기 시험을 보게 되었다. 시험 일자: 24/11/30준비 시작일: 24/06/11총 공부 기간: 약 2주(1주 + 1주) 📖 공부 방법8회 실기 시험 대비 공부 기간(1주)과 9회 실기 시험 대비 공부 기간(1주)으로 나뉜다. 8회 대비 기간 (6월 11~14일)교재: 빅데이터분석기사 실기 기본서 (이기자)공부 방법:교재에 나와 있는 내용을 따라 치며 정리했다. (https://github.com/Minwoo0206/Engineer_BDA)기출 문제를 풀려다가 시험 신청을 깜빡했다는 사실을 깨닫고는 시험 공부를 중단했다. 9회 대..
-
-
세 번째 과제: Reader Model + Gradio개인 프로젝트 A 2024. 8. 28. 21:54
안타깝게도 내게는 학습할 수 있는 데이터가 전혀 없다. 따라서 기존의 모델을 활용할 수밖에 없었다. 또다시 안타깝게도, 내게는 기존 모델 중 어떤 모델이 가장 적합한지 판단할 수 있는 데이터셋도 없다. 따라서 기본 모델을 사용했다. from transformers import pipelinedef qa_model(question, text): model = pipeline("text2text-generation") answer = model(f"question: {question} context: {text}") return answer[0]['generated_text'] QuestionAnsweringPipeline도 활용해 보았지만, 단답형 답변을 생성하는 것이 부적절하여 "text..
-
두 번째 과제: ElasticSearch개인 프로젝트 A 2024. 8. 28. 19:37
Retrieval Model + Reader Model의 앞단에 해당하는 Retrieval Model을 제작했다. 아래 페이지를 참조했다.https://dylancastillo.co/posts/elasticseach-python.html How to Use Elasticsearch in Python – Dylan CastilloElasticsearch (ES) is a technology used by many companies, including GitHub, Uber, and Facebook. It’s not often taught in Data Science courses, but it’s something you’ll likely come across in your career. Many data..
-
[Coursera] Text Retrieval and Search Engines (MODULE 7)개인 프로젝트 A 2024. 7. 25. 13:17
수업에서 제시하는 Guiding Questions에 따라 이번 수업 내용을 설명하고자 한다. Guiding QuestionsDevelop your answers to the following guiding questions while completing the readings and working on assignments throughout the week.What’s the basic idea of learning to rank? How can logistic regression be used to combine multiple features for improving ranking accuracy of a search engine? What is content-based information fil..
-
[Coursera] Text Retrieval and Search Engines (MODULE 6)개인 프로젝트 A 2024. 7. 25. 13:15
수업에서 제시하는 Guiding Questions에 따라 이번 수업 내용을 설명하고자 한다. Guiding QuestionsDevelop your answers to the following guiding questions while completing the readings and working on assignments throughout the week.What is relevance feedback? What is pseudo-relevance feedback? What is implicit feedback? How does Rocchio work? Why do we need to ensure that the original query terms have sufficiently large weig..
-
[Coursera] Text Retrieval and Search Engines (MODULE 5)개인 프로젝트 A 2024. 7. 22. 13:29
MODULE 51) Probabilistic Retrieval Model - Basic IdeaModule 5는 확률적(통계적) 언어 모델에 대해 다룬다. 벡터 공간 모델에 익숙한 내게 무척 어려운 개념이었다. 차근차근 하나씩 뜯어보자. 지금까지는 쿼리 q와 문서 d의 관련도를 계산했다. 이를 확률 모델로 나타내면 $p(R=1|q,d)$가 된다. 이 문제를 사용자가 유용하다고 판단한(R=1) 문서(d)가 주어졌을 때, 쿼리를 뽑아내는 문제로 바꿀 수 있다. 이를 확률 모델로 나타내면 $p(q|d,R=1)$이 된다. 말로 표현하면 "문서 d를 좋아하는 사용자는 쿼리 q를 제기할 것이다."라고 할 수 있다. 이렇게 바뀐 문제를 Query Likelihood라고 부른다. 그렇다면 이 확률 모델 $p(q|d)$..
-
[Coursera] Text Retrieval and Search Engines (MODULE 4)개인 프로젝트 A 2024. 7. 22. 11:18
Module 4에서는 다음 키워드에 대해 배운다. 하나씩 살펴보도록 하자.Cranfield evaluation methodologyPrecision and recallAverage precision, mean average precision (MAP), and geometric mean average precision (gMAP) Reciprocal rank and mean reciprocal rank F-measure Normalized discounted cumulative Gain (nDCG) Statistical significance test Cranfield evaluation methodology모델의 성능을 평가하기 위해 흔히 사용하는 방법이다. 미리 쿼리 및 쿼리와 관련된 문서를 준비한..