ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Coursera] Text Retrieval and Search Engines (MODULE 7)
    개인 프로젝트 A 2024. 7. 25. 13:17

    수업에서 제시하는 Guiding Questions에 따라 이번 수업 내용을 설명하고자 한다.

     

    Guiding Questions

    Develop your answers to the following guiding questions while completing the readings and working on assignments throughout the week.

    • What’s the basic idea of learning to rank?
    • How can logistic regression be used to combine multiple features for improving ranking accuracy of a search engine?
    • What is content-based information filtering?
    • How can we use a linear utility function to evaluate a filtering system? How should we set the coefficients in such a linear utility function?
    • How can we extend a retrieval system to perform content-based information filtering?
    • What is the exploration-exploitation tradeoff?
    • How does the beta-gamma threshold learning algorithm work?
    • What is the basic idea of collaborative filtering?
    • How does the memory-based collaborative filtering algorithm work?
    • What is the “cold start” problem in collaborative filtering?

     

    Answers

    1. What’s the basic idea of learning to rank?
      • 일반적인 서치 엔진 방법론에서 나온 결과값을 입력값으로 활용해 보자.

    2. How can logistic regression be used to combine multiple features for improving ranking accuracy of a search engine?
      • 다양한 서치 엔진 방법론에서 나온 결과값(랭크)을 입력값으로 하여 로지스틱 회귀를 적용한다.
      • 즉, train_test_split을 진행하고 (X_train, y_train)에 대해 학습을 진행한 후, (X_test, y_test)로 성능을 평가한다.

    3. What is content-based information filtering?
      • 사용자가 좋아하는 항목 X와 유사한 항목 X'을 사용자에게 추천해준다.

    4. How can we use a linear utility function to evaluate a filtering system? How should we set the coefficients in such a linear utility function?
      • 항목의 각 특성에 가중치를 부여하여 점수를 계산한다.
      • 사용자가 좋아하는 항목은 높은 점수를, 사용자가 싫어하는 항목은 낮은 점수를 부여하도록 가중치를 설정할 수 있다.

    5. How can we extend a retrieval system to perform content-based information filtering?
      • 벡터 공간 접근법을 다음과 같이 적용할 수 있다.
        • 문서 간 유사도를 계산한다.
        • 역치를 설정하여 역치보다 높은 문서는 유사한 항목으로, 역치보다 낮은 문서는 유사하지 않은 항목으로 분류한다.
        • 피드백 알고리즘(예: 로키오 알고리즘)을 적용하여 정확도를 향상한다.

    6. What is the exploration-exploitation tradeoff?
      • 새로운 정보를 탐색하는 것(exploration)과 이미 알고 있는 정보를 활용하는 것(exploitation) 간에 적절한 균형을 맞춰야 한다.
      • 예를 들어, top-k의 문서를 탐색할 때 k를 높게 잡을지 낮게 잡을지 고민해볼 필요가 있다.

    7. How does the beta-gamma threshold learning algorithm work?
      • Utility가 가장 높은 ${\theta}_{optimal}$과 Utility가 0이 되는 ${\theta}_{zero}$ 사이의 값을 k로 잡는다.

    8. What is the basic idea of collaborative filtering?
      • 사용자와 유사한 사용자가 좋아하는 항목이라면 사용자도 좋아할 것이다.

    9. How does the memory-based collaborative filtering algorithm work?
      • 메모리 기반 collaborative filtering은 다음과 같은 과정을 거친다.
        • 추천을 제공하려는 사용자와 유사한 사용자를 찾는다.
        • 유사한 사용자들의 평점을 기반으로 특정 항목에 대한 예측 평점을 찾는다.
        • 예측 평점이 높은 항목을 사용자에게 추천한다.

    10. What is the “cold start” problem in collaborative filtering?
      • 새로운 사용자나 항목에 대한 정보가 부족하여 초기 추천의 정확도가 떨어지는 문제를 의미한다.

     

     

    댓글

Designed by Tistory.