전체 글
-
Naive Bayes기계학습이론과실습 2022. 5. 3. 00:33
* Bayes' Rule * Bayes' Rule에 따라 X1=x1, X2=x2일 때 Yi=1일 확률과 X1=x1, X2=x2일 때 Yi=0일 확률을 서로 비교하여 Y값 예측 분모는 같으므로 비교시 생략이 가능하고, 사건 X1과 사건 X2가 독립이라고 Naive하게 가정할 경우 다음과 같이 계산 import numpy as np import pandas as pd url= 'http://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data' # 설명: https://rstudio-pubs-static.s3.amazonaws.com/118220_5a7997d6b0aa493c878d661968fc1f08.html car_df = pd.read_csv..
-
Document Classification기계학습이론과실습 2022. 4. 25. 13:41
Web scraping Preprocessing POS tagging(Part-of-speech tagging) 불용어가 제거된 특정 품사 단어들만 선택 Representation (Vectorization) Bag of words model TF-IDF Applying ML algorithms for training data 이 중 3번 Representation 작업에 대해 알아보겠다. * Bag of words model 각 단어는 하나의 feature가 되며, 각 feature의 값은 해당 단어의 사용빈도가 된다. 그러나 해당 방법은 각 단어가 해당 문서에서 갖는 상대적 중요성은 표현하지 못한다. * TF-IDF(term frequency-inverse document frequency) 특정 단..
-
Imbalanced Classification기계학습이론과실습 2022. 4. 25. 13:27
특정 클래스에 대한 관측치의 수가 상대적으로 더 많거나 적은 경우, minority class에 대해서 recall과 precision 값이 좋지 못하다. 그런데 사기, 질병, 기계 고장 등 많은 경우 majority class가 아닌 minority class가 주요 관심 대상이다. 따라서 minority class에 대한 recall, precision, F1, AUC 값을 높이기 위해 학습 데이터에 대해 클래스 간 데이터 수의 균형을 맞추거나 비용함수 내 클래스 간 가중치를 다르게 둘 필요가 있다. 데이터 수를 맞추기 위한 첫 번째 방법은 minority class의 데이터를 더 수집하는 것이다. 이것이 어려울 경우 over-sampling 혹은 under-sampling 방법을 사용할 수 있다. ..
-
Hyper-parameter Tuning기계학습이론과실습 2022. 4. 20. 17:50
Hyper-parameter Tuning은 Model Tuning이라고도 불리며, 사용자가 임의로 설정해줘야 하는 값을 조정하는 것을 의미한다. 이를 위해서는 Validation Dataset을 사용한다. 이전에는 데이터를 Train Data와 Test Data로 나눠서 모델을 구축하고 모델의 성능을 평가한 후 가장 성능이 좋은 모델을 선택하였다. 이번에는 데이터를 Train Data, Validation Data, Test Data 세 가지로 나눈 후, 검증데이터를 통해 Hyper-parameter의 값을 결정하고, Test Data를 통해 모델의 최종 성능을 평가한다. 이때, 모형의 일반화 정도를 높이기 위해서 K-Fold Cross Validation을 사용하기도 한다. 기존의 Train Data를..
-
Logistic Regression기계학습이론과실습 2022. 4. 18. 17:50
Logistic Regression을 이해하기 위해서는 먼저 최대우도추정법(Maximum Likelihood Estmiation: MLE)을 이해할 필요가 있다. "우도(Likelihood)란 확률 분포의 모수가, 어떤 확률변수의 표집값과 일관되는 정도를 나타내는 값이다." 라고 위키백과에서는 설명하고 있다. 우도는 확률과의 비교를 통해서 비교적 명확하게 이해할 수 있다. 확률이란 고정된 확률분포 내에서 특정 관측값 혹은 관측구간이 나타나는 것에 대한 기댓값이다. 우도는 고정된 관측값이 특정 확률분포 내에서 나타나는 것에 대한 기댓값이다. 우도를 최대로 하는 확률분포를 찾고, 그 확률분포를 통해서 새로운 관측치의 종속변수를 예측하는 것이 기계학습에서 이루고자 하는 바이다. 확률질량함수의 모수 θ에 대해 ..