기계학습이론과실습
-
Document Classification기계학습이론과실습 2022. 4. 25. 13:41
Web scraping Preprocessing POS tagging(Part-of-speech tagging) 불용어가 제거된 특정 품사 단어들만 선택 Representation (Vectorization) Bag of words model TF-IDF Applying ML algorithms for training data 이 중 3번 Representation 작업에 대해 알아보겠다. * Bag of words model 각 단어는 하나의 feature가 되며, 각 feature의 값은 해당 단어의 사용빈도가 된다. 그러나 해당 방법은 각 단어가 해당 문서에서 갖는 상대적 중요성은 표현하지 못한다. * TF-IDF(term frequency-inverse document frequency) 특정 단..
-
Imbalanced Classification기계학습이론과실습 2022. 4. 25. 13:27
특정 클래스에 대한 관측치의 수가 상대적으로 더 많거나 적은 경우, minority class에 대해서 recall과 precision 값이 좋지 못하다. 그런데 사기, 질병, 기계 고장 등 많은 경우 majority class가 아닌 minority class가 주요 관심 대상이다. 따라서 minority class에 대한 recall, precision, F1, AUC 값을 높이기 위해 학습 데이터에 대해 클래스 간 데이터 수의 균형을 맞추거나 비용함수 내 클래스 간 가중치를 다르게 둘 필요가 있다. 데이터 수를 맞추기 위한 첫 번째 방법은 minority class의 데이터를 더 수집하는 것이다. 이것이 어려울 경우 over-sampling 혹은 under-sampling 방법을 사용할 수 있다. ..
-
Hyper-parameter Tuning기계학습이론과실습 2022. 4. 20. 17:50
Hyper-parameter Tuning은 Model Tuning이라고도 불리며, 사용자가 임의로 설정해줘야 하는 값을 조정하는 것을 의미한다. 이를 위해서는 Validation Dataset을 사용한다. 이전에는 데이터를 Train Data와 Test Data로 나눠서 모델을 구축하고 모델의 성능을 평가한 후 가장 성능이 좋은 모델을 선택하였다. 이번에는 데이터를 Train Data, Validation Data, Test Data 세 가지로 나눈 후, 검증데이터를 통해 Hyper-parameter의 값을 결정하고, Test Data를 통해 모델의 최종 성능을 평가한다. 이때, 모형의 일반화 정도를 높이기 위해서 K-Fold Cross Validation을 사용하기도 한다. 기존의 Train Data를..
-
Logistic Regression기계학습이론과실습 2022. 4. 18. 17:50
Logistic Regression을 이해하기 위해서는 먼저 최대우도추정법(Maximum Likelihood Estmiation: MLE)을 이해할 필요가 있다. "우도(Likelihood)란 확률 분포의 모수가, 어떤 확률변수의 표집값과 일관되는 정도를 나타내는 값이다." 라고 위키백과에서는 설명하고 있다. 우도는 확률과의 비교를 통해서 비교적 명확하게 이해할 수 있다. 확률이란 고정된 확률분포 내에서 특정 관측값 혹은 관측구간이 나타나는 것에 대한 기댓값이다. 우도는 고정된 관측값이 특정 확률분포 내에서 나타나는 것에 대한 기댓값이다. 우도를 최대로 하는 확률분포를 찾고, 그 확률분포를 통해서 새로운 관측치의 종속변수를 예측하는 것이 기계학습에서 이루고자 하는 바이다. 확률질량함수의 모수 θ에 대해 ..