전체 글
-
차원축소(Dimension Reduction)기계학습이론과실습 2022. 5. 16. 16:00
feature의 수가 너무 많을 경우 지도학습: 과적합 문제 비지도학습: 데이터 포인트들 간의 거리가 유사하게 됨 -> 군집화 결과가 좋지 않음 = 차원의 저주(curse of dimensionality) feature selection: 원래의 features 중에서 일부만 선택 선택되지 않은 features가 갖고 있는 정보를 최종 분석에서 사용하지 못함 feature extraction: 원래 features가 가지고 있는 정보를 사용하여 새로운 features 추출 PCA(Principal Component Analysis)는 feature extraction의 한 방법 * PC는 독립변수들이 가지고 있는 정보를 설명하는 축 먼저 고유값과 고유벡터에 대해 알아보겠다. (eigenvalue, eig..
-
Ensemble methods기계학습이론과실습 2022. 5. 11. 17:14
지금까지 Decision Tree에 대해 알아보았다. Decision Tree의 장단점은 다음과 같다. Decision Tree는 결과 해석이 직관적으로 가능해 비교적 쉽다. Decision Tree는 일반적으로 모형의 성능이 떨어진다. (=weak learner) Decision Tree의 단점을 보완하기 위해서 Ensemble methods를 사용한다. 앙상블(Ensemble)은 합주단이라는 의미를 갖고 있다. 다양한 악기가 어우러져 아름다운 소리를 낼 수 있다. Definition: To combine several (weak) learners into a stronger learner Approaches: 1) Bagging 2) Boosting 먼저 Bagging 방법에 대해 알아보겠다. Bag..
-
Decision Tree기계학습이론과실습 2022. 5. 4. 15:33
Decision Tree는 Dataset에 있는 관측치들을 독립변수의 값에 따라 종속변수의 값이 유사한 여러 개의 그룹으로 분리하고, 각 그룹에 속한 관측치들의 종속변수 값을 동일한 값으로 예측하는 알고리즘이다. 구성요소 * root node * internal node = decision node -> cut-off or cut point value -> hyper-parameter: depth * leaf node = terminal node Decision Tree Regressor - RSS(Sum of Residual Squares)를 Minimize하는 Cut-off 적용 - 예측값은 해당 그룹의 평균값 : 변수의 값을 크기에 따라 정렬 -> 연속된 두 개의 평균값을 Cut-off로 적용했을 ..
-
Clustering기계학습이론과실습 2022. 5. 4. 15:02
군집화 분석을 이해하기 위해서는 벡터에서의 유사도를 먼저 이해할 필요가 있다. 1. 유클리디안 유사도: 거리 기반 유사도로 보통 관측치의 단위가 비슷할 때 쓴다 np.linalg.norm(b-a) 2. 코사인 유사도: 각도 기준 유사도로 보통 관측치의 단위가 크게 차이가 날 때 쓴다. np.dot(a,b)/(np.linalg.norm(a)*np.linalg.norm(b)) 그 외에 Manhattan distance, Jaccard distance, Hamming distance 등이 존재한다. A. K-Means Clustering : 해당 방법은 유클리디안 거리를 사용한다 K개의 점을 선택한다. K개의 점은 각 그룹의 중심이 된다. 모든 점을 K개의 중심이 되는 점들 중 가장 가까운 점이 속한 그룹에 ..
-
Course Intro기계학습이론과실습 2022. 5. 4. 13:43
Through this course we will learn about these topics and their mathmatical principles. Supervised Learning - Linear Regression - Logistic Regression - Decision Tree - Ensemble methods - Support Vecotr Machines Unsupervised Learning - Clustering: Hierarchical Clustering, DBSCAN, K-Means, GMM - Dimension Reduction: PCA Definition of AI, ML, DL AI: "smart computer", or "intelligent computer" / Rule..
-
Naive Bayes기계학습이론과실습 2022. 5. 3. 00:33
* Bayes' Rule * Bayes' Rule에 따라 X1=x1, X2=x2일 때 Yi=1일 확률과 X1=x1, X2=x2일 때 Yi=0일 확률을 서로 비교하여 Y값 예측 분모는 같으므로 비교시 생략이 가능하고, 사건 X1과 사건 X2가 독립이라고 Naive하게 가정할 경우 다음과 같이 계산 import numpy as np import pandas as pd url= 'http://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data' # 설명: https://rstudio-pubs-static.s3.amazonaws.com/118220_5a7997d6b0aa493c878d661968fc1f08.html car_df = pd.read_csv..
-
Document Classification기계학습이론과실습 2022. 4. 25. 13:41
Web scraping Preprocessing POS tagging(Part-of-speech tagging) 불용어가 제거된 특정 품사 단어들만 선택 Representation (Vectorization) Bag of words model TF-IDF Applying ML algorithms for training data 이 중 3번 Representation 작업에 대해 알아보겠다. * Bag of words model 각 단어는 하나의 feature가 되며, 각 feature의 값은 해당 단어의 사용빈도가 된다. 그러나 해당 방법은 각 단어가 해당 문서에서 갖는 상대적 중요성은 표현하지 못한다. * TF-IDF(term frequency-inverse document frequency) 특정 단..
-
Imbalanced Classification기계학습이론과실습 2022. 4. 25. 13:27
특정 클래스에 대한 관측치의 수가 상대적으로 더 많거나 적은 경우, minority class에 대해서 recall과 precision 값이 좋지 못하다. 그런데 사기, 질병, 기계 고장 등 많은 경우 majority class가 아닌 minority class가 주요 관심 대상이다. 따라서 minority class에 대한 recall, precision, F1, AUC 값을 높이기 위해 학습 데이터에 대해 클래스 간 데이터 수의 균형을 맞추거나 비용함수 내 클래스 간 가중치를 다르게 둘 필요가 있다. 데이터 수를 맞추기 위한 첫 번째 방법은 minority class의 데이터를 더 수집하는 것이다. 이것이 어려울 경우 over-sampling 혹은 under-sampling 방법을 사용할 수 있다. ..