Archive: 2018/12

SVM(support vector machine)

서포트 벡터 머신퍼셉트론에서는 영역을 구분하는 판별경계선(decision hyperplane)이 한 문제에도 다양하게 존재할 수 있었다. 서포트 벡터머신(SVM: Support Vector machine)은 퍼셉트론 기반 모형에 가장 안정적인 하나의 판별 경계선을 찾기 위한 제한조건을 추가한 모형이다. 서포트: 판별경계선을 하나로 정해줄 수 있는 근거가

perceptron

퍼셉트론퍼셉트론(perceptron)은 가장 오래되고 단순한 형태의 판별함수 기반 이진분류모형이다. 퍼셉트론은 입력값 $x=(1,x_1,\cdots ,x_m)$ 에 대해 1 또는 -1의 값을 가지는 $y$를 출력하는 비선형 함수이다. 1을 포함하는 입력요소 $x_i$ 에 대해 가중치 $w_i$ 를 곱한 값 $a = w^Tx$ 을 활성화값(activatio

model combining - 2. Boosting

2. 부스팅 boosting부스트(boost) 방법은 처음부터 여러 개의 모형을 합쳐 문제를 푸는 취합(aggregation)과 달리 하나의 모형에서 시작해 하나씩 모형을 추가해나간다. 이 때 모형들의 집합을 위원회(commitee) $C$ 라고 하고, m개의 모형을 갖는 위원회를 $C_m$ 으로 표시한다. 위원회에 포함된 개별모형은 weak classi

model combining - 1. aggregation

모형 결합모형 결합(model combining) 방법은 앙상블 방법론(ensemble methods)라고도 한다. 단일모형으로 예측이 잘 되지 않을 때, 복수의 모형을 결합해 예측성능을 높이고자 할 때 사용한다. 장점 개별 모형의 성능이 안좋을 때는 결합모형을 하게 되면 성능이 향상된다. 단일모형으로 할 때보다 과최적화를 방지할 수 있다. 모형 결

decision_tree

의사 결정 나무의사결정나무(decision tree)는 여러 가지 규칙을 순차적으로 적용하면서 독립변수 공간을 분할하는 분류 모형이다. 판별적 확률모형이긴 하지만 분류해야 하는 class가 multi든 binary든, 혹은 문제 자체가 classification이든 regression이든 모두 적용할 수 있는 만능 모형이다. 분류와 회귀분석 모두에 사용될

entropy

엔트로피엔트로피란?$Y=0$ 또는 $Y=1$ 인 두 가지 값을 갖는 확률분포가 다음처럼 세 종류 있다고 하자. 확률 분포 $Y_1$ : $P(Y=0) = 0.5, P(Y=1) = 0.5$ 확률 분포 $Y_2$ : $P(Y=0) = 0.8, P(Y=1) = 0.2$ 확률 분포 $Y_3$ : $P(Y=0) = 1.0, P(Y=1) = 0$ 이 확률값이 베

naive bayesian classification model

나이브베이즈 분류모형나이브 가정모든 차원의 개별 독립변수 요소들이 서로 조건부 독립이라는 가정을 나이브 가정이라고 한다. 이 가정은 그냥 생각해봐도 말이 안 된다. 예를 들어 iris데이터에서 독립변수 $x_1$은 꽃잎의 길이, $x_2$는 꽃잎의 폭이라고 할 때, 꽃잎의 길이가 길어지면 상식적으로 폭도 커지므로 두 변수 사이에는 매우 큰 상관관계가 있다.

QDA & LDA

QDA와 LDA확률론적 생성모형에서는 베이즈 정리를 사용하여 조건부확률을 계산한다고 했다. P(y=k\mid x) = \dfrac{P(x\mid y=k)P(y=k)}{P(x)}하나의 독립변수 x에 대해 y가 k일 경우의 조건부확률을 모두 구해서 그 중 가장 값이 큰 y로 추정하는데, 위 베이즈정리 공식에서 분모는 P(x)이므로 이 때 분모값은 고정이다.

classification performance evaluation

분류 성능 평가분류 문제는 회귀분석과 달리 다양한 성능 평가기준이 필요하다. Scikit-Learn에서 제공하는 분류 성능평가 메서드들은 다음과 같다. sklearn.metrics 서브 패키지 confusion_matrix() classfication_report() accuracy_score(y_true, y_pred) precision_score(y_