model combining - 2. Boosting
2. 부스팅 boosting부스트(boost) 방법은 처음부터 여러 개의 모형을 합쳐 문제를 푸는 취합(aggregation)과 달리 하나의 모형에서 시작해 하나씩 모형을 추가해나간다. 이 때 모형들의 집합을 위원회(commitee) C 라고 하고, m개의 모형을 갖는 위원회를 Cm 으로 표시한다. 위원회에 포함된 개별모형은 weak classi
2. 부스팅 boosting부스트(boost) 방법은 처음부터 여러 개의 모형을 합쳐 문제를 푸는 취합(aggregation)과 달리 하나의 모형에서 시작해 하나씩 모형을 추가해나간다. 이 때 모형들의 집합을 위원회(commitee) C 라고 하고, m개의 모형을 갖는 위원회를 Cm 으로 표시한다. 위원회에 포함된 개별모형은 weak classi
모형 결합모형 결합(model combining) 방법은 앙상블 방법론(ensemble methods)라고도 한다. 단일모형으로 예측이 잘 되지 않을 때, 복수의 모형을 결합해 예측성능을 높이고자 할 때 사용한다. 장점 개별 모형의 성능이 안좋을 때는 결합모형을 하게 되면 성능이 향상된다. 단일모형으로 할 때보다 과최적화를 방지할 수 있다. 모형 결
의사 결정 나무의사결정나무(decision tree)는 여러 가지 규칙을 순차적으로 적용하면서 독립변수 공간을 분할하는 분류 모형이다. 판별적 확률모형이긴 하지만 분류해야 하는 class가 multi든 binary든, 혹은 문제 자체가 classification이든 regression이든 모두 적용할 수 있는 만능 모형이다. 분류와 회귀분석 모두에 사용될
엔트로피엔트로피란?Y=0 또는 Y=1 인 두 가지 값을 갖는 확률분포가 다음처럼 세 종류 있다고 하자. 확률 분포 Y1 : P(Y=0)=0.5,P(Y=1)=0.5 확률 분포 Y2 : P(Y=0)=0.8,P(Y=1)=0.2 확률 분포 Y3 : P(Y=0)=1.0,P(Y=1)=0 이 확률값이 베
나이브베이즈 분류모형나이브 가정모든 차원의 개별 독립변수 요소들이 서로 조건부 독립이라는 가정을 나이브 가정이라고 한다. 이 가정은 그냥 생각해봐도 말이 안 된다. 예를 들어 iris데이터에서 독립변수 x1은 꽃잎의 길이, x2는 꽃잎의 폭이라고 할 때, 꽃잎의 길이가 길어지면 상식적으로 폭도 커지므로 두 변수 사이에는 매우 큰 상관관계가 있다.
QDA와 LDA확률론적 생성모형에서는 베이즈 정리를 사용하여 조건부확률을 계산한다고 했다. P(y=k\mid x) = \dfrac{P(x\mid y=k)P(y=k)}{P(x)}하나의 독립변수 x에 대해 y가 k일 경우의 조건부확률을 모두 구해서 그 중 가장 값이 큰 y로 추정하는데, 위 베이즈정리 공식에서 분모는 P(x)이므로 이 때 분모값은 고정이다.
분류 성능 평가분류 문제는 회귀분석과 달리 다양한 성능 평가기준이 필요하다. Scikit-Learn에서 제공하는 분류 성능평가 메서드들은 다음과 같다. sklearn.metrics 서브 패키지 confusion_matrix() classfication_report() accuracy_score(y_true, y_pred) precision_score(y_
다중 클래스 분류 이진(Binary Class) 분류 : 종속변수의 클래스가 2개인 분류 문제 다중 클래스(Multi-Class) 분류 : 종속변수의 클래스가 3 개 이상인 분류문제 OvO 혹은 OvR 방법을 통해 여러 개의 이진 클래스 분류문제로 변환해서 푼다 OvO (One-vs-One): K개의 타겟 클래스가 존재할 때, 그 중 2개씩 선택해
분류모형분류(classification)는 독립 변수 값이 주어졌을 때 그 독립 변수 값과 가장 연관성이 큰 종속변수 카테고리(클래스)를 계산하는 문제이다. 분류 모형의 종류 판별함수(discriminant function) 모형 : 주어진 데이터를 서로 다른 영역으로 나누는 경계면을 찾는다. 확률적 모형 확률적 판별(discriminative) 모
3.2 다중선형회귀단순선형회귀는 하나의 설명변수로 결과값을 예측할 때 유용한 방법이다. 하지만 현실에서 설명변수가 하나인 경우는 많지 않다. 광고 매출을 예측할 때만 해도 TV광고, 지면 광고, 소셜미디어 광고 등 다양한 설명변수가 존재할 수 있다. 이럴 경우 회귀분석
3 선형회귀3.1 단순선형회귀선형회귀 중에서도 단순선형회귀란, 하나의 독립변수 X를 가지고 종속변수 Y를 예측하는 접근방법이다. X와 Y 간에 선형 관계가 있다고 가정하며, 수식으로 쓰면 다음과 같다. Y \approx \beta_0 + \beta_1 X위 식에서 ‘$
2.2.2 편향 분산 절충테스트데이터 x에 대한 기대검정 MSE는 다음과 같은 3개의 속성으로 나눌 수 있다. E(y_0 - f(x_o))^2 = Var(f(x_o)) + [Bias(f(x_0))]^2 + Var(\epsilon) 예측값의 분산 예측값의 제곱편향 오차항
2. 통계학습2.1 통계학습이란?통계학습이란, 입력변수, 독립변수 등으로 불리는 X 와 출력변수, 반응변수, 종속변수와 같은 명칭을 갖는 Y 간의 관계를 찾아내는 일이다. 이 관계를 수식으로 표현하면 다음과 같다. Y = f(X) + \epsilon여기서 $\e
t-testt-test는 데이터집단의 평균값(기댓값)을 조사하는 통계검정 방법이다. 하나의 데이터 집단에 대해 평균값을 조사하는 단일표본(One-sample) t-test와, 두 개의 데이터 집단에 대해 평균값이 같은지 다른지를 조사하는 독립표본(Independent-
모형 결합모형 결합(model combining) 방법은 앙상블 방법론(ensemble methods)라고도 한다. 단일모형으로 예측이 잘 되지 않을 때, 복수의 모형을 결합해 예측성능을 높이고자 할 때 사용한다. 장점 개별 모형의 성능이 안좋을 때는 결합모형을 하게
2. 부스팅 boosting부스트(boost) 방법은 처음부터 여러 개의 모형을 합쳐 문제를 푸는 취합(aggregation)과 달리 하나의 모형에서 시작해 하나씩 모형을 추가해나간다. 이 때 모형들의 집합을 위원회(commitee) C 라고 하고, m개의 모형을