Tag: study

Recommender System

추천 시스템추천 시스템(recommender system)이란, 누적된 기록 등을 기반으로 사용자(user)가 선호하는 상품(item)을 예측하는 시스템이다. 파이썬의 surprise 패키지는 다양한 추천시스템 알고리즘을 제공한다. 123# 먼저 설치가 필요하다!pip install surpriseimport surprise 평점 데이터surprise 패

Hyper Parameter Tuning

모형 최적화머신러닝 예측 모형을 완성한 후에는 최적화 과정을 통해 성능을 향상시킨다. 이 과정을 하이퍼 파라미터 튜닝(hyper parameter tuning)이라고 한다. scikit-learn패키지에서 제공하는 하이퍼파라미터 튜닝 도구들은 다음과 같다. validation curve 단일 하이퍼 파라미터 최적화 GridSearchCV 그리드를 사용

Kernel SVM

커널 서포트 벡터 머신XORXOR(exclusive OR) 문제는 이진수에서의 or 연산이라고 생각하면 된다. 다음과 같이 하나만 1일 때 1이 되고, 나머지 경우는 0이 된다. x2=0 x2=1 X1=0 0 1 x1=1 1 0 이러한 경우 다음 그림처럼 클래스가 구분되는데, 퍼셉트론이나 SVM과 같은 선형판별함수 분류모형으로는

SVM(support vector machine)

서포트 벡터 머신퍼셉트론에서는 영역을 구분하는 판별경계선(decision hyperplane)이 한 문제에도 다양하게 존재할 수 있었다. 서포트 벡터머신(SVM: Support Vector machine)은 퍼셉트론 기반 모형에 가장 안정적인 하나의 판별 경계선을 찾기 위한 제한조건을 추가한 모형이다. 서포트: 판별경계선을 하나로 정해줄 수 있는 근거가

perceptron

퍼셉트론퍼셉트론(perceptron)은 가장 오래되고 단순한 형태의 판별함수 기반 이진분류모형이다. 퍼셉트론은 입력값 $x=(1,x_1,\cdots ,x_m)$ 에 대해 1 또는 -1의 값을 가지는 $y$를 출력하는 비선형 함수이다. 1을 포함하는 입력요소 $x_i$ 에 대해 가중치 $w_i$ 를 곱한 값 $a = w^Tx$ 을 활성화값(activatio

model combining - 2. Boosting

2. 부스팅 boosting부스트(boost) 방법은 처음부터 여러 개의 모형을 합쳐 문제를 푸는 취합(aggregation)과 달리 하나의 모형에서 시작해 하나씩 모형을 추가해나간다. 이 때 모형들의 집합을 위원회(commitee) $C$ 라고 하고, m개의 모형을 갖는 위원회를 $C_m$ 으로 표시한다. 위원회에 포함된 개별모형은 weak classi

model combining - 1. aggregation

모형 결합모형 결합(model combining) 방법은 앙상블 방법론(ensemble methods)라고도 한다. 단일모형으로 예측이 잘 되지 않을 때, 복수의 모형을 결합해 예측성능을 높이고자 할 때 사용한다. 장점 개별 모형의 성능이 안좋을 때는 결합모형을 하게 되면 성능이 향상된다. 단일모형으로 할 때보다 과최적화를 방지할 수 있다. 모형 결

decision_tree

의사 결정 나무의사결정나무(decision tree)는 여러 가지 규칙을 순차적으로 적용하면서 독립변수 공간을 분할하는 분류 모형이다. 판별적 확률모형이긴 하지만 분류해야 하는 class가 multi든 binary든, 혹은 문제 자체가 classification이든 regression이든 모두 적용할 수 있는 만능 모형이다. 분류와 회귀분석 모두에 사용될

entropy

엔트로피엔트로피란?$Y=0$ 또는 $Y=1$ 인 두 가지 값을 갖는 확률분포가 다음처럼 세 종류 있다고 하자. 확률 분포 $Y_1$ : $P(Y=0) = 0.5, P(Y=1) = 0.5$ 확률 분포 $Y_2$ : $P(Y=0) = 0.8, P(Y=1) = 0.2$ 확률 분포 $Y_3$ : $P(Y=0) = 1.0, P(Y=1) = 0$ 이 확률값이 베

naive bayesian classification model

나이브베이즈 분류모형나이브 가정모든 차원의 개별 독립변수 요소들이 서로 조건부 독립이라는 가정을 나이브 가정이라고 한다. 이 가정은 그냥 생각해봐도 말이 안 된다. 예를 들어 iris데이터에서 독립변수 $x_1$은 꽃잎의 길이, $x_2$는 꽃잎의 폭이라고 할 때, 꽃잎의 길이가 길어지면 상식적으로 폭도 커지므로 두 변수 사이에는 매우 큰 상관관계가 있다.