ISLR-2.1

2. 통계학습

2.1 통계학습이란?

통계학습이란, 입력변수, 독립변수 등으로 불리는 $X$ 와 출력변수, 반응변수, 종속변수와 같은 명칭을 갖는 $Y$ 간의 관계를 찾아내는 일이다.

이 관계를 수식으로 표현하면 다음과 같다.

여기서 $\epsilon$ 은 X와는 독립이고 평균이 0인 랜덤 오차항이다. 오차항은 조절 불가능한 변수이기 때문에, 독립변수와 종속변수 간의 관계를 가장 잘 나타내는 함수 $f$를 찾아내는 것이 통계학습의 목표가 된다.

통계학습의 목적 - 예측과 추론

$f$ 를 추정하려는 이유, 목적에 따라 추정 방식이 달라질 수 있다.

1. 예측

예측(Prediction)을 목적으로 한 통계학습은 주어진 독립변수를 바탕으로 종속변수의 값을 예측하는 일이다. 이러한 목적 하에서 $f$는 보통 블랙박스로 취급되어, 추정한 $\hat{f}$이 실제 $f$와 얼마나 일치하는지보다는 정확한 $Y$값을 예측해내는 데에 중점을 두게 된다.

$Y$ 예측의 정확도는 예측시 발생하는 오차가 얼마나 작은지에 달려있다. 즉, 오차를 줄일 수 있는만큼 줄이는 것이 정확한 예측을 할 수 있는 방법이다.

그런데 오차항 $\epsilon$은 줄일 수 없는 오차(irreducible error)이다. 측정 가능하지만 미처 고려하지 못한 변수들, 혹은 고려했으나 측정이 불가능한 변수들을 포함하고 있기 때문이다.

따라서 예측을 목적으로 통계학습을 할 때 우리는 줄일 수 있는 오차(reducible error)에 해당하는 $f$를 최대한 잘 추정할 수 있어야 한다.

2. 추론

추론(Inference)을 목적으로 한 통계학습은 $X$값에 따라 $Y$가 어떻게 영향을 받고 달라지는지, $X$와 $Y$ 사이에는 어떤 관계가 있는지 추론해내는 것이다. 따라서 예측과는 반대로 $Y$값을 정확히 알아내는 것보다는 $X$와 $Y$의 관계를 가장 잘 설명할 수 있는 $f$를 찾는 것을 목적으로 한다.

우리의 목적이 예측이냐 추론이냐, 혹은 둘 다이냐에 따라 각기 다른 통계기법들이 적합할 수 있다. 예를 들어 간단한 선형모델은 정확한 $Y$값을 출력해주지는 못하더라도 $X$와 $Y$ 사이의 관계를 설명력있게 추론해줄 수 있을 것이고, 상대적으로 더 복잡한 모델을 사용하게 되면 $Y$값을 더 실제에 가깝게 예측해낼 수 있겠지만 추론 목적에는 덜 적합할 것이다.

참조: "An Introduction to Statistical Learning with Applications in R" by Gareth James, Trevor Hastie, Daniela Witten, Robertn Tibshirani:

Share