ISLR-2.2

2.2.2 편향 분산 절충

테스트데이터 x에 대한 기대검정 MSE는 다음과 같은 3개의 속성으로 나눌 수 있다.

  1. 예측값의 분산
  2. 예측값의 제곱편향
  3. 오차항 $\epsilon$ 의 분산

이 항들의 합을 최대한 작게 하는 것이 모델 학습의 목적이 된다.

그런데 알다시피 마지막 항은 irreducible error에 해당하는 오차항의 분산이므로 최소화할 수 없다.

따라서 앞 두 항인 예측값의 분산과 제곱편향을 최소화해야 한다.

분산과 편향

분산이란, 다른 훈련데이터를 사용해 $f$ 를 추정했을 때 $f$ 가 변동되는 정도를 말한다.

모델의 성능이 어떤 데이터에서든 좋으려면 이 변동 정도가 작은 것이 좋을 것이다.

그런데 모델의 유연성(자유도, 복잡도)이 높을수록 훈련데이터에 많이 적합되기 때문에 분산이 커질 수밖에 없다.

편향실제 데이터보다 너무 단순한 모델에 적합시켰을 때 예측값과 실제 값과의 오차를 의미한다.

모델의 유연성이 높을수록 훈련데이터의 실제값에 가까운 값을 예측해낼 것이므로 분산과는 반대로 편향은 작아지게 된다.

즉, 분산과 편향은 반비례 관계에 놓이는 개념이다.

분산과 편향의 절충

모델의 유연성을 증가시키면 MSE는 처음에 빠르게 감소한다. 훈련데이터를 더 잘 예측하게 되면서 편향이 급격히 작아지기 때문이다. 그러나 어느 순간 MSE가 증가하기 시작한다. 모델이 훈련데이터에 과대적합되면서 분산이 커지기 때문이다.

image

편향과 분산이 가장 작은 곳에서 만나는 지점, 그 곳에서 MSE가 가장 작은 모델이 결정된다.

image

물론 현실적으로 이 지점을 찾기란 굉장히 어렵다. 하지만 이 점을 염두에 두고 적절한 모델을 찾아나가는 것이 중요할 것이다.

Share