ISLR-3.1

3 선형회귀

3.1 단순선형회귀

선형회귀 중에서도 단순선형회귀란, 하나의 독립변수 X를 가지고 종속변수 Y를 예측하는 접근방법이다. X와 Y 간에 선형 관계가 있다고 가정하며, 수식으로 쓰면 다음과 같다.

위 식에서 ‘$\approx$’ 기호는 “대략적으로 모델링되었다” 라는 개념으로 보면 된다. TV 광고와 매출 간의 관계를 나타내고자 한다면 아래와 같이 단순선형회귀식으로 쓸 수 있다.

$\beta_0$ 과 $\beta_1$ 은 각각 절편, 기울기라고 불리는 알려지지 않은 상수항이며, 이 두 항을 묶어서 모델의 계수 혹은 파라미터라고 한다.

3.1.1 계수 추정

위에서 적었듯, 모델의 계수 $\beta_0$ 과 $\beta_1$ 은 알려지지 않은 값들이다. 따라서 데이터를 이용해 이 값들을 추정해내야 선형회귀식을 통해 y값을 예측할 수 있다. 즉, 주어진 학습데이터들에 가장 가까운 선 하나를 그려지게 하는 절편 $\hat{\beta_0}$과 기울기 $\hat{\beta_1}$를 찾아내는 것이 목표다. 이 ‘가까움’을 측정하는 방법은 다양하지만, 가장 일반적으로 쓰이는 방법은 ‘최소제곱법‘이다.

최소제곱법이란, 모델을 통해 예측한 값과 실제 값의 차이의 제곱의 합을 최소로 하는 계수값을 추정하는 방법이다. 예측값과 실제값의 차이의 제곱의 합을 RSS(Residual Sum of Squares)라고 하고, 따라서 최소제곱법은 RSS를 최소화하는 계수를 찾는 것이 목적이 된다. 아래 식에서 $e_i$ 는 ‘잔차‘라고 하며, 실제 값인 $y_i$와 예측값 $\hat{\beta_0} + \hat{\beta_1}x_i$ 의 차를 의미한다.

RSS를 최소화하는 계수를 찾기 위해서는 미분이 필요하다. RSS 식을 각각 $\hat{\beta_0}$과 $\hat{\beta_1}$로 편미분하여 0이 되는 값을 찾으면 그 값이 바로 RSS가 최소가 되는 계수 추정치이다. 미분한 결과는 아래와 같다. (미분 과정은 아래 따로 정리해두었다.)

위 식에서 $\bar{x}$ 와 $\bar{y}$ 는 각각 x와 y의 표본평균을 의미한다.

3.1.2 계수 추정치의 정확도 평가

X와 Y 사이의 실제 관계는 $Y = f(X) + \epsilon$ 의 모습으로 표현할 수 있다고 정의한 바 있다. 예측식과 다른 점은 오차항에 해당하는 $\epsilon$ 이 있다는 건데, 이 오차항은 X와 독립이며, 평균이 0인 정규분포에서 발생하는 랜덤한 상수로, 통제 혹은 예측이 불가능한 현실로 인해 발생하는 것이다.

위 식이 실제 X와 Y간의 관계를 가장 잘 나타내는 모회귀선에 해당하며, 아래 식은 최소제곱법을 통해 구한 계수 추정치를 사용해 y를 예측한 최소제곱선에 해당한다.

image

위 그래프를 보자. 왼쪽 그래프에 $Y = 2 + 3X + \epsilon$ 식에 100개의 랜덤한 X값을 집어넣어 생성한 데이터가 표시되어 있다. 이 식, 즉 데이터들을 가장 잘 나타내는 모회귀선이 빨간 선에 해당하고, 우리가 예측한 최소제곱선이 파란 선에 해당한다.

오른쪽 그래프의 희미한 파란 선들은, 위 하나의 식으로 10개의 랜덤한 데이터셋을 생성하여 예측한 10개의 최소제곱선을 표시한 것이다. 각각의 최소제곱선을 모회귀선으로 보기에는 훈련셋으로 사용한 각 데이터셋에 과적합된 것일 수 있어 위험하지만, 이 최소제곱선들의 평균을 내게 되면 모회귀선에 가까워진다. 파란 선이 많아지만 많아질수록 그 선들의 평균은 빨간 선에 가까워진다는 것이다. 즉, 데이터가 많아질수록 실제 모회귀선에 가까운 최소제곱선을 구할 수가 있게 된다.

이는 확률변수 Y의 모평균 $\mu$이 Y에서 나온 샘플데이터들의 표본평균 $\hat{\mu}$ 의 평균과 동일할 것으로 기대되는 것과 같은 맥락이다. 개별 $\hat{\mu}$ 는 모평균을 과소추정 혹은 과대추정할 수 있지만, 엄청 많은 샘플들의 표본평균을 구해 평균내면 모평균과 거의 가까워진다. 그렇다면 개별 $\hat{\mu}$ 는 모평균과 얼마나 벗어난 값일까? 보통 이 값은 $\hat{\mu}$ 의 표준오차(standard error)로 계산한다. 표준오차를 구하는 공식은 다음과 같다.

여기서 $\sigma$ 는 y 샘플값들의 표준편차에 해당한다. 이 식만 보더라도 표본 수가 적어지면 표준오차가 커진다는 사실을 알 수 있다.

같은 방식으로, 다음 공식을 통해 우리가 추정한 $\hat{\beta_0}$과 $\hat{\beta_1}$이 실제 $\beta_0$과 $\beta_1$에 얼마나 가까운지, 즉 $\hat{\beta_0}$과 $\hat{\beta_1}$의 표준오차를 구할 수 있다.

여기서 $\sigma^2$는 $\text{Var}(\epsilon)$이다. 그런데 알다시피 $\epsilon$은 알 수 없는 오차이기 때문에 그 분산 또한 알 수 없다. 다만 데이터를 통해 추정할 수가 있는데, $\sigma$를 잔차표준오차(RSE, Residual Standard Error)라고 하며 다음과 같이 구할 수 있다.

표준오차는 신뢰구간을 정의할 때에도 쓰이는데, 예를 들어 실제 계수 값은 95%의 확률로 우리가 구한 계수추정치의 다음 구간 안에 존재한다.

또한, 표준오차는 귀무가설을 검정할 때에도 사용된다. 단순하게 상관관계 검정에 대한 귀무가설과 대립가설을 아래와 같이 세웠다고 하자.

수학적으로는 다음과 같이 쓸 수 있다.

즉, 이 귀무가설을 검정하기 위해서는 우리가 구한 $\hat{\beta_1}$의 값이 0과 얼마나 먼 값인지를 알아야 하는데, 어느 정도가 충분히 먼 것일지를 판단하는 데에 표준오차가 사용되는 것이다. $\text{SE}(\hat{\beta_0})$의 값이 작으면 $\hat{\beta_1}$ 값이 작더라도 $\beta_1 \neq 0$ 이라는 충분한 근거가 되어 귀무가설을 기각할 수 있고, $\text{SE}(\hat{\beta_0})$의 값이 크면 귀무가설을 기각하기 위해서는 $\hat{\beta_1}$ 값이 훨씬 커야만 한다.

3.1.3 모델의 정확도 평가

귀무가설을 기각하고 대립가설을 채택한 후, 즉 X와 Y 사이에 상관관계가 있다는 결론을 내린 후에는 우리가 추정한 계수들로 만든 선형회귀 모델이 얼마나 데이터에 잘 적합하는지를 평가하는 과정이 필요하다. 모델의 정확도를 평가할 때는 앞서 본 RSE를 사용할 수도 있지만, RSE와 관련된 개념인 $R^2$ 통계량을 주로 사용한다.

RSE는 쉽게 말하면 반응변수 y값이 모회귀선에서 얼마나 벗어나는지에 대한 평균값이다. 다시 말하면, 모델이 완벽하고 계수들의 실제 값을 알고 있다 하더라도 실제 값은 예측값에서 RSE 값의 크기만큼 벗어날 수 있다는 뜻이다.

이렇게 RSE는 데이터에 대한 모델의 적합도를 절대적으로 측정하는 기준이 된다. 그런데 계산식에서 알 수 있듯이, RSE 값은 Y에 종속적이다. 각 데이터에 따라 적정 RSE가 무엇인지는 다를 수 있다. 반면 $R^2$는 0과 1 사이 값을 가지는 비율의 형태를 하고 있고 Y값에 독립적이라서, 어떤 데이터로 예측을 하든 동일하게 정확도를 판단할 수 있는 기준이 된다.

여기서 TSS(Total Sum of Squares)는 $\text{TSS}=\sum(y_i-\bar{y})^2$ 로 계산되며, 반응변수 Y의 분산을 의미한다. TSS는 원래 Y에 내재하는 분산인 것이며, RSS는 예측값과 실제값의 차이, 즉 회귀를 수행하여 X와 Y 사이의 관계를 잡아내고 난 후에도 설명되지 않고 남아있는 분산인 것이다. 따라서 TSS와 RSS의 차는 회귀 수행 후 설명이 된 Y의 분산에 해당한다. 결론적으로 $R^2$는 Y에 내재하는 변동성 중 X로 설명할 수 있는 변동성의 비율이 된다. $R^2$ 값이 1에 가까우면 회귀모델로 Y의 많은 부분을 설명할 수 있다는 것이고, 0에 가까우면 거의 설명하지 못한다는 것이다. 따라서 $R^2$ 값이 높을수록 설명력이 높은 좋은 모델이라고 단순하게는 말할 수 있다.

그러나 무조건 $R^2$가 1에 가까워야만 좋은 모델이고 그렇지 않으면 쓸모없는 모델이라고 단정지을 수는 없다. 예를 들어 물리학에서는 실제로 선형관계를 갖고있고 오차가 적은 데이터가 많아 모델에 높은 $R^2$가 요구되지만, 상대적으로 예측할 수 없고 통제가 어려운 변수가 많은 심리학이나 마케팅 같은 분야에서는 0.1보다 낮은 $R^2$가 현실적일 수 있기 때문이다.

$R^2$ 통계량은 모델의 정확도 판단 기준도 되지만 다른 관점에서 보면 X와 Y 사이의 상관관계를 나타내는 수치도 될 수 있다. 실제로 상관관계를 나타내는 수치인 상관계수 $r$을 제곱하면 $R^2$과 같다. 다음에 살펴볼 다중선형회귀에서 설명변수 X가 늘어나게 되면 상관계수를 구하는 공식을 적용하기가 어려워지는데, 이 때는 $R^2$가 적절한 대체재가 된다.

  • RSS 미분 과정

image

Share