ISLR-3.2

3.2 다중선형회귀

단순선형회귀는 하나의 설명변수로 결과값을 예측할 때 유용한 방법이다. 하지만 현실에서 설명변수가 하나인 경우는 많지 않다. 광고 매출을 예측할 때만 해도 TV광고, 지면 광고, 소셜미디어 광고 등 다양한 설명변수가 존재할 수 있다. 이럴 경우 회귀분석을 어떻게 해야 할까?

한 가지 방법은 단순선형회귀를 설명변수 각각에 대해 진행하는 것이다. 물론 선호되는 방식은 아니다. 일단 개별 선형회귀모델에서 나온 다른 예측값들을 가지고 하나의 값을 도출해내기가 어렵다. 또한 각 모델은 다른 모델을 고려하지 않은 채 하나의 변수만을 가지고 학습하고 예측하기 때문에 만약 변수들 간에 상관관계가 존재한다면 개별 모델이 예측하는 결과는 상당히 왜곡되어있을 수 있다.

따라서 많은 변수들을 하나의 모델에 담아내는 것이 더 좋은 방법이다. 단순선형회귀식에서 하나의 설명변수에 하나의 계수 $\beta_1$이 주어졌다면, 그 식을 그대로 확장해 변수마다 계수를 부여하는 것이다. 이를 다중선형회귀라고 하며, p개의 설명변수를 가진 다중선형회귀모델은 아래와 같은 형식을 취한다.

만약 TV광고에 쓰인 광고비, 신문광고에 쓰인 광고비, SNS에 쓰인 광고비를 통해 매출을 예측하고자 한다면, 다중선형회귀식은 아래와 같이 쓸 수 있다.

3.2.1 회귀계수의 추정

단순선형회귀에서와 마찬가지로, 다중선형회귀의 회귀계수들 또한 알려지지 않았기 때문에 우리가 추정한 값들 $\hat{\beta_0}, \hat{\beta_1}, \cdots, \hat{\beta_p}$를 가지고 예측값 $\hat{y}$을 도출해내는 것이다.

회귀계수를 추정할 때도 단순선형회귀에서와 마찬가지로 최소제곱법을 이용한다. 즉, 다음 RSS를 최소화하는 계수들을 찾아내는 것이 목적이다.

위에서 들었던 광고 매출을 예측하는 문제에 대해 다중선형회귀를 통해 추정한 계수 값이 아래 표와 같다면,

coefficient(계수) 표준오차(std.error) t-통계량 p-value
상수항($\hat{\beta_0}$) 2.939 0.3119 9.42 < 0.0001
TV 0.046 0.0014 32.81 < 0.0001
newspaper 0.189 0.0086 21.89 < 0.0001
SNS -0.001 0.0059 -0.18 0.8599

우리는 이 결과를 이렇게 해석할 수 있다:

원래 하던 TV, 신문, sns 광고를 유지한 상태에서 TV광고에 추가적으로 $1000을 더 쓴다면, 약 189단위의 매출 상승을 기대할 수 있다.

이 다중선형회귀 결과 추정된 계수값은 각 변수에 대해 단순선형회귀를 했을 때 나오는 계수값과 상당히 다를 수 있다. 이 차이는 위에서 언급했듯이 하나의 변수에 대한 단순선형회귀가 다른 변수의 영향을 전혀 고려하지 않는 반면 다중선형회귀는 다른 변수들의 값이 고정일 때 변수 하나가 y에 미치는 영향을 측정하기 때문이다.

따라서 단순선형회귀 결과 SNS 광고가 매출과 양의 상관관계를 가졌지만, 다중선형회귀를 해보니 둘 사이에는 상관관계가 없다는 결론이 나올 수가 있다.

일상생횔에서도 위와 같은 상황이 자주 발생한다. 여름에는 아이스크림 판매량이 늘어나고, 또한 수영복 판매량도 늘어나는 것이 일반적이다. 만약 아이스크림 판매량으로 수영복 판매를 예측하는 선형회귀를 해본다면 둘 사이에 분명 양의 상관관계가 포착될 것이다. 그런데 사실 여름이라는 계절적 특성이 원인으로 작용해 두 판매량이 같이 증가하는 것일 뿐, 아이스크림 판매가 수영복 판매를 촉진시키거나 그 반대의 경우가 결코 아니라는 것을 우리 모두가 알고 있다. 다시 아이스크림 판매량과 기온을 가지고 수영복 판매를 다중회귀 해본다면, 더 이상 아이스크림 판매량이 수영복 판매에 영향을 주지 않는 결과가 나올 것이다.

3.2.2 다중선형회귀의 중요한 이슈들

  1. 설명변수 $X_1, X_2, \cdots , X_p$ 중에서 최소 하나 이상의 변수가 반응변수와 관련되어있는가?
  2. 모든 변수가 $Y$ 에 대한 설명력을 가지는가, 아니면 일부만 설명력을 가지는가?
  3. 만들어진 모델이 얼마나 데이터에 잘 적합하는가?
  4. 만들어진 모델의 예측값은 얼마나 정확한가?

다중선형회귀를 할 때 위 질문들을 염두하고 진행해야 한다. 하나씩 살펴보도록 하자.

1. 반응변수와 설명변수 사이에 상관관계가 있는가?

설명변수가 1개뿐인 단순선형회귀에서는, X와 Y 사이에 상관관계가 존재하는지 보기 위해서 $\beta_1 = 0$ 인지만 확인하면 됐는데, 다중선형회귀에서는 $\beta_1 = \beta_2 = \cdots = \beta_p = 0$ 인지를 확인하는 문제가 된다. 선형회귀분석의 귀무가설은 ‘어떤 X변수도 Y와 상관관계가 없다‘ 가 되고, 대립가설은 ‘X 중 하나라도 Y와 상관관계가 있다‘가 된다.

가설 검정은 F통계량 계산을 통해 하게 되는데, F통계량은 다음과 같이 계산한다.

선형 모델에서는 아래 식이 디폴트로 증명되고,

귀무가설이 맞다면, 즉 X와 Y 사이에 어떠한 상관관계도 없다면, 다음 식 또한 증명할 수 있다.

즉, X와 Y 사이에 상관관계가 없다면 F통계량은 1에 가까운 값을 갖게 된다. 반대로 대립가설이 맞다면, $E\{(\text{TSS} - \text{RSS})/ p \} > \sigma^2$ 가 되어 F값이 1보다 커진다.

그렇다면 도대체 F값이 1보다 얼마나 큰 값이어야 귀무가설을 기각하고 X와 Y 사이에 상관관계가 있음을 주장할 수 있는 걸까? 이 질문에 대한 대답은 데이터의 크기에 달려있다.

$n$ 이 크면, 즉 데이터가 많으면, F값이 1보다 약간 큰 값이더라도 충분히 귀무가설을 기각할 수 있다. 다르게 말하면 데이터가 적을수록 귀무가설을 기각하기 위해 더 큰 F값이 요구된다.

image-20200204113519049

Share