Карточки Anki
Скачайте колоды для интервального повторения
Лекция 11: Линейная регрессия. Доверительные интервалы и проверка гипотез
Восстановление контекста
Рассматривается линейная модель:
$$y = Xc + \varepsilon$$где:
- $c$ — вектор коэффициентов
- $X$ — матрица с элементами (матрица плана)
- $y$ — вектор значений
- $\varepsilon$ — вектор ошибок
Базовые предположения
- $\mathbb{E}[\varepsilon] = 0$ — математическое ожидание ошибки равно нулю
- Матрица ковариаций ошибок: $\text{Cov}(\varepsilon) = \sigma^2 \cdot E$, где $E$ — единичная матрица
Это означает, что модель гомоскедастичная: матрица ковариаций диагональная, и на диагонали стоит одна и та же дисперсия.
Что было получено ранее
Найдена оценка наименьших квадратов (ОНК):
$$\hat{c} = A^{-1} X^T y$$где $A = X^T X$.
Теорема Гаусса—Маркова (повторение):
- $\hat{c}$ — несмещённая оценка
- $\hat{c}$ — оптимальная (эффективная) в классе линейных несмещённых оценок
Также получена несмещённая оценка остаточной дисперсии:
$$\hat{\sigma}^2 = \frac{S^2(\hat{c})}{n - m}$$где $S^2(\hat{c})$ — квадратическая ошибка для ОНК, $n$ — число наблюдений, $m$ — число переменных.
До этого мы научились находить точечные оценки для $c$ и для остаточной дисперсии. Теперь будем строить доверительные интервалы.
Усиление предположений: гауссовские ошибки
До сих пор: $\mathbb{E}[\varepsilon] = 0$ и диагональная матрица ковариаций.
Усиление: $\varepsilon$ теперь — гауссовская величина:
$$\varepsilon \sim \mathcal{N}(0, \sigma^2 E)$$Так как $y$ — линейное преобразование гауссовской величины, то $y$ тоже гауссовская:
$$y \sim \mathcal{N}(Xc, \sigma^2 E)$$Функция правдоподобия
Запишем плотность $y$ при фиксированных $c$ и $\sigma^2$ (многомерное нормальное распределение):
$$L(c, \sigma^2) = \frac{1}{(\sqrt{2\pi})^n \cdot \sigma^n} \exp\left(-\frac{1}{2\sigma^2}(y - Xc)^T(y - Xc)\right)$$Здесь:
- Определитель диагональной матрицы $\sigma^2 E$ равен $\sigma^{2n}$, корень даёт $\sigma^n$
- Обратная матрица к $\sigma^2 E$ — это $\frac{1}{\sigma^2} E$
Связь МНК и метода максимального правдоподобия
Зафиксируем $\sigma^2$. Тогда максимизация $L$ по $c$ равносильна максимизации аргумента экспоненты, то есть минимизации выражения:
$$(y - Xc)^T(y - Xc) = S^2(c)$$Это и есть квадратическая ошибка! Минимум достигается на ОНК.
Вывод: При добавлении предположения о нормальности оценка наименьших квадратов совпадает с оценкой максимального правдоподобия:
$$\hat{c}_{\text{ОНК}} = \hat{c}_{\text{ММП}}$$Следствие: Ранее было показано, что оценка максимального правдоподобия эффективна в классе всех несмещённых оценок (а не только линейных). То есть:
- В теореме Гаусса—Маркова (минимальные предположения): ОНК эффективна в классе линейных несмещённых оценок
- При добавлении нормальности: ОНК эффективна в классе всех несмещённых оценок
Теорема о нормальной регрессии
Условия: выполнены все предположения, плюс ошибка распределена нормально.
Утверждения:
$\hat{c} \sim \mathcal{N}(c, \sigma^2 A^{-1})$
$\dfrac{S^2(\hat{c})}{\sigma^2} \sim \chi^2_{n-m}$ (хи-квадрат с $n - m$ степенями свободы)
$\dfrac{S^2(c) - S^2(\hat{c})}{\sigma^2} \sim \chi^2_{m}$ (хи-квадрат с $m$ степенями свободы)
Пары $\hat{c}$ и $S^2(\hat{c})$ — независимы (несмотря на то, что $S^2(\hat{c})$ зависит от $\hat{c}$)
Эту теорему можно воспринимать как переформулировку теоремы Фишера (которая использовалась при построении доверительных интервалов для параметров нормального закона).
Доверительный интервал для дисперсии $\sigma^2$
Используем результат 2 теоремы.
Запишем:
$$\mathbb{P}\left(q_{\alpha/2} \leq \frac{S^2(\hat{c})}{\sigma^2} \leq q_{1-\alpha/2}\right) = 1 - \alpha$$где $q_{\alpha/2}$, $q_{1-\alpha/2}$ — квантили распределения $\chi^2_{n-m}$.
Разрешая неравенство относительно $\sigma^2$:
$$\frac{S^2(\hat{c})}{q_{1-\alpha/2}} \leq \sigma^2 \leq \frac{S^2(\hat{c})}{q_{\alpha/2}}$$Проверка гипотезы о дисперсии
Гипотеза: $H_0: \sigma^2 = \sigma_0^2$
Статистика критерия:
$$T = \frac{S^2(\hat{c})}{\sigma_0^2}$$При истинности $H_0$: $T \sim \chi^2_{n-m}$.
Виды альтернатив и критические области
| Альтернатива $H_1$ | Тип критерия | Критическая область |
|---|---|---|
| $\sigma^2 \neq \sigma_0^2$ | Двусторонний | $[0, q_{\alpha/2}] \cup [q_{1-\alpha/2}, +\infty)$ |
| $\sigma^2 > \sigma_0^2$ | Правосторонний | $[q_{1-\alpha}, +\infty)$ |
| $\sigma^2 < \sigma_0^2$ | Левосторонний | $[0, q_\alpha]$ |
Замечание о терминологии. Везде в записи используются квантили. В практических таблицах часто используются критические значения, которые могут обозначаться как $Q_\alpha$ (то, что в записи через квантили является $q_{1-\alpha}$). Важно понимать смысл и не путать.
Замечание о носителе. Распределение $\chi^2$ имеет носитель $[0, +\infty)$ (как сумма квадратов), поэтому отрицательных значений быть не может.
Доверительный интервал для коэффициента $c_i$
Из результата 1 теоремы:
$$\frac{\hat{c}_i - c_i}{\sqrt{\sigma^2 (A^{-1})_{ii}}} \sim \mathcal{N}(0, 1)$$Но $\sigma^2$ неизвестна — оценим её через $\hat{\sigma}^2 = \dfrac{S^2(\hat{c})}{n-m}$.
Подставляя оценку, получаем:
$$\frac{\sqrt{n-m}(\hat{c}_i - c_i)}{\sqrt{S^2(\hat{c}) \cdot (A^{-1})_{ii}}} \sim t_{n-m}$$Почему распределение Стьюдента?
По формальному определению: $t_k = \dfrac{\xi}{\sqrt{\chi^2_k / k}}$, где $\xi \sim \mathcal{N}(0,1)$.
В числителе у нас стандартная гауссовская величина, а в знаменателе — корень из хи-квадрата, делённого на число степеней свободы. Получается распределение Стьюдента с $n-m$ степенями свободы.
Доверительный интервал
$$c_i \in \hat{c}_i \pm t_{1-\alpha/2, \, n-m} \cdot \sqrt{\frac{S^2(\hat{c}) \cdot (A^{-1})_{ii}}{n-m}}$$Величина $\sqrt{\dfrac{S^2(\hat{c}) \cdot (A^{-1})_{ii}}{n-m}}$ называется стандартной ошибкой.
Используется симметричность распределения Стьюдента относительно нуля.
$t$-тест значимости коэффициента линейной регрессии
Идея: проверить, действительно ли $i$-я переменная влияет на модель.
Нулевая гипотеза: $H_0: c_i = 0$ (фактор не влияет)
Альтернативы (зависят от подозрений):
- $c_i \neq 0$ (двусторонняя)
- $c_i > 0$ (правосторонняя)
- $c_i < 0$ (левосторонняя)
Статистика критерия:
$$T = \frac{\sqrt{n-m} \cdot \hat{c}_i}{\sqrt{S^2(\hat{c}) \cdot (A^{-1})_{ii}}}$$При $H_0$: $T \sim t_{n-m}$.
Примеры выбора альтернативы
Пример 1. Цена недвижимости в зависимости от расстояния до центра. Подозрение: чем меньше расстояние, тем больше цена → левосторонняя альтернатива ($c_i < 0$).
Пример 2. Стоимость авто в зависимости от мощности. Подозрение: чем больше мощность, тем больше цена → правосторонняя альтернатива ($c_i > 0$).
Предсказание новых значений
До сих пор имели “тренировочный набор”: $y = Xc + \varepsilon$, по которому оценили $c$ и $\sigma^2$.
Теперь — новое наблюдение:
$$y_\nu = x_\nu c + \varepsilon_\nu$$где:
- $x_\nu$ — новая строка наблюдений
- $\varepsilon_\nu \sim \mathcal{N}(0, \sigma^2)$
- $\varepsilon_\nu$ и $\varepsilon$ независимы
На уровне модели: $y_\nu \sim \mathcal{N}(x_\nu c, \sigma^2)$.
Оценка нового значения
$$\hat{y}_\nu = x_\nu \hat{c}$$Распределение $\hat{y}_\nu$:
$$\hat{y}_\nu \sim \mathcal{N}(x_\nu c, \sigma^2 x_\nu A^{-1} x_\nu^T)$$Здесь это дисперсия (число), а не матрица, потому что $x_\nu$ — строка.
Независимость $\hat{y}_\nu$ и $y_\nu$
- $\hat{c}$ — функция от старого $y$, который функция от старого $\varepsilon$
- $y_\nu$ — функция от нового $\varepsilon_\nu$
- Старый и новый $\varepsilon$ независимы → $\hat{y}_\nu$ и $y_\nu$ независимы
Распределение разности
$$\hat{y}_\nu - y_\nu \sim \mathcal{N}\left(0, \, \sigma^2 (1 + x_\nu A^{-1} x_\nu^T)\right)$$(дисперсии складываются при независимости)
Стандартизация:
$$\frac{\hat{y}_\nu - y_\nu}{\sqrt{\sigma^2 (1 + x_\nu A^{-1} x_\nu^T)}} \sim \mathcal{N}(0, 1)$$Заменяя $\sigma^2$ на оценку:
$$\frac{\sqrt{n-m}(\hat{y}_\nu - y_\nu)}{\sqrt{S^2(\hat{c})(1 + x_\nu A^{-1} x_\nu^T)}} \sim t_{n-m}$$Отсюда стандартным образом строится доверительный интервал для $y_\nu$ (зажимаем между квантилями и разрешаем неравенство).
Условные оценки наименьших квадратов
Понадобятся для описания $F$-критерия.
Постановка: вектор $c$ удовлетворяет линейным ограничениям:
$$Tc = t_0$$где:
- $T$ — матрица $k \times m$, $k \leq m$
- $\text{rank}(T) = k$ (ограничения линейно независимы)
Определение условной ОНК:
$$\hat{c}_T = \arg\min_{Tc = t_0} S^2(c)$$Это задача оптимизации квадратичной функции при линейных ограничениях.
Аналитическая формула
$$\hat{c}_T = \hat{c} - A^{-1} T^T D^{-1} (T\hat{c} - t_0)$$где:
$$D = T A^{-1} T^T$$(матрица $D$ возникала в теореме Гаусса—Маркова).
Матрица $D$ симметрична: $D^T = D$, поэтому $(D^{-1})^T = D^{-1}$. $D^{-1}$ существует, потому что $\text{rank}(T) = k$.
Идея вывода
Аналогично доказательству обычной ОНК. Показывается:
$$S^2(\hat{c}_T + h) > S^2(\hat{c}_T)$$для любого $h \neq 0$ такого, что $T h = 0$ (приращение в допустимом направлении).
Упражнение: показать, что $T \hat{c}_T = t_0$ (выполняется в одну строчку).
Ключевое наблюдение
Из результата прошлой лекции:
$$S^2(c) - S^2(\hat{c}) = (c - \hat{c})^T A (c - \hat{c})$$Подставляя $c = \hat{c}_T$:
$$S^2(\hat{c}_T) - S^2(\hat{c}) = (\hat{c}_T - \hat{c})^T A (\hat{c}_T - \hat{c})$$Используя формулу для $\hat{c}_T - \hat{c} = -A^{-1} T^T D^{-1}(T\hat{c} - t_0)$:
$$S^2(\hat{c}_T) - S^2(\hat{c}) = (T\hat{c} - t_0)^T D^{-1} \underbrace{T A^{-1} T^T}_{= D} D^{-1} (T\hat{c} - t_0)$$$$= (T\hat{c} - t_0)^T D^{-1} (T\hat{c} - t_0)$$Это квадратичная форма от $\hat{c}$. Так как $\hat{c}$ имеет нормальное распределение, и квадратичная форма построена с матрицей ранга $k$, эта величина связана с распределением $\chi^2_k$ — число степеней свободы равно $k$.
$F$-критерий для линейной модели
Общая формулировка
Гипотезы:
- $H_0: Tc = t_0$
- $H_1: Tc \neq t_0$
Статистика критерия:
$$F = \frac{[S^2(\hat{c}_T) - S^2(\hat{c})] / k}{S^2(\hat{c}) / (n-m)}$$При истинности $H_0$: $F \sim F_{k, \, n-m}$ (распределение Фишера).
Обоснование правосторонней критической области
Знаменатель:
$$\mathbb{E}\left[\frac{S^2(\hat{c})}{n-m}\right] = \sigma^2$$— всегда, независимо от истинности $H_0$.
Числитель: математическое ожидание разности квадратичных ошибок.
$$\mathbb{E}\left[\frac{1}{k}(S^2(\hat{c}_T) - S^2(\hat{c}))\right] = \frac{1}{k} \mathbb{E}\left[(T\hat{c} - t_0)^T D^{-1} (T\hat{c} - t_0)\right]$$Расписываем как сумму:
$$= \frac{1}{k} \sum_{i,j} (D^{-1})_{ij} \, \mathbb{E}\left[(T\hat{c} - t_0)_i (T\hat{c} - t_0)_j\right]$$Используя $\mathbb{E}[XY] = \text{Cov}(X, Y) + \mathbb{E}[X]\mathbb{E}[Y]$, получаем две части:
Часть 1 (с ковариациями):
$$\frac{1}{k} \sum_{i,j} (D^{-1})_{ij} \, \text{Cov}((T\hat{c} - t_0)_i, (T\hat{c} - t_0)_j)$$Так как $t_0$ — константа, ковариация определяется только $T\hat{c}$. Матрица ковариации $T\hat{c}$:
$$\text{Cov}(T\hat{c}) = T \cdot \text{Cov}(\hat{c}) \cdot T^T = T \cdot \sigma^2 A^{-1} \cdot T^T = \sigma^2 D$$Подставляя:
$$\frac{1}{k} \sum_{i,j} (D^{-1})_{ij} \cdot \sigma^2 D_{ij} = \frac{\sigma^2}{k} \cdot \text{tr}(D^{-1} D) = \frac{\sigma^2}{k} \cdot k = \sigma^2$$Здесь использовано: $\sum_{i,j}(D^{-1})_{ij} D_{ij} = \text{tr}(D^{-1} D) = \text{tr}(E_k) = k$.
Часть 2 (с произведениями матожиданий):
Используя $\mathbb{E}[\hat{c}] = c$:
$$\frac{1}{k}(Tc - t_0)^T D^{-1} (Tc - t_0)$$Итого:
$$\mathbb{E}\left[\frac{1}{k}(S^2(\hat{c}_T) - S^2(\hat{c}))\right] = \sigma^2 + \frac{1}{k}(Tc - t_0)^T D^{-1} (Tc - t_0)$$Анализ:
- Если $H_0$ верна ($Tc = t_0$): математическое ожидание числителя равно $\sigma^2$
- Если $H_0$ не верна: математическое ожидание числителя строго больше $\sigma^2$
Знаменатель всегда в среднем равен $\sigma^2$. Поэтому:
- При $H_0$: $\mathbb{E}[F] \approx 1$
- При $H_1$: $\mathbb{E}[F] > 1$
Критическая область — правосторонняя.
$F$-критерий “по умолчанию” (значимость модели в целом)
Стандартная модель
$$y_i = c_0 + x_{i1} c_1 + x_{i2} c_2 + \ldots + x_{im} c_m + \varepsilon_i$$В библиотеках $c_0$ (свободный член) обычно выделяется отдельно.
Гипотеза по умолчанию
Нулевая гипотеза: все коэффициенты, кроме свободного, равны нулю:
$$H_0: c_1 = c_2 = \ldots = c_m = 0$$Альтернатива: $H_1$: хотя бы один $c_i \neq 0$ (то есть $\neg H_0$).
Это проверка значимости модели в целом.
Коэффициент детерминации $R^2$
Определение. Множественный коэффициент корреляции — это коэффициент корреляции между $y$ и $\hat{y}$:
$$R = \text{corr}(y, \hat{y})$$где $\hat{y} = X\hat{c}$.
Коэффициент детерминации:
$$R^2 = R^2(\text{множественный})$$Связь с остаточной дисперсией
Имеет место соотношение:
$$S^2(\hat{c}) = (1 - R^2) \sum_{i=1}^{n} (y_i - \bar{y})^2$$Правая сумма — константа, зависящая от датасета.
Интерпретация
| $R^2$ | Остаточная дисперсия | Качество модели |
|---|---|---|
| Близко к 1 | Маленькая | Модель адекватная |
| Близко к 0 | Большая | Модель не очень адекватная |
$F$-статистика через $R^2$
Для гипотезы по умолчанию $F$-статистика выражается через коэффициент детерминации:
$$F = \frac{R^2 / m}{(1 - R^2) / (n - m - 1)}$$Замечание Ивана Александровича: возможны небольшие неточности в коэффициентах — нужно перепроверить.
Что планируется на следующей лекции
- Модель однофакторного дисперсионного анализа
- Обобщения линейных моделей
- Как проверять исходные предположения
- Что делать, если матрица $A$ необратима или плохо обратима