Лекция 12

22.04.2026 Обновлено: 22.04.2026

Лекция 11: Линейная регрессия. Доверительные интервалы и проверка гипотез

Восстановление контекста

Рассматривается линейная модель:

$$y = Xc + \varepsilon$$

где:

  • $c$ — вектор коэффициентов
  • $X$ — матрица с элементами (матрица плана)
  • $y$ — вектор значений
  • $\varepsilon$ — вектор ошибок

Базовые предположения

  1. $\mathbb{E}[\varepsilon] = 0$ — математическое ожидание ошибки равно нулю
  2. Матрица ковариаций ошибок: $\text{Cov}(\varepsilon) = \sigma^2 \cdot E$, где $E$ — единичная матрица

Это означает, что модель гомоскедастичная: матрица ковариаций диагональная, и на диагонали стоит одна и та же дисперсия.

Что было получено ранее

Найдена оценка наименьших квадратов (ОНК):

$$\hat{c} = A^{-1} X^T y$$

где $A = X^T X$.

Теорема Гаусса—Маркова (повторение):

  • $\hat{c}$ — несмещённая оценка
  • $\hat{c}$ — оптимальная (эффективная) в классе линейных несмещённых оценок

Также получена несмещённая оценка остаточной дисперсии:

$$\hat{\sigma}^2 = \frac{S^2(\hat{c})}{n - m}$$

где $S^2(\hat{c})$ — квадратическая ошибка для ОНК, $n$ — число наблюдений, $m$ — число переменных.

До этого мы научились находить точечные оценки для $c$ и для остаточной дисперсии. Теперь будем строить доверительные интервалы.


Усиление предположений: гауссовские ошибки

До сих пор: $\mathbb{E}[\varepsilon] = 0$ и диагональная матрица ковариаций.

Усиление: $\varepsilon$ теперь — гауссовская величина:

$$\varepsilon \sim \mathcal{N}(0, \sigma^2 E)$$

Так как $y$ — линейное преобразование гауссовской величины, то $y$ тоже гауссовская:

$$y \sim \mathcal{N}(Xc, \sigma^2 E)$$

Функция правдоподобия

Запишем плотность $y$ при фиксированных $c$ и $\sigma^2$ (многомерное нормальное распределение):

$$L(c, \sigma^2) = \frac{1}{(\sqrt{2\pi})^n \cdot \sigma^n} \exp\left(-\frac{1}{2\sigma^2}(y - Xc)^T(y - Xc)\right)$$

Здесь:

  • Определитель диагональной матрицы $\sigma^2 E$ равен $\sigma^{2n}$, корень даёт $\sigma^n$
  • Обратная матрица к $\sigma^2 E$ — это $\frac{1}{\sigma^2} E$

Связь МНК и метода максимального правдоподобия

Зафиксируем $\sigma^2$. Тогда максимизация $L$ по $c$ равносильна максимизации аргумента экспоненты, то есть минимизации выражения:

$$(y - Xc)^T(y - Xc) = S^2(c)$$

Это и есть квадратическая ошибка! Минимум достигается на ОНК.

Вывод: При добавлении предположения о нормальности оценка наименьших квадратов совпадает с оценкой максимального правдоподобия:

$$\hat{c}_{\text{ОНК}} = \hat{c}_{\text{ММП}}$$

Следствие: Ранее было показано, что оценка максимального правдоподобия эффективна в классе всех несмещённых оценок (а не только линейных). То есть:

  • В теореме Гаусса—Маркова (минимальные предположения): ОНК эффективна в классе линейных несмещённых оценок
  • При добавлении нормальности: ОНК эффективна в классе всех несмещённых оценок

Теорема о нормальной регрессии

Условия: выполнены все предположения, плюс ошибка распределена нормально.

Утверждения:

  1. $\hat{c} \sim \mathcal{N}(c, \sigma^2 A^{-1})$

  2. $\dfrac{S^2(\hat{c})}{\sigma^2} \sim \chi^2_{n-m}$ (хи-квадрат с $n - m$ степенями свободы)

  3. $\dfrac{S^2(c) - S^2(\hat{c})}{\sigma^2} \sim \chi^2_{m}$ (хи-квадрат с $m$ степенями свободы)

  4. Пары $\hat{c}$ и $S^2(\hat{c})$ — независимы (несмотря на то, что $S^2(\hat{c})$ зависит от $\hat{c}$)

Эту теорему можно воспринимать как переформулировку теоремы Фишера (которая использовалась при построении доверительных интервалов для параметров нормального закона).


Доверительный интервал для дисперсии $\sigma^2$

Используем результат 2 теоремы.

Запишем:

$$\mathbb{P}\left(q_{\alpha/2} \leq \frac{S^2(\hat{c})}{\sigma^2} \leq q_{1-\alpha/2}\right) = 1 - \alpha$$

где $q_{\alpha/2}$, $q_{1-\alpha/2}$ — квантили распределения $\chi^2_{n-m}$.

Разрешая неравенство относительно $\sigma^2$:

$$\frac{S^2(\hat{c})}{q_{1-\alpha/2}} \leq \sigma^2 \leq \frac{S^2(\hat{c})}{q_{\alpha/2}}$$

Проверка гипотезы о дисперсии

Гипотеза: $H_0: \sigma^2 = \sigma_0^2$

Статистика критерия:

$$T = \frac{S^2(\hat{c})}{\sigma_0^2}$$

При истинности $H_0$: $T \sim \chi^2_{n-m}$.

Виды альтернатив и критические области

Альтернатива $H_1$Тип критерияКритическая область
$\sigma^2 \neq \sigma_0^2$Двусторонний$[0, q_{\alpha/2}] \cup [q_{1-\alpha/2}, +\infty)$
$\sigma^2 > \sigma_0^2$Правосторонний$[q_{1-\alpha}, +\infty)$
$\sigma^2 < \sigma_0^2$Левосторонний$[0, q_\alpha]$

Замечание о терминологии. Везде в записи используются квантили. В практических таблицах часто используются критические значения, которые могут обозначаться как $Q_\alpha$ (то, что в записи через квантили является $q_{1-\alpha}$). Важно понимать смысл и не путать.

Замечание о носителе. Распределение $\chi^2$ имеет носитель $[0, +\infty)$ (как сумма квадратов), поэтому отрицательных значений быть не может.


Доверительный интервал для коэффициента $c_i$

Из результата 1 теоремы:

$$\frac{\hat{c}_i - c_i}{\sqrt{\sigma^2 (A^{-1})_{ii}}} \sim \mathcal{N}(0, 1)$$

Но $\sigma^2$ неизвестна — оценим её через $\hat{\sigma}^2 = \dfrac{S^2(\hat{c})}{n-m}$.

Подставляя оценку, получаем:

$$\frac{\sqrt{n-m}(\hat{c}_i - c_i)}{\sqrt{S^2(\hat{c}) \cdot (A^{-1})_{ii}}} \sim t_{n-m}$$

Почему распределение Стьюдента?

По формальному определению: $t_k = \dfrac{\xi}{\sqrt{\chi^2_k / k}}$, где $\xi \sim \mathcal{N}(0,1)$.

В числителе у нас стандартная гауссовская величина, а в знаменателе — корень из хи-квадрата, делённого на число степеней свободы. Получается распределение Стьюдента с $n-m$ степенями свободы.

Доверительный интервал

$$c_i \in \hat{c}_i \pm t_{1-\alpha/2, \, n-m} \cdot \sqrt{\frac{S^2(\hat{c}) \cdot (A^{-1})_{ii}}{n-m}}$$

Величина $\sqrt{\dfrac{S^2(\hat{c}) \cdot (A^{-1})_{ii}}{n-m}}$ называется стандартной ошибкой.

Используется симметричность распределения Стьюдента относительно нуля.


$t$-тест значимости коэффициента линейной регрессии

Идея: проверить, действительно ли $i$-я переменная влияет на модель.

Нулевая гипотеза: $H_0: c_i = 0$ (фактор не влияет)

Альтернативы (зависят от подозрений):

  • $c_i \neq 0$ (двусторонняя)
  • $c_i > 0$ (правосторонняя)
  • $c_i < 0$ (левосторонняя)

Статистика критерия:

$$T = \frac{\sqrt{n-m} \cdot \hat{c}_i}{\sqrt{S^2(\hat{c}) \cdot (A^{-1})_{ii}}}$$

При $H_0$: $T \sim t_{n-m}$.

Примеры выбора альтернативы

Пример 1. Цена недвижимости в зависимости от расстояния до центра. Подозрение: чем меньше расстояние, тем больше цена → левосторонняя альтернатива ($c_i < 0$).

Пример 2. Стоимость авто в зависимости от мощности. Подозрение: чем больше мощность, тем больше цена → правосторонняя альтернатива ($c_i > 0$).


Предсказание новых значений

До сих пор имели “тренировочный набор”: $y = Xc + \varepsilon$, по которому оценили $c$ и $\sigma^2$.

Теперь — новое наблюдение:

$$y_\nu = x_\nu c + \varepsilon_\nu$$

где:

  • $x_\nu$ — новая строка наблюдений
  • $\varepsilon_\nu \sim \mathcal{N}(0, \sigma^2)$
  • $\varepsilon_\nu$ и $\varepsilon$ независимы

На уровне модели: $y_\nu \sim \mathcal{N}(x_\nu c, \sigma^2)$.

Оценка нового значения

$$\hat{y}_\nu = x_\nu \hat{c}$$

Распределение $\hat{y}_\nu$:

$$\hat{y}_\nu \sim \mathcal{N}(x_\nu c, \sigma^2 x_\nu A^{-1} x_\nu^T)$$

Здесь это дисперсия (число), а не матрица, потому что $x_\nu$ — строка.

Независимость $\hat{y}_\nu$ и $y_\nu$

  • $\hat{c}$ — функция от старого $y$, который функция от старого $\varepsilon$
  • $y_\nu$ — функция от нового $\varepsilon_\nu$
  • Старый и новый $\varepsilon$ независимы → $\hat{y}_\nu$ и $y_\nu$ независимы

Распределение разности

$$\hat{y}_\nu - y_\nu \sim \mathcal{N}\left(0, \, \sigma^2 (1 + x_\nu A^{-1} x_\nu^T)\right)$$

(дисперсии складываются при независимости)

Стандартизация:

$$\frac{\hat{y}_\nu - y_\nu}{\sqrt{\sigma^2 (1 + x_\nu A^{-1} x_\nu^T)}} \sim \mathcal{N}(0, 1)$$

Заменяя $\sigma^2$ на оценку:

$$\frac{\sqrt{n-m}(\hat{y}_\nu - y_\nu)}{\sqrt{S^2(\hat{c})(1 + x_\nu A^{-1} x_\nu^T)}} \sim t_{n-m}$$

Отсюда стандартным образом строится доверительный интервал для $y_\nu$ (зажимаем между квантилями и разрешаем неравенство).


Условные оценки наименьших квадратов

Понадобятся для описания $F$-критерия.

Постановка: вектор $c$ удовлетворяет линейным ограничениям:

$$Tc = t_0$$

где:

  • $T$ — матрица $k \times m$, $k \leq m$
  • $\text{rank}(T) = k$ (ограничения линейно независимы)

Определение условной ОНК:

$$\hat{c}_T = \arg\min_{Tc = t_0} S^2(c)$$

Это задача оптимизации квадратичной функции при линейных ограничениях.

Аналитическая формула

$$\hat{c}_T = \hat{c} - A^{-1} T^T D^{-1} (T\hat{c} - t_0)$$

где:

$$D = T A^{-1} T^T$$

(матрица $D$ возникала в теореме Гаусса—Маркова).

Матрица $D$ симметрична: $D^T = D$, поэтому $(D^{-1})^T = D^{-1}$. $D^{-1}$ существует, потому что $\text{rank}(T) = k$.

Идея вывода

Аналогично доказательству обычной ОНК. Показывается:

$$S^2(\hat{c}_T + h) > S^2(\hat{c}_T)$$

для любого $h \neq 0$ такого, что $T h = 0$ (приращение в допустимом направлении).

Упражнение: показать, что $T \hat{c}_T = t_0$ (выполняется в одну строчку).

Ключевое наблюдение

Из результата прошлой лекции:

$$S^2(c) - S^2(\hat{c}) = (c - \hat{c})^T A (c - \hat{c})$$

Подставляя $c = \hat{c}_T$:

$$S^2(\hat{c}_T) - S^2(\hat{c}) = (\hat{c}_T - \hat{c})^T A (\hat{c}_T - \hat{c})$$

Используя формулу для $\hat{c}_T - \hat{c} = -A^{-1} T^T D^{-1}(T\hat{c} - t_0)$:

$$S^2(\hat{c}_T) - S^2(\hat{c}) = (T\hat{c} - t_0)^T D^{-1} \underbrace{T A^{-1} T^T}_{= D} D^{-1} (T\hat{c} - t_0)$$$$= (T\hat{c} - t_0)^T D^{-1} (T\hat{c} - t_0)$$

Это квадратичная форма от $\hat{c}$. Так как $\hat{c}$ имеет нормальное распределение, и квадратичная форма построена с матрицей ранга $k$, эта величина связана с распределением $\chi^2_k$ — число степеней свободы равно $k$.


$F$-критерий для линейной модели

Общая формулировка

Гипотезы:

  • $H_0: Tc = t_0$
  • $H_1: Tc \neq t_0$

Статистика критерия:

$$F = \frac{[S^2(\hat{c}_T) - S^2(\hat{c})] / k}{S^2(\hat{c}) / (n-m)}$$

При истинности $H_0$: $F \sim F_{k, \, n-m}$ (распределение Фишера).

Обоснование правосторонней критической области

Знаменатель:

$$\mathbb{E}\left[\frac{S^2(\hat{c})}{n-m}\right] = \sigma^2$$

— всегда, независимо от истинности $H_0$.

Числитель: математическое ожидание разности квадратичных ошибок.

$$\mathbb{E}\left[\frac{1}{k}(S^2(\hat{c}_T) - S^2(\hat{c}))\right] = \frac{1}{k} \mathbb{E}\left[(T\hat{c} - t_0)^T D^{-1} (T\hat{c} - t_0)\right]$$

Расписываем как сумму:

$$= \frac{1}{k} \sum_{i,j} (D^{-1})_{ij} \, \mathbb{E}\left[(T\hat{c} - t_0)_i (T\hat{c} - t_0)_j\right]$$

Используя $\mathbb{E}[XY] = \text{Cov}(X, Y) + \mathbb{E}[X]\mathbb{E}[Y]$, получаем две части:

Часть 1 (с ковариациями):

$$\frac{1}{k} \sum_{i,j} (D^{-1})_{ij} \, \text{Cov}((T\hat{c} - t_0)_i, (T\hat{c} - t_0)_j)$$

Так как $t_0$ — константа, ковариация определяется только $T\hat{c}$. Матрица ковариации $T\hat{c}$:

$$\text{Cov}(T\hat{c}) = T \cdot \text{Cov}(\hat{c}) \cdot T^T = T \cdot \sigma^2 A^{-1} \cdot T^T = \sigma^2 D$$

Подставляя:

$$\frac{1}{k} \sum_{i,j} (D^{-1})_{ij} \cdot \sigma^2 D_{ij} = \frac{\sigma^2}{k} \cdot \text{tr}(D^{-1} D) = \frac{\sigma^2}{k} \cdot k = \sigma^2$$

Здесь использовано: $\sum_{i,j}(D^{-1})_{ij} D_{ij} = \text{tr}(D^{-1} D) = \text{tr}(E_k) = k$.

Часть 2 (с произведениями матожиданий):

Используя $\mathbb{E}[\hat{c}] = c$:

$$\frac{1}{k}(Tc - t_0)^T D^{-1} (Tc - t_0)$$

Итого:

$$\mathbb{E}\left[\frac{1}{k}(S^2(\hat{c}_T) - S^2(\hat{c}))\right] = \sigma^2 + \frac{1}{k}(Tc - t_0)^T D^{-1} (Tc - t_0)$$

Анализ:

  • Если $H_0$ верна ($Tc = t_0$): математическое ожидание числителя равно $\sigma^2$
  • Если $H_0$ не верна: математическое ожидание числителя строго больше $\sigma^2$

Знаменатель всегда в среднем равен $\sigma^2$. Поэтому:

  • При $H_0$: $\mathbb{E}[F] \approx 1$
  • При $H_1$: $\mathbb{E}[F] > 1$

Критическая область — правосторонняя.


$F$-критерий “по умолчанию” (значимость модели в целом)

Стандартная модель

$$y_i = c_0 + x_{i1} c_1 + x_{i2} c_2 + \ldots + x_{im} c_m + \varepsilon_i$$

В библиотеках $c_0$ (свободный член) обычно выделяется отдельно.

Гипотеза по умолчанию

Нулевая гипотеза: все коэффициенты, кроме свободного, равны нулю:

$$H_0: c_1 = c_2 = \ldots = c_m = 0$$

Альтернатива: $H_1$: хотя бы один $c_i \neq 0$ (то есть $\neg H_0$).

Это проверка значимости модели в целом.


Коэффициент детерминации $R^2$

Определение. Множественный коэффициент корреляции — это коэффициент корреляции между $y$ и $\hat{y}$:

$$R = \text{corr}(y, \hat{y})$$

где $\hat{y} = X\hat{c}$.

Коэффициент детерминации:

$$R^2 = R^2(\text{множественный})$$

Связь с остаточной дисперсией

Имеет место соотношение:

$$S^2(\hat{c}) = (1 - R^2) \sum_{i=1}^{n} (y_i - \bar{y})^2$$

Правая сумма — константа, зависящая от датасета.

Интерпретация

$R^2$Остаточная дисперсияКачество модели
Близко к 1МаленькаяМодель адекватная
Близко к 0БольшаяМодель не очень адекватная

$F$-статистика через $R^2$

Для гипотезы по умолчанию $F$-статистика выражается через коэффициент детерминации:

$$F = \frac{R^2 / m}{(1 - R^2) / (n - m - 1)}$$

Замечание Ивана Александровича: возможны небольшие неточности в коэффициентах — нужно перепроверить.

Что планируется на следующей лекции

  • Модель однофакторного дисперсионного анализа
  • Обобщения линейных моделей
  • Как проверять исходные предположения
  • Что делать, если матрица $A$ необратима или плохо обратима