Лекция 13

#математическая статистика #4 семестр

29.04.2026 • Обновлено: 29.04.2026

notakeith

Карточки Anki

Скачайте колоды для интервального повторения

Лекция 13. Линейные модели. Однофакторный дисперсионный анализ, метод главных компонент, взвешенный МНК

Организационная часть

На прошлой лекции была допущена опечатка в формуле статистики, выражающейся через коэффициент детерминации $R^2$.
Для рассматриваемой модели верная формула: $$F = \frac{n-m}{m-1} \cdot \frac{R^2}{1-R^2}$$
Ранее коэффициент $R^2$ находили вручную для простого случая (двух переменных), затем переходили к более общим случаям.

1. Однофакторный дисперсионный анализ (One-way ANOVA)

1.1. Постановка задачи

В классической линейной регрессии переменные были количественными. Однако часто встречаются ситуации, когда переменная факторная (категориальная).

Категориальная переменная — переменная, которая может принимать конечное число различных значений (уровней фактора).

Примеры:

Буква в паспорте (М или Ж)
Номер курса (1, 2, 3, 4)
Специальность

Для каждого значения категориальной переменной у нас есть некий набор наблюдений.

1.2. Формальная модель

Рассмотрим модель вида:

$$y_{ij} = \mu_i + \varepsilon_{ij}$$

где:

$\varepsilon_{ij}$ — ошибки, $\varepsilon_{ij} \sim N(0, \sigma^2)$, независимы
$i = 1, \ldots, I$ — уровни фактора (значения категориальной переменной)
$j = 1, \ldots, J_i$ — индекс наблюдения внутри группы $i$
$J_i$ — количество наблюдений на уровне $i$
$\mu_i$ — среднее влияние фактора на уровне $i$

Объём выборки:

$$n = J_1 + J_2 + \ldots + J_I$$

Замечание: для каждой группы количество наблюдений может быть разным.

1.3. Гипотезы

Хотим проверить, влияет ли фактор на показатель.

Нулевая гипотеза (фактор не влияет):

$$H_0: \mu_1 = \mu_2 = \ldots = \mu_I$$

То есть среднее влияние не зависит от значения категориальной переменной.

Альтернативная гипотеза:

$$H_1: \neg H_0$$

(существуют $i, k$ такие, что $\mu_i \neq \mu_k$)

1.4. Кодирование категориальной переменной

Один из самых простых способов кодирования — сопоставление значениям категориальной переменной векторов из нулей и единиц (one-hot encoding):

$$1 \to (1, 0, 0, \ldots, 0)$$

$$2 \to (0, 1, 0, \ldots, 0)$$

$$\vdots$$

$$I \to (0, 0, \ldots, 0, 1)$$

После такого кодирования модель сводится к общей модели линейной регрессии:

$$y = X\beta + \varepsilon$$

И гипотезы такого типа можно проверять с помощью F-теста.

1.5. F-статистика в общем виде

$$F = \frac{\hat{S}^2|_{H_0} - \hat{S}^2}{\hat{S}^2} \cdot \frac{n - m}{k}$$

где $k$ — количество степеней свободы.

Можно вывести из общего вида линейной регрессии, однако вывод получится громоздким. Решим задачу иначе — будет понятно, почему фигурирует слово «дисперсионный».

1.6. Вывод F-статистики через дисперсии

Разминка: безусловный минимум

Рассмотрим:

$$S^2(\mu) = \sum_{i=1}^{I} \sum_{j=1}^{J_i} (y_{ij} - \mu_i)^2$$

Минимизируем эту функцию. Сумма разбивается на внешнюю (по $i$) и внутреннюю (по $j$). При различных $i$ переменные $\mu_i$ независимы, поэтому каждую локальную сумму можно оптимизировать отдельно:

$$\sum_{j=1}^{J_1} (y_{1j} - \mu_1)^2, \quad \sum_{j=1}^{J_2} (y_{2j} - \mu_2)^2, \quad \ldots$$

Где достигается минимум?

Выражение $\sum_j (y_j - \mu)^2$ — это с точностью до множителя матожидание квадрата разности. Минимум достигается при среднем:

$$\hat{\mu}_i = \frac{1}{J_i} \sum_{j=1}^{J_i} y_{ij} = \bar{y}_{i*}$$

Если бы стоял модуль вместо квадрата, ответом была бы медиана.

Внутригрупповая дисперсия

Подставив $\hat{\mu}_i$ в $S^2$, получаем:

$$S^2_W = S^2(\hat{\mu}) = \sum_{i=1}^{I} \sum_{j=1}^{J_i} (y_{ij} - \bar{y}_{i*})^2$$

Это внутригрупповая дисперсия (within-group variance) — индекс $W$ от within.

Степени свободы (безусловный случай)

Общая формула:

$$df_W = n - I$$

(от количества наблюдений отнимаем количество групп)

Нередко все группы одинакового размера: $J_1 = J_2 = \ldots = J_I = J$. Тогда:

$$df_W = I \cdot J - I = I(J - 1)$$

Минимум при условии $H_0$

При истинности $H_0$ все $\mu_i$ равны общему $\mu$:

$$S^2(\mu) = \sum_{i=1}^{I} \sum_{j=1}^{J_i} (y_{ij} - \mu)^2$$

Минимум достигается при общем выборочном среднем:

$$\hat{\mu}|_{H_0} = \bar{y}$$

Степени свободы при $H_0$

Количество линейно независимых ограничений в гипотезе

$$\mu_1 = \mu_2 = \ldots = \mu_I$$

равно $I - 1$ (а не общее число попарных уравнений, поскольку из $\mu_1 = \mu_2$ и $\mu_1 = \mu_3$ следует $\mu_2 = \mu_3$).

1.7. Разложение дисперсии

Введём обозначения:

$S^2$ — общая дисперсия (когда подставлено $\bar{y}$)
$S^2_W$ — внутригрупповая дисперсия
$S^2_B$ — межгрупповая дисперсия (between):

$$S^2_B = \sum_{i=1}^{I} J_i (\bar{y}_{i*} - \bar{y})^2$$

Разложение:

$$S^2 = S^2_W + S^2_B$$

Идейное обоснование (через формулу полного матожидания)

Из теории вероятностей — формула разложения дисперсии:

$$D(Y) = E[D(Y|X)] + D[E(Y|X)]$$

$S^2_W$ соответствует $E[D(Y|X)]$ — дисперсия внутри групп, усреднённая;
$S^2_B$ соответствует $D[E(Y|X)]$ — разброс групповых средних относительно общего.

Действительно:

$D(Y|X)$ при фиксированной группе — внутренняя сумма в $S^2_W$;
внешняя сумма по $i$ — это операция взятия матожидания;
$E(Y|X = i) = \bar{y}_{i*}$, а матожидание этой величины равно $\bar{y}$.

1.8. Итоговая F-статистика

$$F = \frac{S^2_B / (I - 1)}{S^2_W / (n - I)}$$

При условии истинности $H_0$:

$$F \sim F(I - 1, \, n - I)$$

(распределение Фишера со степенями свободы $I-1$ и $n-I$).

Тест правосторонний — это частный случай общего F-критерия, рассмотренного на прошлой лекции.

1.9. Обобщения

Two-way ANOVA — две факторные переменные;
Многофакторный дисперсионный анализ — больше двух факторов;
ANCOVA (ковариационный анализ) — есть и числовые, и категориальные переменные.

Соответствующие соотношения становятся гораздо более громоздкими; реализованы в стат-пакетах.

2. Метод главных компонент (PCA)

2.1. Мотивация

В модели линейной регрессии предполагалось, что $X^T X$ не вырождена (отсутствие мультиколлинеарности — линейная независимость переменных).

Две проблемы:

Чисто гипотетически матрица может оказаться вырожденной — переменные линейно зависимы. Одна выражается через другие.
При вычислении оценки наименьших квадратов нужно обращать $X^T X$. С численной точки зрения существуют показатели, от которых зависит скорость сходимости алгоритмов обращения. Может оказаться, что матрица обратима формально, но обращается очень медленно — это означает, что переменные почти линейно зависимы.

Подробнее об этом — в курсе численных методов на 3-м курсе.

2.2. Идея метода

Обозначим $A = X^T X$. Эта матрица:

напоминает ковариационную матрицу;
неотрицательно определена.

Из неотрицательной определённости:

собственные числа неотрицательны: $\lambda_i \geq 0$;
собственные векторы можно выбрать ортонормированными ($n$ линейно независимых).

2.3. Спектральное разложение

$$\Lambda = U^T A U$$

где:

$\Lambda = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_n)$ — диагональная матрица собственных чисел, отсортированных по убыванию ($\lambda_1 \geq \lambda_2 \geq \ldots \geq 0$);
$U = [u_1 \, u_2 \, \ldots \, u_n]$ — ортонормированные собственные векторы.

Поскольку $U$ ортогональная, $U^{-1} = U^T$, поэтому:

$$A = U \Lambda U^T$$

2.4. Введение новых переменных

Вводим новые переменные:

$$W = X U$$

Посчитаем $W^T W$:

$$W^T W = (XU)^T (XU) = U^T X^T X U = U^T A U = U^T (U \Lambda U^T) U = (U^T U) \Lambda (U^T U) = \Lambda$$

(использовали $U^T U = I$, поскольку $U$ ортогональна).

Получили:

$$W^T W = \Lambda$$

— это диагональная матрица.

2.5. Свойства новых переменных

Поскольку $W^T W$ диагональна:

новые переменные линейно независимы (некоррелированы) — недиагональные элементы нулевые;
новые переменные отсортированы по убыванию дисперсии — на диагонали матрицы ковариаций стоят дисперсии.

В матричной форме:

$$\begin{pmatrix} w_1 & w_2 & \ldots & w_m \end{pmatrix} = \begin{pmatrix} x_1 & x_2 & \ldots & x_n \end{pmatrix} \cdot U$$

Каждый $w_k$ получается умножением старых переменных на $k$-й столбец матрицы $U$:

$w_1$ — самая большая дисперсия;
$w_2$ — поменьше;
и т.д.

2.6. Снижение размерности

Идея: дисперсия — мера разброса от матожидания. Если у переменной маленькая дисперсия, она почти не изменяется, фактически ведёт себя как константа — особой роли в модели не играет.

Алгоритм: оставляем только переменные с большой дисперсией; остальные отбрасываем.

Критерии остановки

Порог по отдельной дисперсии: оставляем $w_i$, для которых $\lambda_i > \tau$ (порог).
Кумулятивный порог: суммируем $\lambda_i$ по убыванию, пока сумма не достигнет заданного порога.

2.7. Что получили

С помощью PCA борются с:

некоррелированностью (точнее, с проблемой мультиколлинеарности — делаем переменные некоррелированными);
большим количеством переменных — снижаем размерность.

3. Взвешенный метод наименьших квадратов (взвешенный МНК)

3.1. Мотивация

Ранее предполагали, что дисперсии у ошибок одинаковые (гомоскедастичность). Однако дисперсии могут различаться — модель гетероскедастичная.

Пусть теперь матрица ковариаций для $\varepsilon$ — диагональная матрица с разными элементами:

$$\text{Cov}(\varepsilon) = \text{diag}(\sigma_1^2, \sigma_2^2, \ldots, \sigma_n^2)$$

Обычная оценка наименьших квадратов уже не будет оптимальной.

3.2. Новая функция ошибок

Введём взвешенную сумму квадратов:

$$S^2(c) = \sum_{i=1}^{n} \frac{1}{\sigma_i^2} \left( \sum_{j=1}^{m} x_{ij} c_j - y_i \right)^2$$

(каждое слагаемое умножается на $1/\sigma_i^2$ — учитываем веса).

3.3. Поиск оптимального $c$

Дифференцируем по $c_k$:

$$\frac{\partial S^2(c)}{\partial c_k} = \sum_{i=1}^{n} \frac{2}{\sigma_i^2} \left( \sum_{j=1}^{m} x_{ij} c_j - y_i \right) x_{ik}$$

Приравниваем к нулю:

$$\sum_{i=1}^{n} \frac{1}{\sigma_i^2} x_{ik} \sum_{j=1}^{m} x_{ij} c_j = \sum_{i=1}^{n} \frac{1}{\sigma_i^2} x_{ik} y_i$$

3.4. Матричная запись

Введём диагональную матрицу весов:

$$W = \text{diag}\left( \frac{1}{\sigma_1^2}, \frac{1}{\sigma_2^2}, \ldots, \frac{1}{\sigma_n^2} \right)$$

Полученные уравнения переписываются в матричном виде:

$$X^T W X \cdot c = X^T W \cdot y$$

Это упражнение на вспоминание определения умножения матриц.

Отсюда:

$$\boxed{\hat{c} = (X^T W X)^{-1} X^T W y}$$

3.5. Свойства оценки

Является наилучшей несмещённой линейной оценкой (доказывается аналогично теореме Гаусса—Маркова).
При одинаковых дисперсиях ($\sigma_i^2 = \sigma^2$) формула превращается в обычную оценку МНК: $W = \frac{1}{\sigma^2} I$, множители $\sigma^2$ и $\sigma^{-2}$ сокращаются:

$$\hat{c} = (X^T X)^{-1} X^T y$$

3.6. Что делать с неизвестными дисперсиями?

В формуле использованы дисперсии $\sigma_i^2$, но они неизвестны. Вместо них можно подставить их оценки — при некоторых условиях формулы будут корректно работать.

Подробнее об этом сейчас не углубляемся.

3.7. Когда применять

Взвешенный МНК работает, когда модель не является гомоскедастичной.

4. Замечание о проверке предположений модели

В стандартной линейной регрессии предполагали:

ошибки распределены нормально;
ошибки не коррелированы;
гомоскедастичность (одинаковые дисперсии).

Для проверки этих предположений существуют специально предназначенные стат-тесты:

тесты на гомоскедастичность;
тесты на отсутствие корреляции ошибок;
тесты на нормальность распределения.

В рамках курса подробно не разбираем; кому интересно — можно изучить самостоятельно.

5. Анонс следующих лекций

Тест отношения правдоподобия (идейно новая вещь)
Различные модификации линейных моделей

Предыдущая Лекция 12

Следующая Лекция 14