Карточки Anki
Скачайте колоды для интервального повторения
Лекция 13. Линейные модели. Однофакторный дисперсионный анализ, метод главных компонент, взвешенный МНК
Организационная часть
- На прошлой лекции была допущена опечатка в формуле статистики, выражающейся через коэффициент детерминации $R^2$.
- Для рассматриваемой модели верная формула: $$F = \frac{n-m}{m-1} \cdot \frac{R^2}{1-R^2}$$
- Ранее коэффициент $R^2$ находили вручную для простого случая (двух переменных), затем переходили к более общим случаям.
1. Однофакторный дисперсионный анализ (One-way ANOVA)
1.1. Постановка задачи
В классической линейной регрессии переменные были количественными. Однако часто встречаются ситуации, когда переменная факторная (категориальная).
Категориальная переменная — переменная, которая может принимать конечное число различных значений (уровней фактора).
Примеры:
- Буква в паспорте (М или Ж)
- Номер курса (1, 2, 3, 4)
- Специальность
Для каждого значения категориальной переменной у нас есть некий набор наблюдений.
1.2. Формальная модель
Рассмотрим модель вида:
$$y_{ij} = \mu_i + \varepsilon_{ij}$$где:
- $\varepsilon_{ij}$ — ошибки, $\varepsilon_{ij} \sim N(0, \sigma^2)$, независимы
- $i = 1, \ldots, I$ — уровни фактора (значения категориальной переменной)
- $j = 1, \ldots, J_i$ — индекс наблюдения внутри группы $i$
- $J_i$ — количество наблюдений на уровне $i$
- $\mu_i$ — среднее влияние фактора на уровне $i$
Объём выборки:
$$n = J_1 + J_2 + \ldots + J_I$$Замечание: для каждой группы количество наблюдений может быть разным.
1.3. Гипотезы
Хотим проверить, влияет ли фактор на показатель.
Нулевая гипотеза (фактор не влияет):
$$H_0: \mu_1 = \mu_2 = \ldots = \mu_I$$То есть среднее влияние не зависит от значения категориальной переменной.
Альтернативная гипотеза:
$$H_1: \neg H_0$$(существуют $i, k$ такие, что $\mu_i \neq \mu_k$)
1.4. Кодирование категориальной переменной
Один из самых простых способов кодирования — сопоставление значениям категориальной переменной векторов из нулей и единиц (one-hot encoding):
$$1 \to (1, 0, 0, \ldots, 0)$$$$2 \to (0, 1, 0, \ldots, 0)$$$$\vdots$$$$I \to (0, 0, \ldots, 0, 1)$$После такого кодирования модель сводится к общей модели линейной регрессии:
$$y = X\beta + \varepsilon$$И гипотезы такого типа можно проверять с помощью F-теста.
1.5. F-статистика в общем виде
$$F = \frac{\hat{S}^2|_{H_0} - \hat{S}^2}{\hat{S}^2} \cdot \frac{n - m}{k}$$где $k$ — количество степеней свободы.
Можно вывести из общего вида линейной регрессии, однако вывод получится громоздким. Решим задачу иначе — будет понятно, почему фигурирует слово «дисперсионный».
1.6. Вывод F-статистики через дисперсии
Разминка: безусловный минимум
Рассмотрим:
$$S^2(\mu) = \sum_{i=1}^{I} \sum_{j=1}^{J_i} (y_{ij} - \mu_i)^2$$Минимизируем эту функцию. Сумма разбивается на внешнюю (по $i$) и внутреннюю (по $j$). При различных $i$ переменные $\mu_i$ независимы, поэтому каждую локальную сумму можно оптимизировать отдельно:
$$\sum_{j=1}^{J_1} (y_{1j} - \mu_1)^2, \quad \sum_{j=1}^{J_2} (y_{2j} - \mu_2)^2, \quad \ldots$$Где достигается минимум?
Выражение $\sum_j (y_j - \mu)^2$ — это с точностью до множителя матожидание квадрата разности. Минимум достигается при среднем:
$$\hat{\mu}_i = \frac{1}{J_i} \sum_{j=1}^{J_i} y_{ij} = \bar{y}_{i*}$$Если бы стоял модуль вместо квадрата, ответом была бы медиана.
Внутригрупповая дисперсия
Подставив $\hat{\mu}_i$ в $S^2$, получаем:
$$S^2_W = S^2(\hat{\mu}) = \sum_{i=1}^{I} \sum_{j=1}^{J_i} (y_{ij} - \bar{y}_{i*})^2$$Это внутригрупповая дисперсия (within-group variance) — индекс $W$ от within.
Степени свободы (безусловный случай)
Общая формула:
$$df_W = n - I$$(от количества наблюдений отнимаем количество групп)
Нередко все группы одинакового размера: $J_1 = J_2 = \ldots = J_I = J$. Тогда:
$$df_W = I \cdot J - I = I(J - 1)$$Минимум при условии $H_0$
При истинности $H_0$ все $\mu_i$ равны общему $\mu$:
$$S^2(\mu) = \sum_{i=1}^{I} \sum_{j=1}^{J_i} (y_{ij} - \mu)^2$$Минимум достигается при общем выборочном среднем:
$$\hat{\mu}|_{H_0} = \bar{y}$$Степени свободы при $H_0$
Количество линейно независимых ограничений в гипотезе
$$\mu_1 = \mu_2 = \ldots = \mu_I$$равно $I - 1$ (а не общее число попарных уравнений, поскольку из $\mu_1 = \mu_2$ и $\mu_1 = \mu_3$ следует $\mu_2 = \mu_3$).
1.7. Разложение дисперсии
Введём обозначения:
- $S^2$ — общая дисперсия (когда подставлено $\bar{y}$)
- $S^2_W$ — внутригрупповая дисперсия
- $S^2_B$ — межгрупповая дисперсия (between):
Разложение:
$$S^2 = S^2_W + S^2_B$$Идейное обоснование (через формулу полного матожидания)
Из теории вероятностей — формула разложения дисперсии:
$$D(Y) = E[D(Y|X)] + D[E(Y|X)]$$- $S^2_W$ соответствует $E[D(Y|X)]$ — дисперсия внутри групп, усреднённая;
- $S^2_B$ соответствует $D[E(Y|X)]$ — разброс групповых средних относительно общего.
Действительно:
- $D(Y|X)$ при фиксированной группе — внутренняя сумма в $S^2_W$;
- внешняя сумма по $i$ — это операция взятия матожидания;
- $E(Y|X = i) = \bar{y}_{i*}$, а матожидание этой величины равно $\bar{y}$.
1.8. Итоговая F-статистика
$$F = \frac{S^2_B / (I - 1)}{S^2_W / (n - I)}$$При условии истинности $H_0$:
$$F \sim F(I - 1, \, n - I)$$(распределение Фишера со степенями свободы $I-1$ и $n-I$).
Тест правосторонний — это частный случай общего F-критерия, рассмотренного на прошлой лекции.
1.9. Обобщения
- Two-way ANOVA — две факторные переменные;
- Многофакторный дисперсионный анализ — больше двух факторов;
- ANCOVA (ковариационный анализ) — есть и числовые, и категориальные переменные.
Соответствующие соотношения становятся гораздо более громоздкими; реализованы в стат-пакетах.
2. Метод главных компонент (PCA)
2.1. Мотивация
В модели линейной регрессии предполагалось, что $X^T X$ не вырождена (отсутствие мультиколлинеарности — линейная независимость переменных).
Две проблемы:
- Чисто гипотетически матрица может оказаться вырожденной — переменные линейно зависимы. Одна выражается через другие.
- При вычислении оценки наименьших квадратов нужно обращать $X^T X$. С численной точки зрения существуют показатели, от которых зависит скорость сходимости алгоритмов обращения. Может оказаться, что матрица обратима формально, но обращается очень медленно — это означает, что переменные почти линейно зависимы.
Подробнее об этом — в курсе численных методов на 3-м курсе.
2.2. Идея метода
Обозначим $A = X^T X$. Эта матрица:
- напоминает ковариационную матрицу;
- неотрицательно определена.
Из неотрицательной определённости:
- собственные числа неотрицательны: $\lambda_i \geq 0$;
- собственные векторы можно выбрать ортонормированными ($n$ линейно независимых).
2.3. Спектральное разложение
$$\Lambda = U^T A U$$где:
- $\Lambda = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_n)$ — диагональная матрица собственных чисел, отсортированных по убыванию ($\lambda_1 \geq \lambda_2 \geq \ldots \geq 0$);
- $U = [u_1 \, u_2 \, \ldots \, u_n]$ — ортонормированные собственные векторы.
Поскольку $U$ ортогональная, $U^{-1} = U^T$, поэтому:
$$A = U \Lambda U^T$$2.4. Введение новых переменных
Вводим новые переменные:
$$W = X U$$Посчитаем $W^T W$:
$$W^T W = (XU)^T (XU) = U^T X^T X U = U^T A U = U^T (U \Lambda U^T) U = (U^T U) \Lambda (U^T U) = \Lambda$$(использовали $U^T U = I$, поскольку $U$ ортогональна).
Получили:
$$W^T W = \Lambda$$— это диагональная матрица.
2.5. Свойства новых переменных
Поскольку $W^T W$ диагональна:
- новые переменные линейно независимы (некоррелированы) — недиагональные элементы нулевые;
- новые переменные отсортированы по убыванию дисперсии — на диагонали матрицы ковариаций стоят дисперсии.
В матричной форме:
$$\begin{pmatrix} w_1 & w_2 & \ldots & w_m \end{pmatrix} = \begin{pmatrix} x_1 & x_2 & \ldots & x_n \end{pmatrix} \cdot U$$Каждый $w_k$ получается умножением старых переменных на $k$-й столбец матрицы $U$:
- $w_1$ — самая большая дисперсия;
- $w_2$ — поменьше;
- и т.д.
2.6. Снижение размерности
Идея: дисперсия — мера разброса от матожидания. Если у переменной маленькая дисперсия, она почти не изменяется, фактически ведёт себя как константа — особой роли в модели не играет.
Алгоритм: оставляем только переменные с большой дисперсией; остальные отбрасываем.
Критерии остановки
- Порог по отдельной дисперсии: оставляем $w_i$, для которых $\lambda_i > \tau$ (порог).
- Кумулятивный порог: суммируем $\lambda_i$ по убыванию, пока сумма не достигнет заданного порога.
2.7. Что получили
С помощью PCA борются с:
- некоррелированностью (точнее, с проблемой мультиколлинеарности — делаем переменные некоррелированными);
- большим количеством переменных — снижаем размерность.
3. Взвешенный метод наименьших квадратов (взвешенный МНК)
3.1. Мотивация
Ранее предполагали, что дисперсии у ошибок одинаковые (гомоскедастичность). Однако дисперсии могут различаться — модель гетероскедастичная.
Пусть теперь матрица ковариаций для $\varepsilon$ — диагональная матрица с разными элементами:
$$\text{Cov}(\varepsilon) = \text{diag}(\sigma_1^2, \sigma_2^2, \ldots, \sigma_n^2)$$Обычная оценка наименьших квадратов уже не будет оптимальной.
3.2. Новая функция ошибок
Введём взвешенную сумму квадратов:
$$S^2(c) = \sum_{i=1}^{n} \frac{1}{\sigma_i^2} \left( \sum_{j=1}^{m} x_{ij} c_j - y_i \right)^2$$(каждое слагаемое умножается на $1/\sigma_i^2$ — учитываем веса).
3.3. Поиск оптимального $c$
Дифференцируем по $c_k$:
$$\frac{\partial S^2(c)}{\partial c_k} = \sum_{i=1}^{n} \frac{2}{\sigma_i^2} \left( \sum_{j=1}^{m} x_{ij} c_j - y_i \right) x_{ik}$$Приравниваем к нулю:
$$\sum_{i=1}^{n} \frac{1}{\sigma_i^2} x_{ik} \sum_{j=1}^{m} x_{ij} c_j = \sum_{i=1}^{n} \frac{1}{\sigma_i^2} x_{ik} y_i$$3.4. Матричная запись
Введём диагональную матрицу весов:
$$W = \text{diag}\left( \frac{1}{\sigma_1^2}, \frac{1}{\sigma_2^2}, \ldots, \frac{1}{\sigma_n^2} \right)$$Полученные уравнения переписываются в матричном виде:
$$X^T W X \cdot c = X^T W \cdot y$$Это упражнение на вспоминание определения умножения матриц.
Отсюда:
$$\boxed{\hat{c} = (X^T W X)^{-1} X^T W y}$$3.5. Свойства оценки
- Является наилучшей несмещённой линейной оценкой (доказывается аналогично теореме Гаусса—Маркова).
- При одинаковых дисперсиях ($\sigma_i^2 = \sigma^2$) формула превращается в обычную оценку МНК: $W = \frac{1}{\sigma^2} I$, множители $\sigma^2$ и $\sigma^{-2}$ сокращаются:
3.6. Что делать с неизвестными дисперсиями?
В формуле использованы дисперсии $\sigma_i^2$, но они неизвестны. Вместо них можно подставить их оценки — при некоторых условиях формулы будут корректно работать.
Подробнее об этом сейчас не углубляемся.
3.7. Когда применять
Взвешенный МНК работает, когда модель не является гомоскедастичной.
4. Замечание о проверке предположений модели
В стандартной линейной регрессии предполагали:
- ошибки распределены нормально;
- ошибки не коррелированы;
- гомоскедастичность (одинаковые дисперсии).
Для проверки этих предположений существуют специально предназначенные стат-тесты:
- тесты на гомоскедастичность;
- тесты на отсутствие корреляции ошибок;
- тесты на нормальность распределения.
В рамках курса подробно не разбираем; кому интересно — можно изучить самостоятельно.
5. Анонс следующих лекций
- Тест отношения правдоподобия (идейно новая вещь)
- Различные модификации линейных моделей