Карточки Anki
Скачайте колоды для интервального повторения
Лекция 14: Обобщённые линейные модели и критерий отношения правдоподобия
Введение
В предыдущих линейных моделях, которые рассматривались, выходная переменная была количественной. Однако выходная переменная не всегда количественная — она может быть и категориальной, в частности, бинарной.
Сегодня рассматриваются:
- Один из простейших алгоритмов бинарной классификации — логистическая регрессия (с точки зрения статистики)
- Регрессия Пуассона
- Критерий отношения правдоподобия (простой и общий случай)
- Лемма Неймана-Пирсона
- Проверка значимости моделей
1. Логистическая регрессия
1.1. Постановка задачи
Вход:
- $X$ — матрица переменных (как и ранее)
- $y$ — вектор наблюдений зависимой переменной
Особенность: $y_i$ принимает только два значения: $0$ или $1$.
То есть, если до сей поры $y_i$ мог принимать любое количество значений, то теперь $y_i \in \{0, 1\}$ — вектор-столбец, в каждой компоненте которого записано $0$ или $1$.
1.2. Сигмоида
Для построения модели предлагается рассмотреть функцию:
$$f(t) = \frac{1}{1 + e^{-t}}$$Эта функция называется сигмоидой.
Свойства графика сигмоиды:
- При $t \to +\infty$: $f(t) \to 1$
- При $t \to -\infty$: $f(t) \to 0$
- В нуле: $f(0) = \frac{1}{2}$
1.3. Модель логистической регрессии
Будем воспринимать $y_i$ как реализацию бернуллиевской случайной величины:
$$y_i \sim \text{Bern}\left(f(c_0 + c_1 x_{i1} + c_2 x_{i2} + \ldots + c_m x_{im})\right)$$То есть $y_i$ — это бернуллиевская случайная величина с параметром успеха (вероятностью единички), равным сигмоиде от линейной функции.
Цель: оценить коэффициенты $c_0, c_1, c_2, \ldots, c_m$.
1.4. Оценка параметров методом максимального правдоподобия
Найдём точечную оценку параметров $c_i$ с помощью метода максимального правдоподобия (ММП).
Предполагаем, что наблюдения независимы. Тогда функция правдоподобия:
$$L = \prod_{i=1}^{n} \left(\frac{1}{1 + e^{-(c_0 + c_1 x_{i1} + \ldots + c_m x_{im})}}\right)^{y_i} \cdot \left(1 - \frac{1}{1 + e^{-(c_0 + c_1 x_{i1} + \ldots + c_m x_{im})}}\right)^{1 - y_i}$$Берём минус логарифм функции правдоподобия:
$$-\ln L = -\sum_{i=1}^{n}\left[ y_i \ln f(c_0 + c_1 x_{i1} + \ldots + c_m x_{im}) + (1 - y_i) \ln\left(1 - f(c_0 + c_1 x_{i1} + \ldots + c_m x_{im})\right)\right]$$Для нахождения оценки максимального правдоподобия нужно максимизировать функцию правдоподобия, то есть минимизировать минус логарифм.
Важно: аналитического решения здесь нет. Оптимизация проводится численными методами (например, градиентным спуском).
1.5. Связь с машинным обучением
Возможно, в других курсах при рассмотрении простейших алгоритмов бинарной классификации упомянут модель логистической регрессии и связанную с ней функцию потерь (loss function).
Эта стандартная функция потерь есть не что иное, как минус логарифм функции правдоподобия для модели логистической регрессии.
1.6. Свойства оценок
Поскольку оценки получены ММП, они являются асимптотически нормальными:
$$\hat{c}_i \text{ — асимптотически нормальные оценки}$$Это позволяет:
- Строить доверительные интервалы для $c_i$
- Проверять гипотезы о значениях $c_i$
Проверка значимости всей модели обсуждается позже.
2. Регрессия Пуассона
2.1. Постановка задачи
Вход: такой же, как раньше, но $y_i$ — категориальная переменная, принимающая значения $0, 1, 2, \ldots$
2.2. Модель
Случайную величину $y_i$ воспринимаем как пуассоновскую с параметром:
$$y_i \sim \text{Pois}\left(e^{c_0 + c_1 x_{i1} + \ldots + c_m x_{im}}\right)$$2.3. Обобщённые линейные модели
До этого рассматривались линейные модели: $y = Xc + \varepsilon$.
Здесь рассматриваются так называемые обобщённые линейные модели:
- В предыдущем случае: бернуллиевская величина от сигмоиды от линейной функции
- В пуассоновской регрессии: пуассоновская величина (от экспоненты) от линейной функции
2.4. Оценка параметров
Коэффициенты $c_i$ оцениваются точно так же — методом максимального правдоподобия:
- Записываем логарифм функции правдоподобия
- Находим максимальное значение
Аналитического решения нет — только численное решение.
Оценки $\hat{c}_i$ являются асимптотически нормальными, поэтому:
- Можно строить доверительные интервалы
- Можно проверять гипотезы
3. Критерий отношения правдоподобия (простой случай)
3.1. Простые гипотезы
Рассмотрим случай простых гипотез:
$$H_0: f = f_0 \quad \text{vs} \quad H_1: f = f_1$$где $f_0$ и $f_1$ — непрерывны.
Что такое $f$? У нас есть простая выборка из какого-то распределения, и мы хотим проверить эти две гипотезы.
3.2. Статистика отношения правдоподобия
Введём функцию:
$$L(X) = \frac{L(X \mid H_1)}{L(X \mid H_0)}$$— правдоподобие при первой гипотезе делим на правдоподобие при нулевой.
Решающее правило:
$$\text{если } L(X) \geq C, \text{ то принимаем } H_1, \text{ иначе } H_0$$Логика: если $L(X) \geq C$, значит правдоподобие при $H_1$ больше, чем при $H_0$, поэтому принимаем $H_1$.
Вопрос: из каких соображений выбирать пороговую константу $C$?
3.3. Выбор константы C
Рассмотрим функцию:
$$\psi(C) = P(L(X) \geq C \mid H_0)$$Какое событие она описывает?
Когда $L(X) \geq C$, мы принимаем $H_1$. При условии истинности $H_0$ это ошибка первого рода.
То есть $\psi(C)$ — это вероятность ошибки первого рода.
Свойства:
- $\psi(0) = 1$
Рассмотрим ещё:
$$P(L(X) \geq C \mid H_1) \leq 1$$С другой стороны, это интеграл от плотности:
$$P(L(X) \geq C \mid H_1) = \int_{\{x : L(x) \geq C\}} L(x \mid H_1) \, dx$$По условию $L(x \mid H_1) \geq C \cdot L(x \mid H_0)$, поэтому:
$$\int_{\{L(x) \geq C\}} L(x \mid H_1) \, dx \geq \int_{\{L(x) \geq C\}} C \cdot L(x \mid H_0) \, dx = C \cdot \psi(C)$$Откуда:
$$\psi(C) \leq \frac{1}{C}$$В частности, $\psi(C) \xrightarrow{C \to \infty} 0$.
3.4. Подбор C под заданный уровень значимости
Предположение: функция $\psi(C)$ непрерывна.
Тогда для любого $\alpha \in (0, 1)$ существует $C_\alpha$ такое, что:
$$\psi(C_\alpha) = \alpha$$Таким образом, можно подобрать порог $C$ так, чтобы вероятность ошибки первого рода в точности равнялась $\alpha$.
4. Лемма Неймана-Пирсона
4.1. Формулировка
Лемма Неймана-Пирсона. Пусть выполнено условие выше. Тогда критерий отношения правдоподобия является оптимальным, то есть имеет минимальную вероятность ошибки второго рода среди всех тестов, которые проверяют данные гипотезы и имеют вероятность ошибки первого рода $\alpha$.
Хотя это и лемма, на самом деле это фундаментальное утверждение.
4.2. Доказательство
Обозначения: рассмотрим другой тест с вероятностью ошибки первого рода $\alpha$. Пусть:
- $g$ — статистика этого теста
- $T_0(\alpha)$ — область принятия $H_0$
- $T_1(\alpha)$ — критическая область
Выкладка №1
Рассмотрим вероятность:
$$P\Big(\{L(X) \geq C_\alpha\} \setminus \{L(X) \geq C_\alpha \text{ и } g(X) \in T_1(\alpha)\} \mid H_0\Big)$$Обозначим $B = \{L(X) \geq C_\alpha \text{ и } g(X) \in T_1(\alpha)\}$.
Тогда:
$$= P(L(X) \geq C_\alpha \mid H_0) - P(B \mid H_0) = \alpha - P(B \mid H_0)$$(по построению $C_\alpha$).
С другой стороны, у второго теста вероятность ошибки первого рода тоже $\alpha$:
$$\alpha = P(g(X) \in T_1(\alpha) \mid H_0) - P(B \mid H_0)$$Итого получаем:
$$P(\{L \geq C_\alpha\} \setminus B \mid H_0) = P(\{g(X) \in T_1(\alpha)\} \setminus B \mid H_0)$$Выкладка №2
Теперь посчитаем при условии $H_1$:
$$P(\{L(X) \geq C_\alpha\} \setminus B \mid H_1) = \int_{\{L \geq C_\alpha\} \setminus B} L(x \mid H_1) \, dx$$Для этого множества выполнено $L(x \mid H_1) \geq C_\alpha \cdot L(x \mid H_0)$, поэтому:
$$\geq C_\alpha \cdot \int_{\{L \geq C_\alpha\} \setminus B} L(x \mid H_0) \, dx = C_\alpha \cdot P(\{L \geq C_\alpha\} \setminus B \mid H_0)$$Используя выкладку №1:
$$= C_\alpha \cdot P(\{g(X) \in T_1(\alpha)\} \setminus B \mid H_0)$$Анализ события $\{g(X) \in T_1(\alpha)\} \setminus B$
Для $x$ из этого множества $g(X) \in T_1(\alpha)$, но не выполнено $L(X) \geq C_\alpha$, т.е. $L(X) < C_\alpha$.
Это означает: $L(x \mid H_0) > \frac{1}{C_\alpha} L(x \mid H_1)$.
Воспользуемся этим неравенством:
$$C_\alpha \cdot \int_{\{g \in T_1(\alpha)\} \setminus B} L(x \mid H_0) \, dx > C_\alpha \cdot \frac{1}{C_\alpha} \int_{\{g \in T_1(\alpha)\} \setminus B} L(x \mid H_1) \, dx$$$$= P(\{g(X) \in T_1(\alpha)\} \setminus B \mid H_1)$$Завершение доказательства
Прибавим к обеим частям $P(B \mid H_1)$:
$$P(L(X) \geq C_\alpha \mid H_1) > P(g(X) \in T_1(\alpha) \mid H_1)$$То есть мощность критерия отношения правдоподобия больше мощности любого другого теста. А мощность — это $1 -$ вероятность ошибки второго рода. $\blacksquare$
5. Пример: проверка простых гипотез о среднем нормального закона
5.1. Постановка
- $H_0$: выборка из $\mathcal{N}(0, 1)$
- $H_1$: выборка из $\mathcal{N}(1, 1)$
5.2. Вычисление отношения правдоподобия
$$L(X) = \frac{L(X \mid H_1)}{L(X \mid H_0)} = \frac{\frac{1}{(\sqrt{2\pi})^n} \prod_{i=1}^{n} e^{-\frac{1}{2}(x_i - 1)^2}}{\frac{1}{(\sqrt{2\pi})^n} \prod_{i=1}^{n} e^{-\frac{1}{2} x_i^2}}$$После сокращения:
$$L(X) = \prod_{i=1}^{n} e^{-\frac{1}{2}\left[(x_i - 1)^2 - x_i^2\right]} = \prod_{i=1}^{n} e^{-\frac{1}{2}(-2x_i + 1)}$$5.3. Преобразование неравенства $L(X) \geq C$
Берём логарифм:
$$\sum_{i=1}^{n} \left(-\frac{1}{2}\right)(-2x_i + 1) \geq \ln C$$Обозначим $\tilde{C} = \ln C$:
$$\sum_{i=1}^{n} x_i - \frac{n}{2} \geq \tilde{C}$$$$\sum_{i=1}^{n} x_i \geq \tilde{C} + \frac{n}{2}$$5.4. Распределение тестовой статистики
При условии $H_0$:
$$\sum_{i=1}^{n} x_i \sim \mathcal{N}(0, n)$$При условии $H_1$:
$$\sum_{i=1}^{n} x_i \sim \mathcal{N}(n, n)$$5.5. Условие на вероятность ошибки первого рода
$$P\left(\sum x_i \geq \tilde{C} + \frac{n}{2} \mid H_0\right) = 1 - \Phi\left(\frac{\tilde{C} + n/2}{\sqrt{n}}\right) = \alpha$$где $\Phi$ — функция распределения стандартного нормального закона.
Дальше остаётся разрешить уравнение относительно $\tilde{C}$.
5.6. Геометрическая интерпретация
Имеем две гауссианы:
- Гауссиана №1 — плотность $\mathcal{N}(0, n)$ (при $H_0$)
- Гауссиана №2 — плотность $\mathcal{N}(n, n)$ (при $H_1$)
Отметим на оси константу (обозначим её через две волны $\tilde{\tilde{C}}$).
Вероятность ошибки первого рода ($\alpha$):
- Это ситуация: опровергаем $H_0$, но она верна
- На графике: площадь под первой гауссианой справа от черты
Вероятность ошибки второго рода ($\beta$):
- Это ситуация: принимаем $H_0$, но верна $H_1$
- $P(\sum x_i < \tilde{\tilde{C}} \mid H_1)$
- На графике: площадь под второй гауссианой слева от черты
5.7. Анализ trade-off
Если параметр $\tilde{\tilde{C}}$ варьировать:
- Двигаем вправо: $\alpha$ уменьшается, $\beta$ увеличивается
- Двигаем влево: $\alpha$ увеличивается, $\beta$ уменьшается
Лемма Неймана-Пирсона утверждает: если в критерии отношения правдоподобия для простых гипотез подобрать константу так, чтобы $\alpha$ в точности равнялась заданной величине, то этот критерий оптимален в плане минимизации $\beta$.
6. Общий критерий отношения правдоподобия
6.1. Постановка (сложные параметрические гипотезы)
Пусть имеется параметрическая гипотеза:
$$H_0: \theta \in \Theta_0 \quad \text{vs} \quad H_1: \theta \in \Theta \setminus \Theta_0$$То есть $\Theta_0$ — некоторое подмножество параметров, а альтернатива — его дополнение.
6.2. Статистика
$$\Lambda_n = \frac{\sup_{\theta \in \Theta_0} L(X, \theta)}{\sup_{\theta \in \Theta} L(X, \theta)}$$Здесь, в отличие от случая простых гипотез, нужна оптимизация:
- Числитель: условная оптимизация ($\theta \in \Theta_0$)
- Знаменатель: безусловная оптимизация по всему $\Theta$
6.3. Асимптотическое распределение
Предположение: оценки максимального правдоподобия асимптотически нормальные (это выполняется в рамках условий регулярности).
Тогда:
$$-2 \ln \Lambda_n \xrightarrow{d} \chi^2_{m - r}$$где:
- $m$ — размерность $\Theta$ (всего пространства параметров)
- $r$ — размерность $\Theta_0$
6.4. Почему именно $-2 \ln \Lambda_n$? (объяснение «на пальцах»)
- Минус: в классическом критерии отношения правдоподобия было «наоборот» — наверху правдоподобие при $H_1$, внизу при $H_0$. Минус условно «переворачивает» дробь.
- Логарифм: упрощает работу с произведениями
- Двойка: $2 \ln x = \ln x^2$, а логарифм произведения это сумма. Получается похоже на сумму квадратов — отсюда и $\chi^2$-распределение.
7. Применение: проверка значимости логистической регрессии
7.1. Постановка
Возвращаемся к модели логистической регрессии:
$$y_i \sim \text{Bern}\left(\frac{1}{1 + e^{-(c_0 + c_1 x_{i1} + \ldots + c_m x_{im})}}\right)$$Что значит проверить значимость модели? Хотим выяснить, действительно ли переменные $x$ влияют на $y$.
7.2. Гипотезы
Нулевая гипотеза (по умолчанию: переменные не влияют):
$$H_0: c_1 = c_2 = \ldots = c_m = 0$$В этом случае остаётся только свободный коэффициент $c_0$, поэтому размерность $\Theta_0$ равна 1.
Альтернативная гипотеза (формально):
$$H_1: \exists k \text{ такое, что } c_k \neq 0$$7.3. Размерности
- $\dim \Theta = m + 1$ (модель описывается $m + 1$ параметром: $c_0, c_1, \ldots, c_m$)
- $\dim \Theta_0 = 1$ (остался только $c_0$)
7.4. Отношение правдоподобия
$$\Lambda_n = \frac{\sup_{\theta \in \Theta_0} L(X, \theta)}{\sup_{\theta \in \Theta} L(X, \theta)}$$По сути спрашиваем: действительно ли наша выборка — просто бернуллиевские величины, или же зависит от $X$?
Замечание про размерности. Вся $\Theta$ — это все возможные значения $(c_0, c_1, \ldots, c_m)$, их $m + 1$ штука, поэтому размерность $m + 1$. В $\Theta_0$ все $c_i$ при $i \geq 1$ занулены, остался только $c_0$ — размерность 1.
7.5. Аналогично для регрессии Пуассона
Нулевая гипотеза: все коэффициенты, кроме $c_0$, равны нулю. Альтернатива — отрицание $H_0$.
8. Построение критерия
Известно:
$$-2 \ln \Lambda_n \xrightarrow{d} \chi^2_{m - r}$$Решающее правило:
Если $\Lambda_n > C$, то принимаем $H_0$, иначе $H_1$.
В терминах $-2 \ln \Lambda_n$ (знак неравенства меняется):
$$\text{если } -2 \ln \Lambda_n < \tilde{C}, \text{ то } H_0, \text{ иначе } H_1$$В качестве пороговой константы $\tilde{C}$ берём квантиль $\chi^2$-распределения с $m - r$ степенями свободы.