Карточки Anki
Скачайте колоды для интервального повторения
Лекция 4: Метод максимального правдоподобия и информация Фишера
1. Контрпример: асимптотическая нормальность ⇏ асимптотическая несмещённость
Напоминание из прошлой лекции
В прошлый раз были рассмотрены свойства оценок:
- состоятельность,
- эффективность,
- асимптотическая нормальность,
- несмещённость.
Было показано: если оценка асимптотически нормальная, то она состоятельна.
Сегодня покажем (обещанный контрпример), что из асимптотической нормальности в общем случае НЕ следует асимптотическая несмещённость (хотя обычно эта импликация имеет место). Пример экзотический, но формально корректный.
Построение контрпримера
Пусть выборка $X_1, \ldots, X_n$ из нормального распределения $\mathcal{N}(0, \sigma^2)$.
Выборочное среднее $\bar{X}$ — состоятельная, несмещённая, асимптотически нормальная оценка для $0$ (поскольку матожидание здесь равно $0$).
Модифицируем оценку. Положим:
$$\hat{\theta} = \begin{cases} \bar{X}, & \text{с вероятностью } 1 - \tfrac{1}{n} \\ n, & \text{с вероятностью } \tfrac{1}{n} \end{cases}$$Доказательство асимптотической нормальности $\hat{\theta}$
Рассмотрим функцию распределения $\sqrt{n}\,\hat{\theta}$ в точке $t$:
$$P(\sqrt{n}\,\hat{\theta} \le t) = P\left(\sqrt{n}\,\hat{\theta} \le t \mid \text{случилось событие с вер. } 1-\tfrac{1}{n}\right)\cdot\left(1 - \tfrac{1}{n}\right) + P\left(\sqrt{n}\,\hat{\theta} \le t \mid \text{случилось событие с вер. } \tfrac{1}{n}\right)\cdot \tfrac{1}{n}$$Это эквивалентно:
$$P(\sqrt{n}\,\bar{X} \le t)\cdot\left(1 - \tfrac{1}{n}\right) + P\left(\sqrt{n}\cdot n \le t\right)\cdot \tfrac{1}{n}$$При $n \to \infty$:
- $\left(1 - \tfrac{1}{n}\right) \to 1$,
- $\tfrac{1}{n} \to 0$,
- $P(\sqrt{n}\,\bar{X} \le t) \to \Phi_{0,\sigma^2}(t)$ (т.к. выборочное среднее — асимптотически нормальная оценка),
- второе слагаемое (ограниченная вероятность $\times \tfrac{1}{n}$) стремится к $0$.
Итог: $\sqrt{n}\,\hat{\theta} \xrightarrow{d} \mathcal{N}(0, \sigma^2)$.
То есть $\hat{\theta}$ — асимптотически нормальная оценка, а значит и состоятельная.
Проверка асимптотической несмещённости
$$\mathbb{E}[\hat{\theta}] = \mathbb{E}[\bar{X}]\cdot\left(1 - \tfrac{1}{n}\right) + n \cdot \tfrac{1}{n} = 0 + 1 = 1$$Таким образом, $\mathbb{E}[\hat{\theta}] = 1 \ne 0$ для любого $n$, асимптотической несмещённости нет.
Контрпример показывает: из асимптотической нормальности не следует асимптотическая несмещённость, хотя состоятельность из неё следует. Контринтуитивно, но формально верно.
2. Метод максимального правдоподобия
Нотация: дискретный и непрерывный случаи
На практике работают либо с дискретными, либо с непрерывными распределениями.
| Случай | Функция | Обозначение |
|---|---|---|
| Дискретный | Функция вероятностей | PMF (probability mass function) |
| Непрерывный | Плотность вероятности | PDF (probability density function) |
В контексте метода максимального правдоподобия оба случая объединяются — будем использовать термин «плотность» и одну букву $p$ для обоих случаев. Рассуждения в дискретном и непрерывном случаях идентичны.
Постановка задачи
Имеется простейшая выборка $X_1, X_2, \ldots, X_n$ — независимые одинаково распределённые случайные величины с распределением, зависящим от параметра $\theta$. Задача: оценить $\theta$ как функцию от выборки.
Функция правдоподобия
Поскольку элементы выборки независимы, совместная плотность есть произведение плотностей:
$$L(X, \theta) = \prod_{k=1}^{n} p(X_k, \theta)$$Эта совместная плотность называется функцией правдоподобия.
Идея метода
На интуитивном уровне $L(X, \theta)$ — это «вероятность выборки». Метод максимального правдоподобия предлагает подобрать $\theta$ так, чтобы эта вероятность была наибольшей.
Определение оценки максимального правдоподобия
$\hat{\theta}$ — это значение $\theta$, при котором достигается максимум функции правдоподобия:
$$\hat{\theta} = \arg\max_{\theta} L(X, \theta)$$3. Алгоритм поиска оценки максимального правдоподобия
Пункт 0. Посмотреть и подумать
Возможно, удастся найти ответ, внимательно посмотрев на функцию правдоподобия — без вычислений (см. примеры с равномерным распределением и распределением Лапласа ниже).
Пункт 1. Логарифмирование
Используется свойство: производная логарифма функции
$$(\ln f(x))' = \frac{f'(x)}{f(x)}$$Логарифм — строго монотонная функция, поэтому точка максимума не меняется. Удобно работать с $\ln L$ потому, что произведение превращается в сумму.
Пункт 2. Исследование на максимум
- Рассмотреть $\ln L(X, \theta)$.
- Вычислить производную $\dfrac{\partial \ln L}{\partial \theta}$.
- Приравнять к нулю.
- Проверить достаточные условия максимума.
4. Примеры применения метода максимального правдоподобия
Пример 1. Равномерное распределение $U[\theta_1, \theta_2]$
Плотность равномерного распределения:
$$p(x, \theta_1, \theta_2) = \frac{1}{\theta_2 - \theta_1} \cdot \mathbb{1}\{x \in [\theta_1, \theta_2]\}$$Функция правдоподобия:
$$L(X, \theta_1, \theta_2) = \frac{1}{(\theta_2 - \theta_1)^n}\cdot \mathbb{1}\{X_1 \in [\theta_1, \theta_2], X_2 \in [\theta_1, \theta_2], \ldots, X_n \in [\theta_1, \theta_2]\}$$Произведение индикаторов $\prod_k \mathbb{1}\{X_k \in [\theta_1, \theta_2]\}$ равно $1$ тогда и только тогда, когда все $X_k$ попадают в отрезок. Поэтому оно равно одному индикатору пересечения событий.
Анализ. Чтобы максимизировать $L$:
- Мысль А. Индикатор должен быть равен $1$, т.е. $\theta_1 \le \min_k X_k$ и $\theta_2 \ge \max_k X_k$.
- Мысль Б. Знаменатель $(\theta_2 - \theta_1)^n$ должен быть минимальным, т.е. $\theta_2 - \theta_1$ — минимально.
Совмещая:
$$\hat{\theta}_1 = \min_{k} X_k, \qquad \hat{\theta}_2 = \max_{k} X_k$$Пример 2. Распределение Лапласа
Плотность:
$$p(x, \theta) = \tfrac{1}{2}\, e^{-|x - \theta|}$$(Распределение Лапласа с масштабным параметром $1$.)
Функция правдоподобия:
$$L(X, \theta) = \frac{1}{2^n}\cdot \prod_{k=1}^{n} e^{-|X_k - \theta|} = \frac{1}{2^n}\cdot e^{-\sum_{k=1}^{n} |X_k - \theta|}$$Множитель $\tfrac{1}{2^n}$ — константа. Чтобы максимизировать $L$, нужно максимизировать аргумент экспоненты, то есть минимизировать:
$$\sum_{k=1}^{n} |X_k - \theta| \;\longrightarrow\; \min_\theta$$Поделив на $n$, получим $\mathbb{E}_{\hat{F}_n}[|X - \theta|]$ — матожидание относительно эмпирического распределения.
Медиана минимизирует среднее абсолютное отклонение.
Поэтому:
$$\hat{\theta} = \text{медиана выборки}$$Пример 3. Биномиальное распределение $\mathrm{Bin}(m, p)$, $m$ известно
Функция вероятностей:
$$p(x, p) = C_m^x \cdot p^x \cdot (1-p)^{m-x}$$Функция правдоподобия:
$$L(X, p) = \prod_{k=1}^{n} C_m^{X_k}\cdot p^{X_k}\cdot (1-p)^{m - X_k}$$Логарифм:
$$\ln L(X, p) = \sum_{k=1}^{n}\left[\ln C_m^{X_k} + X_k \ln p + (m - X_k)\ln(1-p)\right]$$Дифференцируем по $p$ (член с $C_m^{X_k}$ не зависит от $p$):
$$\frac{\partial \ln L}{\partial p} = \sum_{k=1}^{n}\left[\frac{X_k}{p} - \frac{m - X_k}{1 - p}\right]$$Приведём к общему знаменателю $p(1-p)$:
$$\frac{1}{p(1-p)}\sum_{k=1}^{n}\left[X_k(1-p) - p(m - X_k)\right] = \frac{1}{p(1-p)}\sum_{k=1}^{n}\left[X_k - p\cdot m\right]$$Вынесем $n$ и $m$:
$$= \frac{n\cdot m}{p(1-p)}\left[\frac{\bar{X}}{m} - p\right]$$Приравнивая к нулю:
$$\hat{p} = \frac{\bar{X}}{m}$$Проверка максимума: при $p < \bar{X}/m$ производная положительна (функция возрастает), при $p > \bar{X}/m$ — отрицательна (функция убывает). Значит, это точка максимума.
Если $m = 1$ — распределение Бернулли. Тогда $\hat{p} = \bar{X}$ — доля единиц в выборке.
Пример 4. Нормальное распределение $\mathcal{N}(\mu, b)$
Здесь $b$ — дисперсия (а не $\sigma^2$). Плотность:
$$p(x, \mu, b) = \frac{1}{\sqrt{2\pi b}}\, e^{-\frac{(x - \mu)^2}{2b}}$$Логарифм функции правдоподобия:
$$\ln L(X, \mu, b) = \sum_{k=1}^{n}\left[-\tfrac{1}{2}\ln(2\pi) - \tfrac{1}{2}\ln b - \frac{(X_k - \mu)^2}{2b}\right]$$Шаг 1. Зафиксируем $b$, найдём $\hat{\mu}$ (ленивый вариант)
При фиксированном $b$ максимизация $\ln L$ эквивалентна минимизации:
$$\sum_{k=1}^{n}(X_k - \mu)^2 \;\longrightarrow\; \min_\mu$$Поделив на $n$, получаем $\mathbb{E}_{\hat{F}_n}[(X - \mu)^2]$ — матожидание квадрата отклонения.
Эта величина минимизируется при $\mu = \mathbb{E}[X]$ (для эмпирического распределения это выборочное среднее).
(Точкой минимума является матожидание, а само минимальное значение — дисперсия.)
Поэтому:
$$\hat{\mu} = \bar{X}$$Шаг 2. Найдём $\hat{b}$
Дифференцируем $\ln L$ по $b$:
$$\frac{\partial \ln L}{\partial b} = -\sum_{k=1}^{n}\frac{1}{2b} + \sum_{k=1}^{n}\frac{(X_k - \hat{\mu})^2}{2b^2} = 0$$Откуда:
$$\hat{b} = \frac{1}{n}\sum_{k=1}^{n}(X_k - \hat{\mu})^2 = S^{*2}$$Это выборочная дисперсия (со звёздочкой).
Оценками максимального правдоподобия для параметров нормального закона являются выборочное среднее и выборочная дисперсия.
(Это «ленивый» вариант: строго следовало бы исследовать функцию двух переменных через гессиан.)
Пример 5. Дискретное распределение на $m$ значениях
Пусть выборка из дискретного распределения, принимающего значения $1, 2, \ldots, m$ с вероятностями $p_1, p_2, \ldots, p_m$.
Сколько неизвестных? $m - 1$ (так как $\sum p_k = 1$).
Группировка. Пусть $\nu_k$ — количество элементов выборки, равных $k$. Тогда:
$$\sum_{k=1}^{m} \nu_k = n$$Функция правдоподобия:
$$L(X, p) = p_1^{\nu_1}\cdot p_2^{\nu_2}\cdot \ldots \cdot p_m^{\nu_m}$$с ограничением $p_1 + p_2 + \ldots + p_m = 1$.
Можно было бы использовать множители Лагранжа, но т.к. ограничение одно, проще выразить $p_m = 1 - p_1 - \ldots - p_{m-1}$ и работать с функцией $m-1$ переменной.
Подставляем:
$$\ln L(X, p) = \sum_{k=1}^{m-1}\nu_k \ln p_k + \nu_m \ln\left(1 - p_1 - \ldots - p_{m-1}\right)$$Дифференцируем по $p_j$ ($j \in \{1, \ldots, m-1\}$):
$$\frac{\partial \ln L}{\partial p_j} = \frac{\nu_j}{p_j} - \frac{\nu_m}{p_m} = 0$$Откуда:
$$\nu_j \cdot p_m = \nu_m \cdot p_j \quad \text{для всех } j = 1, \ldots, m-1$$Просуммируем все эти уравнения (по $j$ от $1$ до $m-1$):
$$p_m\cdot(\nu_1 + \ldots + \nu_{m-1}) = \nu_m\cdot(p_1 + \ldots + p_{m-1})$$Используя $\nu_1 + \ldots + \nu_{m-1} = n - \nu_m$ и $p_1 + \ldots + p_{m-1} = 1 - p_m$:
$$p_m\cdot(n - \nu_m) = \nu_m\cdot(1 - p_m)$$$$p_m\cdot n - p_m\cdot \nu_m = \nu_m - \nu_m\cdot p_m$$$$\boxed{\hat{p}_m = \frac{\nu_m}{n}}$$Подставляя обратно в $\nu_j p_m = \nu_m p_j$:
$$\hat{p}_j = \frac{\nu_j}{n} \quad \text{для всех } j$$Чтобы оценить вероятность исхода типа $j$, нужно количество исходов типа $j$ разделить на общее количество испытаний. Это пример, на который будем ссылаться в дальнейшем.
5. Информация Фишера
Условия регулярности
Информация Фишера определяется в рамках условий регулярности (для одномерного случая, $\theta \in \mathbb{R}$).
В разных книжках условия регулярности могут немного отличаться. То, что ниже — один из стандартных вариантов.
Условие 1. Если $\theta_1 \ne \theta_2$, то распределение при $\theta_1$ не равно распределению при $\theta_2$ (идентифицируемость).
Условие 2. Носитель распределения не зависит от $\theta$.
- Множество значений случайной величины не зависит от параметра.
- Пример: равномерное распределение $U[\theta_1, \theta_2]$ — НЕ регулярно, т.к. носитель зависит от параметров.
Условие 3. Функция $p(x, \theta)$ дифференцируема по $\theta$ столько раз, сколько нужно.
Условие 4. Внесение дифференцирования по $\theta$ под знак интеграла — законная операция:
$$\frac{\partial}{\partial \theta}\int \ldots\, dx = \int \frac{\partial}{\partial \theta}\ldots\, dx$$(не всегда верно в общем случае, но мы работаем там, где верно).
Условие 5. $\mathbb{E}[V^2(X, \theta)] < \infty$ (вводится далее).
Вклад выборки
— логарифмическая производная функции правдоподобия.
Интуиция термина «вклад выборки»
Аналитически найти точку максимума $L$ удаётся не всегда — иногда задача решается только численно. Один из простейших численных методов — градиентный спуск:
$$x_{k+1} = x_k - \alpha \cdot f'(x_k)$$Здесь:
- если мы правее минимума — $f'(x_k) > 0$ и сдвиг идёт влево (правильно);
- если мы левее минимума — $f'(x_k) < 0$ и сдвиг идёт вправо (правильно);
- чем больше $|f'|$, тем больше шаг — тем быстрее сходимость.
В многомерном случае вместо производной — градиент (вектор частных производных).
Применяя к функции правдоподобия: чем больше по модулю $V(X, \theta)$, тем быстрее численный метод сойдётся к оценке. Поэтому $V$ называется «вкладом выборки» — чем больше вклад, тем лучше (быстрее находится оценка).
Проблема: $V(X, \theta)$ — случайная величина (зависит от $X$). Хотим унифицировать в виде числовой характеристики.
Матожидание вклада выборки
Рассмотрим тождество:
$$1 = \int L(X, \theta)\, dX$$(плотность интегрируется в $1$).
Дифференцируем по $\theta$:
$$0 = \frac{\partial}{\partial \theta}\int L(X, \theta)\, dX = \int \frac{\partial L(X, \theta)}{\partial \theta}\, dX$$Воспользуемся трюком: умножим и разделим на $L$:
$$0 = \int \frac{\partial L / \partial \theta}{L}\cdot L\, dX = \int \frac{\partial \ln L}{\partial \theta}\cdot L\, dX = \int V(X, \theta)\cdot L(X, \theta)\, dX$$Это есть матожидание $V$:
$$\boxed{\mathbb{E}[V(X, \theta)] = 0}$$В среднем вклад выборки равен нулю. Не очень информативно — рассмотрим другую характеристику.
Определение информации Фишера
Мера разброса относительно нуля — дисперсия.
Свойство 1. Аддитивность по выборке
$$V(X, \theta) = \frac{\partial \ln L}{\partial \theta} = \sum_{k=1}^{n}\frac{\partial \ln p(X_k, \theta)}{\partial \theta}$$(логарифм произведения = сумма логарифмов).
Так как $X_k$ независимы, слагаемые независимы. Дисперсия суммы независимых = сумма дисперсий:
$$I(\theta) = \sum_{k=1}^{n}\mathrm{Var}\left[\frac{\partial \ln p(X_k, \theta)}{\partial \theta}\right]$$Все слагаемые одинаково распределены, поэтому:
$$\boxed{I(\theta) = n\cdot i(\theta)}$$где $i(\theta)$ — информация Фишера для одного наблюдения:
$$i(\theta) = \mathrm{Var}\left[\frac{\partial \ln p(X, \theta)}{\partial \theta}\right]$$Свойство 2. Информация Фишера через матожидание квадрата
Поскольку $\mathbb{E}\left[\dfrac{\partial \ln p(X, \theta)}{\partial \theta}\right] = 0$, а дисперсия при нулевом матожидании совпадает с матожиданием квадрата:
$$i(\theta) = \mathbb{E}\left[\left(\frac{\partial \ln p(X, \theta)}{\partial \theta}\right)^2\right]$$Свойство 3. Альтернативная формула через вторую производную
Продифференцируем тождество $\int \dfrac{\partial \ln p}{\partial \theta}\cdot p\, dx = 0$ ещё раз по $\theta$ (для одного наблюдения, индекс $k$ опускаем — все $X_k$ одинаково распределены):
$$0 = \frac{\partial}{\partial \theta}\int \frac{\partial \ln p(X, \theta)}{\partial \theta}\cdot p(X, \theta)\, dX$$Вносим производную под интеграл и применяем правило произведения:
$$0 = \int \frac{\partial^2 \ln p}{\partial \theta^2}\cdot p\, dX + \int \frac{\partial \ln p}{\partial \theta}\cdot \frac{\partial p}{\partial \theta}\, dX$$Во втором интеграле умножим и разделим на $p$:
$$\int \frac{\partial \ln p}{\partial \theta}\cdot \frac{\partial p / \partial \theta}{p}\cdot p\, dX = \int \left(\frac{\partial \ln p}{\partial \theta}\right)^2\cdot p\, dX = \mathbb{E}\left[\left(\frac{\partial \ln p}{\partial \theta}\right)^2\right]$$Получаем:
$$0 = \mathbb{E}\left[\frac{\partial^2 \ln p}{\partial \theta^2}\right] + \mathbb{E}\left[\left(\frac{\partial \ln p}{\partial \theta}\right)^2\right]$$Второе слагаемое равно $i(\theta)$, откуда:
Часто удобнее для вычислений, чем определение через дисперсию.
Замечание о записи
В выкладках для одного наблюдения индекс $k$ можно опустить — поскольку все $X_k$ одинаково распределены, можно считать $k = 1$ или просто писать $X$ без индекса.
Что будет в следующей лекции
- Конкретные примеры вычисления информации Фишера для разных распределений.
- Связь информации Фишера с методом максимального правдоподобия.
- Связь информации Фишера с оптимальностью оценок (в частности, неравенство Крамера-Рао).