Лекция 04

25.02.2026 Обновлено: 25.02.2026

Лекция 4: Метод максимального правдоподобия и информация Фишера

1. Контрпример: асимптотическая нормальность ⇏ асимптотическая несмещённость

Напоминание из прошлой лекции

В прошлый раз были рассмотрены свойства оценок:

  • состоятельность,
  • эффективность,
  • асимптотическая нормальность,
  • несмещённость.

Было показано: если оценка асимптотически нормальная, то она состоятельна.

Сегодня покажем (обещанный контрпример), что из асимптотической нормальности в общем случае НЕ следует асимптотическая несмещённость (хотя обычно эта импликация имеет место). Пример экзотический, но формально корректный.

Построение контрпримера

Пусть выборка $X_1, \ldots, X_n$ из нормального распределения $\mathcal{N}(0, \sigma^2)$.

Выборочное среднее $\bar{X}$ — состоятельная, несмещённая, асимптотически нормальная оценка для $0$ (поскольку матожидание здесь равно $0$).

Модифицируем оценку. Положим:

$$\hat{\theta} = \begin{cases} \bar{X}, & \text{с вероятностью } 1 - \tfrac{1}{n} \\ n, & \text{с вероятностью } \tfrac{1}{n} \end{cases}$$

Доказательство асимптотической нормальности $\hat{\theta}$

Рассмотрим функцию распределения $\sqrt{n}\,\hat{\theta}$ в точке $t$:

$$P(\sqrt{n}\,\hat{\theta} \le t) = P\left(\sqrt{n}\,\hat{\theta} \le t \mid \text{случилось событие с вер. } 1-\tfrac{1}{n}\right)\cdot\left(1 - \tfrac{1}{n}\right) + P\left(\sqrt{n}\,\hat{\theta} \le t \mid \text{случилось событие с вер. } \tfrac{1}{n}\right)\cdot \tfrac{1}{n}$$

Это эквивалентно:

$$P(\sqrt{n}\,\bar{X} \le t)\cdot\left(1 - \tfrac{1}{n}\right) + P\left(\sqrt{n}\cdot n \le t\right)\cdot \tfrac{1}{n}$$

При $n \to \infty$:

  • $\left(1 - \tfrac{1}{n}\right) \to 1$,
  • $\tfrac{1}{n} \to 0$,
  • $P(\sqrt{n}\,\bar{X} \le t) \to \Phi_{0,\sigma^2}(t)$ (т.к. выборочное среднее — асимптотически нормальная оценка),
  • второе слагаемое (ограниченная вероятность $\times \tfrac{1}{n}$) стремится к $0$.

Итог: $\sqrt{n}\,\hat{\theta} \xrightarrow{d} \mathcal{N}(0, \sigma^2)$.

То есть $\hat{\theta}$ — асимптотически нормальная оценка, а значит и состоятельная.

Проверка асимптотической несмещённости

$$\mathbb{E}[\hat{\theta}] = \mathbb{E}[\bar{X}]\cdot\left(1 - \tfrac{1}{n}\right) + n \cdot \tfrac{1}{n} = 0 + 1 = 1$$

Таким образом, $\mathbb{E}[\hat{\theta}] = 1 \ne 0$ для любого $n$, асимптотической несмещённости нет.

Note

Контрпример показывает: из асимптотической нормальности не следует асимптотическая несмещённость, хотя состоятельность из неё следует. Контринтуитивно, но формально верно.


2. Метод максимального правдоподобия

Нотация: дискретный и непрерывный случаи

На практике работают либо с дискретными, либо с непрерывными распределениями.

СлучайФункцияОбозначение
ДискретныйФункция вероятностейPMF (probability mass function)
НепрерывныйПлотность вероятностиPDF (probability density function)
Info

В контексте метода максимального правдоподобия оба случая объединяются — будем использовать термин «плотность» и одну букву $p$ для обоих случаев. Рассуждения в дискретном и непрерывном случаях идентичны.

Постановка задачи

Имеется простейшая выборка $X_1, X_2, \ldots, X_n$ — независимые одинаково распределённые случайные величины с распределением, зависящим от параметра $\theta$. Задача: оценить $\theta$ как функцию от выборки.

Функция правдоподобия

Поскольку элементы выборки независимы, совместная плотность есть произведение плотностей:

$$L(X, \theta) = \prod_{k=1}^{n} p(X_k, \theta)$$

Эта совместная плотность называется функцией правдоподобия.

Идея метода

На интуитивном уровне $L(X, \theta)$ — это «вероятность выборки». Метод максимального правдоподобия предлагает подобрать $\theta$ так, чтобы эта вероятность была наибольшей.

Определение оценки максимального правдоподобия

Important

$\hat{\theta}$ — это значение $\theta$, при котором достигается максимум функции правдоподобия:

$$\hat{\theta} = \arg\max_{\theta} L(X, \theta)$$

3. Алгоритм поиска оценки максимального правдоподобия

Пункт 0. Посмотреть и подумать

Возможно, удастся найти ответ, внимательно посмотрев на функцию правдоподобия — без вычислений (см. примеры с равномерным распределением и распределением Лапласа ниже).

Пункт 1. Логарифмирование

Используется свойство: производная логарифма функции

$$(\ln f(x))' = \frac{f'(x)}{f(x)}$$

Логарифм — строго монотонная функция, поэтому точка максимума не меняется. Удобно работать с $\ln L$ потому, что произведение превращается в сумму.

Пункт 2. Исследование на максимум

  1. Рассмотреть $\ln L(X, \theta)$.
  2. Вычислить производную $\dfrac{\partial \ln L}{\partial \theta}$.
  3. Приравнять к нулю.
  4. Проверить достаточные условия максимума.

4. Примеры применения метода максимального правдоподобия

Пример 1. Равномерное распределение $U[\theta_1, \theta_2]$

Плотность равномерного распределения:

$$p(x, \theta_1, \theta_2) = \frac{1}{\theta_2 - \theta_1} \cdot \mathbb{1}\{x \in [\theta_1, \theta_2]\}$$

Функция правдоподобия:

$$L(X, \theta_1, \theta_2) = \frac{1}{(\theta_2 - \theta_1)^n}\cdot \mathbb{1}\{X_1 \in [\theta_1, \theta_2], X_2 \in [\theta_1, \theta_2], \ldots, X_n \in [\theta_1, \theta_2]\}$$
Tip

Произведение индикаторов $\prod_k \mathbb{1}\{X_k \in [\theta_1, \theta_2]\}$ равно $1$ тогда и только тогда, когда все $X_k$ попадают в отрезок. Поэтому оно равно одному индикатору пересечения событий.

Анализ. Чтобы максимизировать $L$:

  • Мысль А. Индикатор должен быть равен $1$, т.е. $\theta_1 \le \min_k X_k$ и $\theta_2 \ge \max_k X_k$.
  • Мысль Б. Знаменатель $(\theta_2 - \theta_1)^n$ должен быть минимальным, т.е. $\theta_2 - \theta_1$ — минимально.

Совмещая:

$$\hat{\theta}_1 = \min_{k} X_k, \qquad \hat{\theta}_2 = \max_{k} X_k$$

Пример 2. Распределение Лапласа

Плотность:

$$p(x, \theta) = \tfrac{1}{2}\, e^{-|x - \theta|}$$

(Распределение Лапласа с масштабным параметром $1$.)

Функция правдоподобия:

$$L(X, \theta) = \frac{1}{2^n}\cdot \prod_{k=1}^{n} e^{-|X_k - \theta|} = \frac{1}{2^n}\cdot e^{-\sum_{k=1}^{n} |X_k - \theta|}$$

Множитель $\tfrac{1}{2^n}$ — константа. Чтобы максимизировать $L$, нужно максимизировать аргумент экспоненты, то есть минимизировать:

$$\sum_{k=1}^{n} |X_k - \theta| \;\longrightarrow\; \min_\theta$$

Поделив на $n$, получим $\mathbb{E}_{\hat{F}_n}[|X - \theta|]$ — матожидание относительно эмпирического распределения.

Important

Медиана минимизирует среднее абсолютное отклонение.

Поэтому:

$$\hat{\theta} = \text{медиана выборки}$$

Пример 3. Биномиальное распределение $\mathrm{Bin}(m, p)$, $m$ известно

Функция вероятностей:

$$p(x, p) = C_m^x \cdot p^x \cdot (1-p)^{m-x}$$

Функция правдоподобия:

$$L(X, p) = \prod_{k=1}^{n} C_m^{X_k}\cdot p^{X_k}\cdot (1-p)^{m - X_k}$$

Логарифм:

$$\ln L(X, p) = \sum_{k=1}^{n}\left[\ln C_m^{X_k} + X_k \ln p + (m - X_k)\ln(1-p)\right]$$

Дифференцируем по $p$ (член с $C_m^{X_k}$ не зависит от $p$):

$$\frac{\partial \ln L}{\partial p} = \sum_{k=1}^{n}\left[\frac{X_k}{p} - \frac{m - X_k}{1 - p}\right]$$

Приведём к общему знаменателю $p(1-p)$:

$$\frac{1}{p(1-p)}\sum_{k=1}^{n}\left[X_k(1-p) - p(m - X_k)\right] = \frac{1}{p(1-p)}\sum_{k=1}^{n}\left[X_k - p\cdot m\right]$$

Вынесем $n$ и $m$:

$$= \frac{n\cdot m}{p(1-p)}\left[\frac{\bar{X}}{m} - p\right]$$

Приравнивая к нулю:

$$\hat{p} = \frac{\bar{X}}{m}$$

Проверка максимума: при $p < \bar{X}/m$ производная положительна (функция возрастает), при $p > \bar{X}/m$ — отрицательна (функция убывает). Значит, это точка максимума.

Note

Если $m = 1$ — распределение Бернулли. Тогда $\hat{p} = \bar{X}$ — доля единиц в выборке.

Пример 4. Нормальное распределение $\mathcal{N}(\mu, b)$

Здесь $b$ — дисперсия (а не $\sigma^2$). Плотность:

$$p(x, \mu, b) = \frac{1}{\sqrt{2\pi b}}\, e^{-\frac{(x - \mu)^2}{2b}}$$

Логарифм функции правдоподобия:

$$\ln L(X, \mu, b) = \sum_{k=1}^{n}\left[-\tfrac{1}{2}\ln(2\pi) - \tfrac{1}{2}\ln b - \frac{(X_k - \mu)^2}{2b}\right]$$

Шаг 1. Зафиксируем $b$, найдём $\hat{\mu}$ (ленивый вариант)

При фиксированном $b$ максимизация $\ln L$ эквивалентна минимизации:

$$\sum_{k=1}^{n}(X_k - \mu)^2 \;\longrightarrow\; \min_\mu$$

Поделив на $n$, получаем $\mathbb{E}_{\hat{F}_n}[(X - \mu)^2]$ — матожидание квадрата отклонения.

Important

Эта величина минимизируется при $\mu = \mathbb{E}[X]$ (для эмпирического распределения это выборочное среднее).

(Точкой минимума является матожидание, а само минимальное значение — дисперсия.)

Поэтому:

$$\hat{\mu} = \bar{X}$$

Шаг 2. Найдём $\hat{b}$

Дифференцируем $\ln L$ по $b$:

$$\frac{\partial \ln L}{\partial b} = -\sum_{k=1}^{n}\frac{1}{2b} + \sum_{k=1}^{n}\frac{(X_k - \hat{\mu})^2}{2b^2} = 0$$

Откуда:

$$\hat{b} = \frac{1}{n}\sum_{k=1}^{n}(X_k - \hat{\mu})^2 = S^{*2}$$

Это выборочная дисперсия (со звёздочкой).

Summary

$$\hat{\mu} = \bar{X}, \qquad \hat{b} = S^{*2}$$

Оценками максимального правдоподобия для параметров нормального закона являются выборочное среднее и выборочная дисперсия.

(Это «ленивый» вариант: строго следовало бы исследовать функцию двух переменных через гессиан.)

Пример 5. Дискретное распределение на $m$ значениях

Пусть выборка из дискретного распределения, принимающего значения $1, 2, \ldots, m$ с вероятностями $p_1, p_2, \ldots, p_m$.

Сколько неизвестных? $m - 1$ (так как $\sum p_k = 1$).

Группировка. Пусть $\nu_k$ — количество элементов выборки, равных $k$. Тогда:

$$\sum_{k=1}^{m} \nu_k = n$$

Функция правдоподобия:

$$L(X, p) = p_1^{\nu_1}\cdot p_2^{\nu_2}\cdot \ldots \cdot p_m^{\nu_m}$$

с ограничением $p_1 + p_2 + \ldots + p_m = 1$.

Tip

Можно было бы использовать множители Лагранжа, но т.к. ограничение одно, проще выразить $p_m = 1 - p_1 - \ldots - p_{m-1}$ и работать с функцией $m-1$ переменной.

Подставляем:

$$\ln L(X, p) = \sum_{k=1}^{m-1}\nu_k \ln p_k + \nu_m \ln\left(1 - p_1 - \ldots - p_{m-1}\right)$$

Дифференцируем по $p_j$ ($j \in \{1, \ldots, m-1\}$):

$$\frac{\partial \ln L}{\partial p_j} = \frac{\nu_j}{p_j} - \frac{\nu_m}{p_m} = 0$$

Откуда:

$$\nu_j \cdot p_m = \nu_m \cdot p_j \quad \text{для всех } j = 1, \ldots, m-1$$

Просуммируем все эти уравнения (по $j$ от $1$ до $m-1$):

$$p_m\cdot(\nu_1 + \ldots + \nu_{m-1}) = \nu_m\cdot(p_1 + \ldots + p_{m-1})$$

Используя $\nu_1 + \ldots + \nu_{m-1} = n - \nu_m$ и $p_1 + \ldots + p_{m-1} = 1 - p_m$:

$$p_m\cdot(n - \nu_m) = \nu_m\cdot(1 - p_m)$$$$p_m\cdot n - p_m\cdot \nu_m = \nu_m - \nu_m\cdot p_m$$$$\boxed{\hat{p}_m = \frac{\nu_m}{n}}$$

Подставляя обратно в $\nu_j p_m = \nu_m p_j$:

$$\hat{p}_j = \frac{\nu_j}{n} \quad \text{для всех } j$$
Summary

Чтобы оценить вероятность исхода типа $j$, нужно количество исходов типа $j$ разделить на общее количество испытаний. Это пример, на который будем ссылаться в дальнейшем.


5. Информация Фишера

Условия регулярности

Информация Фишера определяется в рамках условий регулярности (для одномерного случая, $\theta \in \mathbb{R}$).

Warning

В разных книжках условия регулярности могут немного отличаться. То, что ниже — один из стандартных вариантов.

Условие 1. Если $\theta_1 \ne \theta_2$, то распределение при $\theta_1$ не равно распределению при $\theta_2$ (идентифицируемость).

Условие 2. Носитель распределения не зависит от $\theta$.

  • Множество значений случайной величины не зависит от параметра.
  • Пример: равномерное распределение $U[\theta_1, \theta_2]$ — НЕ регулярно, т.к. носитель зависит от параметров.

Условие 3. Функция $p(x, \theta)$ дифференцируема по $\theta$ столько раз, сколько нужно.

Условие 4. Внесение дифференцирования по $\theta$ под знак интеграла — законная операция:

$$\frac{\partial}{\partial \theta}\int \ldots\, dx = \int \frac{\partial}{\partial \theta}\ldots\, dx$$

(не всегда верно в общем случае, но мы работаем там, где верно).

Условие 5. $\mathbb{E}[V^2(X, \theta)] < \infty$ (вводится далее).

Вклад выборки

Definition

$$V(X, \theta) = \frac{\partial \ln L(X, \theta)}{\partial \theta}$$

— логарифмическая производная функции правдоподобия.

Интуиция термина «вклад выборки»

Аналитически найти точку максимума $L$ удаётся не всегда — иногда задача решается только численно. Один из простейших численных методов — градиентный спуск:

$$x_{k+1} = x_k - \alpha \cdot f'(x_k)$$

Здесь:

  • если мы правее минимума — $f'(x_k) > 0$ и сдвиг идёт влево (правильно);
  • если мы левее минимума — $f'(x_k) < 0$ и сдвиг идёт вправо (правильно);
  • чем больше $|f'|$, тем больше шаг — тем быстрее сходимость.

В многомерном случае вместо производной — градиент (вектор частных производных).

Применяя к функции правдоподобия: чем больше по модулю $V(X, \theta)$, тем быстрее численный метод сойдётся к оценке. Поэтому $V$ называется «вкладом выборки» — чем больше вклад, тем лучше (быстрее находится оценка).

Проблема: $V(X, \theta)$ — случайная величина (зависит от $X$). Хотим унифицировать в виде числовой характеристики.

Матожидание вклада выборки

Рассмотрим тождество:

$$1 = \int L(X, \theta)\, dX$$

(плотность интегрируется в $1$).

Дифференцируем по $\theta$:

$$0 = \frac{\partial}{\partial \theta}\int L(X, \theta)\, dX = \int \frac{\partial L(X, \theta)}{\partial \theta}\, dX$$

Воспользуемся трюком: умножим и разделим на $L$:

$$0 = \int \frac{\partial L / \partial \theta}{L}\cdot L\, dX = \int \frac{\partial \ln L}{\partial \theta}\cdot L\, dX = \int V(X, \theta)\cdot L(X, \theta)\, dX$$

Это есть матожидание $V$:

$$\boxed{\mathbb{E}[V(X, \theta)] = 0}$$

В среднем вклад выборки равен нулю. Не очень информативно — рассмотрим другую характеристику.

Определение информации Фишера

Мера разброса относительно нуля — дисперсия.

Definition

$$I(\theta) = \mathrm{Var}[V(X, \theta)] = \mathrm{Var}\left[\frac{\partial \ln L(X, \theta)}{\partial \theta}\right]$$

Свойство 1. Аддитивность по выборке

$$V(X, \theta) = \frac{\partial \ln L}{\partial \theta} = \sum_{k=1}^{n}\frac{\partial \ln p(X_k, \theta)}{\partial \theta}$$

(логарифм произведения = сумма логарифмов).

Так как $X_k$ независимы, слагаемые независимы. Дисперсия суммы независимых = сумма дисперсий:

$$I(\theta) = \sum_{k=1}^{n}\mathrm{Var}\left[\frac{\partial \ln p(X_k, \theta)}{\partial \theta}\right]$$

Все слагаемые одинаково распределены, поэтому:

$$\boxed{I(\theta) = n\cdot i(\theta)}$$

где $i(\theta)$ — информация Фишера для одного наблюдения:

$$i(\theta) = \mathrm{Var}\left[\frac{\partial \ln p(X, \theta)}{\partial \theta}\right]$$

Свойство 2. Информация Фишера через матожидание квадрата

Поскольку $\mathbb{E}\left[\dfrac{\partial \ln p(X, \theta)}{\partial \theta}\right] = 0$, а дисперсия при нулевом матожидании совпадает с матожиданием квадрата:

$$i(\theta) = \mathbb{E}\left[\left(\frac{\partial \ln p(X, \theta)}{\partial \theta}\right)^2\right]$$

Свойство 3. Альтернативная формула через вторую производную

Продифференцируем тождество $\int \dfrac{\partial \ln p}{\partial \theta}\cdot p\, dx = 0$ ещё раз по $\theta$ (для одного наблюдения, индекс $k$ опускаем — все $X_k$ одинаково распределены):

$$0 = \frac{\partial}{\partial \theta}\int \frac{\partial \ln p(X, \theta)}{\partial \theta}\cdot p(X, \theta)\, dX$$

Вносим производную под интеграл и применяем правило произведения:

$$0 = \int \frac{\partial^2 \ln p}{\partial \theta^2}\cdot p\, dX + \int \frac{\partial \ln p}{\partial \theta}\cdot \frac{\partial p}{\partial \theta}\, dX$$

Во втором интеграле умножим и разделим на $p$:

$$\int \frac{\partial \ln p}{\partial \theta}\cdot \frac{\partial p / \partial \theta}{p}\cdot p\, dX = \int \left(\frac{\partial \ln p}{\partial \theta}\right)^2\cdot p\, dX = \mathbb{E}\left[\left(\frac{\partial \ln p}{\partial \theta}\right)^2\right]$$

Получаем:

$$0 = \mathbb{E}\left[\frac{\partial^2 \ln p}{\partial \theta^2}\right] + \mathbb{E}\left[\left(\frac{\partial \ln p}{\partial \theta}\right)^2\right]$$

Второе слагаемое равно $i(\theta)$, откуда:

Important

$$\boxed{i(\theta) = -\mathbb{E}\left[\frac{\partial^2 \ln p(X, \theta)}{\partial \theta^2}\right]}$$

Часто удобнее для вычислений, чем определение через дисперсию.

Замечание о записи

В выкладках для одного наблюдения индекс $k$ можно опустить — поскольку все $X_k$ одинаково распределены, можно считать $k = 1$ или просто писать $X$ без индекса.


Что будет в следующей лекции

  1. Конкретные примеры вычисления информации Фишера для разных распределений.
  2. Связь информации Фишера с методом максимального правдоподобия.
  3. Связь информации Фишера с оптимальностью оценок (в частности, неравенство Крамера-Рао).