Лекция 03

18.02.2026 Обновлено: 18.02.2026

Лекция 3: Точечное оценивание параметров. Метод моментов

Общая постановка задачи

Пусть имеется модель простейшей выборки. С теоретической точки зрения это набор независимых одинаково распределённых случайных величин, распределение которых задаётся функцией распределения.

При этом будем предполагать, что функция распределения параметризуется неким параметром $\theta$:

$$F(x; \theta), \quad \theta \in \Theta \subseteq \mathbb{R}^d$$

где $\Theta$ — множество допустимых значений параметра, а $\theta$ может быть $d$-мерным вектором.

Мотивация: часто есть основания предполагать, что выборка пришла из какого-то класса распределений. Например:

  • В биологии сами данные или их логарифмы аппроксимируются нормальным законом.
  • Для потоков событий нередко используется распределение Пуассона.

Цель: оценить неизвестный параметр $\theta$ в виде $\hat{\theta}$, где $\hat{\theta}$ — это какая-то функция от выборки.

Напоминание: функция от выборки кратко называется статистикой.

Нам бы какая оценка не годится — хотелось, чтобы она удовлетворяла каким-то хорошим свойствам.


Свойства оценок

1. Состоятельность (consistency)

Неформально: при увеличении объёма выборки оценка становится ближе к истинному значению.

Определение: оценка $\hat{\theta}$ называется состоятельной, если она сходится по вероятности к $\theta$:

$$\hat{\theta} \xrightarrow{P} \theta$$

По-английски: consistency. Это базовое свойство, говорящее о том, что оценка вообще разумна.

2. Смещённость / несмещённость (bias / unbiasedness)

Смещение оценки определяется как:

$$\text{bias}(\hat{\theta}) = \mathbb{E}[\hat{\theta}] - \theta$$
  • Оценка несмещённая (unbiased) ⟺ $\text{bias}(\hat{\theta}) = 0$
  • Оценка смещённая ⟺ $\text{bias}(\hat{\theta}) \neq 0$
  • Оценка асимптотически несмещённая ⟺ $\text{bias}(\hat{\theta}) \to 0$ при $n \to \infty$

Пример: обычная выборочная дисперсия — смещённая оценка теоретической дисперсии, но асимптотически несмещённая.

3. Асимптотическая нормальность

Оценка $\hat{\theta}$ называется асимптотически нормальной, если:

$$\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} \mathcal{N}(0, \Sigma)$$

то есть в пределе по распределению получается гауссовская величина с нулевым математическим ожиданием и какой-то матрицей ковариации $\Sigma$.

4. Оптимальность и эффективность

Гипотетический вопрос: если у нас есть несколько оценок, то как сравнить, какая оценка лучше? Нужна метрика.

Среднеквадратическая ошибка (Mean Squared Error)

$$\text{MSE}(\hat{\theta}) = \mathbb{E}\|\hat{\theta} - \theta\|^2$$

где $\|x\|^2 = x^T x = \sum_i x_i^2$ — норма вектора $x = (x_1, \ldots, x_n)$.

⚠️ Важная ремарка: среднеквадратическая ошибка (MSE) и среднее квадратическое отклонение — разные вещи! Хоть в русском языке слова “ошибка” и “отклонение” синонимы, в статистике они означают совершенно разное:

  • MSE — это $\mathbb{E}\|\hat{\theta} - \theta\|^2$
  • Среднее квадратическое отклонение — это $\sqrt{\text{Var}(\hat{\theta})}$ (корень из дисперсии)

Определение оптимальной (эффективной) оценки

Оценка $\hat{\theta}$ называется оптимальной (эффективной) в классе $\mathcal{T}$, если:

$$\hat{\theta} = \arg\min_{\tilde{\theta} \in \mathcal{T}} \text{MSE}(\tilde{\theta})$$

Например, $\mathcal{T}$ может быть классом несмещённых оценок: оценка называется эффективной, если у неё наименьшая среднеквадратическая ошибка среди всех несмещённых оценок.

Важное замечание про терминологию

Понятия оптимальности и эффективности часто отождествляют. Однако в некоторых книгах эти понятия различают:

  • Оптимальная оценка — минимизирует MSE.
  • Эффективная оценка в другом определении: $\hat{\theta}$ — эффективная оценка, если
$$\hat{\theta} = \arg\min_{\tilde{\theta} \in \mathcal{T}} \text{tr}(\Sigma_{\tilde{\theta}})$$

где $\text{tr}$ — след матрицы (trace), а $\Sigma$ — матрица ковариации оценки.

Уточнение: $\arg\min$ — это значение аргумента, при котором достигается минимум функции. Класс $\mathcal{T}$ — это произвольный класс оценок, в котором мы ищем оптимум (например, класс несмещённых, класс линейных оценок и т.д.). Например, при изучении линейных моделей будет теорема Гаусса–Маркова про эффективность в классе линейных несмещённых оценок.


Связь свойств: разложение MSE

Распишем MSE

$$\text{MSE}(\hat{\theta}) = \mathbb{E}\left[(\hat{\theta} - \theta)^T(\hat{\theta} - \theta)\right]$$

Применим приём “плюс-минус $\mathbb{E}\hat{\theta}$”:

$$\hat{\theta} - \theta = (\hat{\theta} - \mathbb{E}\hat{\theta}) + (\mathbb{E}\hat{\theta} - \theta)$$

Раскрывая скобки и используя линейность математического ожидания, получим четыре слагаемых:

  1. $\mathbb{E}\left[(\hat{\theta} - \mathbb{E}\hat{\theta})^T(\hat{\theta} - \mathbb{E}\hat{\theta})\right]$
  2. $\mathbb{E}\left[(\mathbb{E}\hat{\theta} - \theta)^T(\mathbb{E}\hat{\theta} - \theta)\right]$
  3. $\mathbb{E}\left[(\hat{\theta} - \mathbb{E}\hat{\theta})^T(\mathbb{E}\hat{\theta} - \theta)\right]$
  4. $\mathbb{E}\left[(\mathbb{E}\hat{\theta} - \theta)^T(\hat{\theta} - \mathbb{E}\hat{\theta})\right]$

Анализ слагаемых

Слагаемые 3 и 4 равны нулю. Рассуждение:

  • $\theta$ — константа.
  • $\mathbb{E}\hat{\theta}$ — это число (не случайная величина), значит тоже константа.
  • Следовательно, $\mathbb{E}\hat{\theta} - \theta$ — константа, которую можно вынести из-под знака математического ожидания.
  • Остаётся $\mathbb{E}[\hat{\theta} - \mathbb{E}\hat{\theta}] = \mathbb{E}\hat{\theta} - \mathbb{E}\hat{\theta} = 0$.

Транспонирование константы — это тоже константа (транспонированная), не важно, строчка или вектор.

Слагаемое 2 — это уже константа, поэтому $\mathbb{E}$ снимается. Оно равно квадрату нормы смещения:

$$\|\text{bias}(\hat{\theta})\|^2 = \|\mathbb{E}\hat{\theta} - \theta\|^2$$

Слагаемое 1 — расписав покомпонентно:

$$\sum_{i=1}^{d} \mathbb{E}\left[(\hat{\theta}_i - \mathbb{E}\hat{\theta}_i)^2\right] = \sum_{i=1}^{d} \text{Var}(\hat{\theta}_i) = \text{tr}(\Sigma_{\hat{\theta}})$$

(на диагонали матрицы ковариации стоят как раз дисперсии).

Итоговая формула

$$\boxed{\text{MSE}(\hat{\theta}) = \text{tr}(\Sigma_{\hat{\theta}}) + \|\text{bias}(\hat{\theta})\|^2}$$

Соображение №1: эффективность через след матрицы ковариации

Если оценка несмещённая, то $\text{bias} = 0$, и тогда:

$$\text{MSE}(\hat{\theta}) = \text{tr}(\Sigma_{\hat{\theta}})$$

То есть для несмещённых оценок оптимизация MSE — это то же самое, что оптимизация следа матрицы ковариации. Это объясняет, почему в некоторых книгах эффективность определяется именно через минимизацию следа матрицы ковариации.

Спойлер: если оценка несмещённая (и выполняются некоторые условия, о которых будет сказано позже), то можно указать нетривиальную нижнюю границу для дисперсии оценки. Тривиальная граница — это, понятно, $0$.


Связь свойств: асимптотическая несмещённость + дисперсия → 0 ⟹ состоятельность

Для простоты рассмотрим случай размерности $d = 1$. Для общего $d$ рассуждения аналогичны.

Утверждение

Пусть:

  1. $\text{bias}(\hat{\theta}) \to 0$ (асимптотическая несмещённость),
  2. $\text{Var}(\hat{\theta}) \to 0$.

Тогда $\hat{\theta}$ — состоятельная оценка.

Доказательство

Хотим оценить $P(|\hat{\theta} - \theta| > \varepsilon)$.

Запишем цепочку неравенств. Сначала “плюс-минус” $\mathbb{E}\hat{\theta}$:

$$\varepsilon < |\hat{\theta} - \theta| = |(\hat{\theta} - \mathbb{E}\hat{\theta}) + (\mathbb{E}\hat{\theta} - \theta)|$$

По неравенству треугольника:

$$|\hat{\theta} - \theta| \leq |\hat{\theta} - \mathbb{E}\hat{\theta}| + |\mathbb{E}\hat{\theta} - \theta|$$

Второе слагаемое — это смещение, которое стремится к нулю. Поэтому, начиная с некоторого $n$, оно становится меньше $\varepsilon/2$:

$$\varepsilon < |\hat{\theta} - \mathbb{E}\hat{\theta}| + \frac{\varepsilon}{2}$$

Откуда:

$$|\hat{\theta} - \mathbb{E}\hat{\theta}| > \frac{\varepsilon}{2}$$

Если из $A$ следует $B$, то $P(A) \leq P(B)$. Значит:

$$P(|\hat{\theta} - \theta| > \varepsilon) \leq P\left(|\hat{\theta} - \mathbb{E}\hat{\theta}| > \frac{\varepsilon}{2}\right)$$

Применяем неравенство Чебышёва:

$$P\left(|\hat{\theta} - \mathbb{E}\hat{\theta}| > \frac{\varepsilon}{2}\right) \leq \frac{4 \, \text{Var}(\hat{\theta})}{\varepsilon^2} \xrightarrow{n \to \infty} 0$$

Значит, $\hat{\theta} \xrightarrow{P} \theta$, что и требовалось показать. ∎


Связь свойств: асимптотическая нормальность ⟹ состоятельность

Утверждение

Если $\hat{\theta}$ — асимптотически нормальная оценка, то она состоятельна.

Формальное доказательство

По определению асимптотической нормальности:

$$\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} \mathcal{N}(0, \sigma^2)$$

Распишем вероятность:

$$P(|\hat{\theta} - \theta| < \varepsilon) = P(|\sqrt{n}(\hat{\theta} - \theta)| < \varepsilon\sqrt{n})$$

В силу асимптотической нормальности:

$$P(|\sqrt{n}(\hat{\theta} - \theta)| < \varepsilon\sqrt{n}) \to F_{\mathcal{N}(0,\sigma^2)}(\varepsilon\sqrt{n}) - F_{\mathcal{N}(0,\sigma^2)}(-\varepsilon\sqrt{n})$$

При $n \to \infty$:

  • $F_{\mathcal{N}(0,\sigma^2)}(+\infty) = 1$
  • $F_{\mathcal{N}(0,\sigma^2)}(-\infty) = 0$

Значит, выражение стремится к $1 - 0 = 1$. То есть оценка действительно состоятельна. ∎

Неформально про асимптотическую несмещённость

Из

$$\sqrt{n}(\hat{\theta} - \theta) \approx \mathcal{N}(0, \sigma^2)$$

неформально получаем:

$$\hat{\theta} - \theta \approx \mathcal{N}\left(0, \frac{\sigma^2}{n}\right)$$

При $n \to \infty$ это распределение “сжимается” в точку $0$. Это неформальное рассуждение.

⚠️ Важное замечание: обратное неверно! Из состоятельности не следует даже асимптотическая несмещённость. Существует экзотический контрпример (его рассмотрим в следующий раз).


Метод моментов

Это первый из методов точечного оценивания параметров.

Постановка

Пусть имеется модель простейшей выборки $X_1, \ldots, X_n$, теоретическая функция распределения параметризуется параметром $\theta = (\theta_1, \ldots, \theta_d)$ — $d$-мерный параметр.

Алгоритм метода моментов

Шаг 1. Вводим функции $g_1, \ldots, g_d$ такие, что существуют математические ожидания:

$$\mathbb{E}[g_1(X_1)], \quad \mathbb{E}[g_2(X_1)], \quad \ldots, \quad \mathbb{E}[g_d(X_1)]$$

Шаг 2. Поскольку распределение зависит от $\theta$, эти моментные характеристики тоже зависят от $\theta$:

$$\mathbb{E}[g_k(X_1)] = m_k(\theta_1, \ldots, \theta_d), \quad k = 1, \ldots, d$$

Шаг 3. Переходим к эмпирическим аналогам. Заменяем теоретические математические ожидания выборочными средними:

$$\overline{g_k(X)} = \frac{1}{n} \sum_{i=1}^{n} g_k(X_i)$$

Шаг 4. Получаем систему уравнений на оценки $\hat{\theta}_1, \ldots, \hat{\theta}_d$:

$$\begin{cases} \overline{g_1(X)} = m_1(\hat{\theta}_1, \ldots, \hat{\theta}_d) \\ \overline{g_2(X)} = m_2(\hat{\theta}_1, \ldots, \hat{\theta}_d) \\ \vdots \\ \overline{g_d(X)} = m_d(\hat{\theta}_1, \ldots, \hat{\theta}_d) \end{cases}$$

Это система $d$ уравнений на $d$ неизвестных.

Шаг 5. Предположим, что существует и притом единственное решение. Тогда:

$$\hat{\theta}_k = \alpha_k\left(\overline{g_1(X)}, \ldots, \overline{g_d(X)}\right), \quad k = 1, \ldots, d$$

Это решение и называется оценкой метода моментов.

Почему “метод моментов”

По умолчанию в качестве функций $g_k$ берут степенные:

$$g_k(x) = x^k$$

Тогда $\mathbb{E}[g_k(X)] = \mathbb{E}[X^k]$ — это $k$-й момент. Отсюда и название.

Свойства оценок метода моментов

1. Состоятельность. Если:

  • $\overline{g_k(X)}$ — состоятельные оценки $\mathbb{E}[g_k(X)]$,
  • функции $\alpha_k$ непрерывны,

то оценка метода моментов состоятельна.

Это обычно выполняется.

2. Асимптотическая нормальность. Если:

  • $\overline{g_k(X)}$ — асимптотически нормальные оценки,
  • функции $\alpha_k$ гладкие,

то имеет место асимптотическая нормальность по дельта-методу.

3. Смещённость. В общем случае про смещённость и несмещённость сказать ничего нельзя.

Плюсы и минусы метода

Плюсы:

  • Идея метода достаточно проста.

Минусы:

  • Часто получаются не очень эффективные оценки (это будет видно даже на учебных примерах).

Примеры применения метода моментов

Пример 1. Распределение Бернулли

Робот много раз кидает монетку, на входе последовательность нулей и единичек. Оценить вероятность $p$ выпадения единички.

Берём дефолтную функцию $g(x) = x$. Математическое ожидание распределения Бернулли:

$$\mathbb{E}[X] = p$$

Переходим к эмпирическому аналогу:

$$\overline{X} = \hat{p}$$

Здесь всё разрешилось тривиально. Получили:

$$\boxed{\hat{p} = \overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i}$$

То есть оценка вероятности успеха — это просто выборочное среднее (количество успехов / общее количество экспериментов).

Свойства: про выборочное среднее знаем, что это состоятельная, несмещённая, асимптотически нормальная оценка. Забегая вперёд — даже эффективная.


Пример 2. Распределение Пуассона

Вариант 1: $g(x) = x$

Математическое ожидание распределения Пуассона:

$$\mathbb{E}[X] = \lambda$$

Эмпирический аналог:

$$\hat{\lambda}_1 = \overline{X}$$

Вариант 2: $g(x) = x^2$

Используем то, что:

$$\mathbb{E}[X^2] = \text{Var}(X) + (\mathbb{E}[X])^2 = \lambda + \lambda^2$$

Эмпирический аналог:

$$\hat{\lambda}^2 + \hat{\lambda} - \overline{X^2} = 0$$

Это квадратное уравнение. Решаем:

$$\hat{\lambda} = \frac{-1 \pm \sqrt{1 + 4\overline{X^2}}}{2}$$

Формально два корня, но по смыслу задачи $\lambda > 0$, поэтому выбираем положительный корень (с плюсом):

$$\boxed{\hat{\lambda}_2 = \frac{-1 + \sqrt{1 + 4\overline{X^2}}}{2}}$$

Свойства: получилась гладкая (на области определения) функция от второго выборочного момента. Поэтому оценка состоятельная и асимптотически нормальная. Про смещённость конкретно сказать сложно.

Какая оценка лучше? Та, у которой меньше MSE. Забегая вперёд — первая оценка $\hat{\lambda}_1 = \overline{X}$ будет эффективной.

Это хорошо иллюстрирует минус метода: разные функции $g$ дают разные оценки, и не все они одинаково хороши.


Пример 3. Нормальное распределение $\mathcal{N}(\mu, b)$

Здесь $b$ — дисперсия. Два неизвестных параметра, поэтому нужны два уравнения.

Берём:

  • $g_1(x) = x$,
  • $g_2(x) = x^2$.

Теоретические соотношения:

$$\mathbb{E}[X] = \mu$$$$\mathbb{E}[X^2] = \text{Var}(X) + (\mathbb{E}[X])^2 = b + \mu^2$$

Эмпирические аналоги:

$$\overline{X} = \hat{\mu}$$$$\overline{X^2} = \hat{b} + \hat{\mu}^2$$

Отсюда:

$$\boxed{\hat{\mu} = \overline{X}, \qquad \hat{b} = \overline{X^2} - (\overline{X})^2}$$

А $\overline{X^2} - (\overline{X})^2$ — это выборочная дисперсия $S^{*2}$.

Свойства:

  • $\hat{\mu} = \overline{X}$ — несмещённая оценка.
  • $\hat{b} = S^{*2}$ — смещённая оценка (но асимптотически несмещённая).
  • Обе оценки состоятельные и асимптотически нормальные.

Это иллюстрирует, что в общем случае про смещённость метода моментов ничего конкретного сказать нельзя — здесь одна оценка несмещённая, другая смещённая.


Пример 4. Равномерное распределение $U[a, b]$

Берём те же функции $g_1(x) = x$, $g_2(x) = x^2$.

Математическое ожидание равномерного закона:

$$\mathbb{E}[X] = \frac{a + b}{2}$$

Дисперсия:

$$\text{Var}(X) = \frac{(b - a)^2}{12}$$

Тогда:

$$\mathbb{E}[X^2] = \frac{(b - a)^2}{12} + \left(\frac{a + b}{2}\right)^2$$

Эмпирические соотношения:

$$\overline{X} = \frac{\hat{a} + \hat{b}}{2}$$$$\overline{X^2} = \frac{(\hat{b} - \hat{a})^2}{12} + \left(\frac{\hat{a} + \hat{b}}{2}\right)^2$$

Из второго уравнения, подставляя первое:

$$\frac{(\hat{b} - \hat{a})^2}{12} = \overline{X^2} - (\overline{X})^2 = S^{*2}$$

Снова получили выборочную дисперсию! Откуда:

$$(\hat{b} - \hat{a})^2 = 12 \cdot S^{*2}$$$$\hat{b} - \hat{a} = \pm 2\sqrt{3} \cdot S^*$$

где $S^* = \sqrt{S^{*2}}$.

Выбираем знак “+”, так как $b - a > 0$.

Имеем систему:

$$\begin{cases} \hat{a} + \hat{b} = 2\overline{X} \\ \hat{b} - \hat{a} = 2\sqrt{3} \cdot S^* \end{cases}$$

Решая (сложение и вычитание):

$$\boxed{\hat{a} = \overline{X} - \sqrt{3} \cdot S^*, \qquad \hat{b} = \overline{X} + \sqrt{3} \cdot S^*}$$

Пример 5 (демонстрационный). Равномерное распределение $U[-\theta, \theta]$

Здесь интересный случай: функция $g(x) = x$ не подходит, потому что:

$$\mathbb{E}[X] = 0$$

— математическое ожидание не зависит от $\theta$, поэтому уравнение бессмысленно.

Берём $g(x) = x^2$:

$$\mathbb{E}[X^2] = \frac{\theta^2}{3}$$

Эмпирический аналог даёт явное выражение для оценки $\hat{\theta}$.

На демонстрации в Google Colab было показано: при объёме выборки 10 разброс оценки большой, а при объёме 10000 разброс существенно меньше, и распределение оценки концентрируется около реального параметра. Это иллюстрирует состоятельность и асимптотическую нормальность.


Что дальше

В следующий раз:

  1. Будет приведён экзотический контрпример, показывающий, что из состоятельности не следует даже асимптотическая несмещённость.
  2. Перейдём к следующему методу — методу максимального правдоподобия (maximum likelihood).