Карточки Anki
Скачайте колоды для интервального повторения
Лекция 3: Точечное оценивание параметров. Метод моментов
Общая постановка задачи
Пусть имеется модель простейшей выборки. С теоретической точки зрения это набор независимых одинаково распределённых случайных величин, распределение которых задаётся функцией распределения.
При этом будем предполагать, что функция распределения параметризуется неким параметром $\theta$:
$$F(x; \theta), \quad \theta \in \Theta \subseteq \mathbb{R}^d$$где $\Theta$ — множество допустимых значений параметра, а $\theta$ может быть $d$-мерным вектором.
Мотивация: часто есть основания предполагать, что выборка пришла из какого-то класса распределений. Например:
- В биологии сами данные или их логарифмы аппроксимируются нормальным законом.
- Для потоков событий нередко используется распределение Пуассона.
Цель: оценить неизвестный параметр $\theta$ в виде $\hat{\theta}$, где $\hat{\theta}$ — это какая-то функция от выборки.
Напоминание: функция от выборки кратко называется статистикой.
Нам бы какая оценка не годится — хотелось, чтобы она удовлетворяла каким-то хорошим свойствам.
Свойства оценок
1. Состоятельность (consistency)
Неформально: при увеличении объёма выборки оценка становится ближе к истинному значению.
Определение: оценка $\hat{\theta}$ называется состоятельной, если она сходится по вероятности к $\theta$:
$$\hat{\theta} \xrightarrow{P} \theta$$По-английски: consistency. Это базовое свойство, говорящее о том, что оценка вообще разумна.
2. Смещённость / несмещённость (bias / unbiasedness)
Смещение оценки определяется как:
$$\text{bias}(\hat{\theta}) = \mathbb{E}[\hat{\theta}] - \theta$$- Оценка несмещённая (unbiased) ⟺ $\text{bias}(\hat{\theta}) = 0$
- Оценка смещённая ⟺ $\text{bias}(\hat{\theta}) \neq 0$
- Оценка асимптотически несмещённая ⟺ $\text{bias}(\hat{\theta}) \to 0$ при $n \to \infty$
Пример: обычная выборочная дисперсия — смещённая оценка теоретической дисперсии, но асимптотически несмещённая.
3. Асимптотическая нормальность
Оценка $\hat{\theta}$ называется асимптотически нормальной, если:
$$\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} \mathcal{N}(0, \Sigma)$$то есть в пределе по распределению получается гауссовская величина с нулевым математическим ожиданием и какой-то матрицей ковариации $\Sigma$.
4. Оптимальность и эффективность
Гипотетический вопрос: если у нас есть несколько оценок, то как сравнить, какая оценка лучше? Нужна метрика.
Среднеквадратическая ошибка (Mean Squared Error)
$$\text{MSE}(\hat{\theta}) = \mathbb{E}\|\hat{\theta} - \theta\|^2$$где $\|x\|^2 = x^T x = \sum_i x_i^2$ — норма вектора $x = (x_1, \ldots, x_n)$.
⚠️ Важная ремарка: среднеквадратическая ошибка (MSE) и среднее квадратическое отклонение — разные вещи! Хоть в русском языке слова “ошибка” и “отклонение” синонимы, в статистике они означают совершенно разное:
- MSE — это $\mathbb{E}\|\hat{\theta} - \theta\|^2$
- Среднее квадратическое отклонение — это $\sqrt{\text{Var}(\hat{\theta})}$ (корень из дисперсии)
Определение оптимальной (эффективной) оценки
Оценка $\hat{\theta}$ называется оптимальной (эффективной) в классе $\mathcal{T}$, если:
$$\hat{\theta} = \arg\min_{\tilde{\theta} \in \mathcal{T}} \text{MSE}(\tilde{\theta})$$Например, $\mathcal{T}$ может быть классом несмещённых оценок: оценка называется эффективной, если у неё наименьшая среднеквадратическая ошибка среди всех несмещённых оценок.
Важное замечание про терминологию
Понятия оптимальности и эффективности часто отождествляют. Однако в некоторых книгах эти понятия различают:
- Оптимальная оценка — минимизирует MSE.
- Эффективная оценка в другом определении: $\hat{\theta}$ — эффективная оценка, если
где $\text{tr}$ — след матрицы (trace), а $\Sigma$ — матрица ковариации оценки.
Уточнение: $\arg\min$ — это значение аргумента, при котором достигается минимум функции. Класс $\mathcal{T}$ — это произвольный класс оценок, в котором мы ищем оптимум (например, класс несмещённых, класс линейных оценок и т.д.). Например, при изучении линейных моделей будет теорема Гаусса–Маркова про эффективность в классе линейных несмещённых оценок.
Связь свойств: разложение MSE
Распишем MSE
$$\text{MSE}(\hat{\theta}) = \mathbb{E}\left[(\hat{\theta} - \theta)^T(\hat{\theta} - \theta)\right]$$Применим приём “плюс-минус $\mathbb{E}\hat{\theta}$”:
$$\hat{\theta} - \theta = (\hat{\theta} - \mathbb{E}\hat{\theta}) + (\mathbb{E}\hat{\theta} - \theta)$$Раскрывая скобки и используя линейность математического ожидания, получим четыре слагаемых:
- $\mathbb{E}\left[(\hat{\theta} - \mathbb{E}\hat{\theta})^T(\hat{\theta} - \mathbb{E}\hat{\theta})\right]$
- $\mathbb{E}\left[(\mathbb{E}\hat{\theta} - \theta)^T(\mathbb{E}\hat{\theta} - \theta)\right]$
- $\mathbb{E}\left[(\hat{\theta} - \mathbb{E}\hat{\theta})^T(\mathbb{E}\hat{\theta} - \theta)\right]$
- $\mathbb{E}\left[(\mathbb{E}\hat{\theta} - \theta)^T(\hat{\theta} - \mathbb{E}\hat{\theta})\right]$
Анализ слагаемых
Слагаемые 3 и 4 равны нулю. Рассуждение:
- $\theta$ — константа.
- $\mathbb{E}\hat{\theta}$ — это число (не случайная величина), значит тоже константа.
- Следовательно, $\mathbb{E}\hat{\theta} - \theta$ — константа, которую можно вынести из-под знака математического ожидания.
- Остаётся $\mathbb{E}[\hat{\theta} - \mathbb{E}\hat{\theta}] = \mathbb{E}\hat{\theta} - \mathbb{E}\hat{\theta} = 0$.
Транспонирование константы — это тоже константа (транспонированная), не важно, строчка или вектор.
Слагаемое 2 — это уже константа, поэтому $\mathbb{E}$ снимается. Оно равно квадрату нормы смещения:
$$\|\text{bias}(\hat{\theta})\|^2 = \|\mathbb{E}\hat{\theta} - \theta\|^2$$Слагаемое 1 — расписав покомпонентно:
$$\sum_{i=1}^{d} \mathbb{E}\left[(\hat{\theta}_i - \mathbb{E}\hat{\theta}_i)^2\right] = \sum_{i=1}^{d} \text{Var}(\hat{\theta}_i) = \text{tr}(\Sigma_{\hat{\theta}})$$(на диагонали матрицы ковариации стоят как раз дисперсии).
Итоговая формула
$$\boxed{\text{MSE}(\hat{\theta}) = \text{tr}(\Sigma_{\hat{\theta}}) + \|\text{bias}(\hat{\theta})\|^2}$$Соображение №1: эффективность через след матрицы ковариации
Если оценка несмещённая, то $\text{bias} = 0$, и тогда:
$$\text{MSE}(\hat{\theta}) = \text{tr}(\Sigma_{\hat{\theta}})$$То есть для несмещённых оценок оптимизация MSE — это то же самое, что оптимизация следа матрицы ковариации. Это объясняет, почему в некоторых книгах эффективность определяется именно через минимизацию следа матрицы ковариации.
Спойлер: если оценка несмещённая (и выполняются некоторые условия, о которых будет сказано позже), то можно указать нетривиальную нижнюю границу для дисперсии оценки. Тривиальная граница — это, понятно, $0$.
Связь свойств: асимптотическая несмещённость + дисперсия → 0 ⟹ состоятельность
Для простоты рассмотрим случай размерности $d = 1$. Для общего $d$ рассуждения аналогичны.
Утверждение
Пусть:
- $\text{bias}(\hat{\theta}) \to 0$ (асимптотическая несмещённость),
- $\text{Var}(\hat{\theta}) \to 0$.
Тогда $\hat{\theta}$ — состоятельная оценка.
Доказательство
Хотим оценить $P(|\hat{\theta} - \theta| > \varepsilon)$.
Запишем цепочку неравенств. Сначала “плюс-минус” $\mathbb{E}\hat{\theta}$:
$$\varepsilon < |\hat{\theta} - \theta| = |(\hat{\theta} - \mathbb{E}\hat{\theta}) + (\mathbb{E}\hat{\theta} - \theta)|$$По неравенству треугольника:
$$|\hat{\theta} - \theta| \leq |\hat{\theta} - \mathbb{E}\hat{\theta}| + |\mathbb{E}\hat{\theta} - \theta|$$Второе слагаемое — это смещение, которое стремится к нулю. Поэтому, начиная с некоторого $n$, оно становится меньше $\varepsilon/2$:
$$\varepsilon < |\hat{\theta} - \mathbb{E}\hat{\theta}| + \frac{\varepsilon}{2}$$Откуда:
$$|\hat{\theta} - \mathbb{E}\hat{\theta}| > \frac{\varepsilon}{2}$$Если из $A$ следует $B$, то $P(A) \leq P(B)$. Значит:
$$P(|\hat{\theta} - \theta| > \varepsilon) \leq P\left(|\hat{\theta} - \mathbb{E}\hat{\theta}| > \frac{\varepsilon}{2}\right)$$Применяем неравенство Чебышёва:
$$P\left(|\hat{\theta} - \mathbb{E}\hat{\theta}| > \frac{\varepsilon}{2}\right) \leq \frac{4 \, \text{Var}(\hat{\theta})}{\varepsilon^2} \xrightarrow{n \to \infty} 0$$Значит, $\hat{\theta} \xrightarrow{P} \theta$, что и требовалось показать. ∎
Связь свойств: асимптотическая нормальность ⟹ состоятельность
Утверждение
Если $\hat{\theta}$ — асимптотически нормальная оценка, то она состоятельна.
Формальное доказательство
По определению асимптотической нормальности:
$$\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} \mathcal{N}(0, \sigma^2)$$Распишем вероятность:
$$P(|\hat{\theta} - \theta| < \varepsilon) = P(|\sqrt{n}(\hat{\theta} - \theta)| < \varepsilon\sqrt{n})$$В силу асимптотической нормальности:
$$P(|\sqrt{n}(\hat{\theta} - \theta)| < \varepsilon\sqrt{n}) \to F_{\mathcal{N}(0,\sigma^2)}(\varepsilon\sqrt{n}) - F_{\mathcal{N}(0,\sigma^2)}(-\varepsilon\sqrt{n})$$При $n \to \infty$:
- $F_{\mathcal{N}(0,\sigma^2)}(+\infty) = 1$
- $F_{\mathcal{N}(0,\sigma^2)}(-\infty) = 0$
Значит, выражение стремится к $1 - 0 = 1$. То есть оценка действительно состоятельна. ∎
Неформально про асимптотическую несмещённость
Из
$$\sqrt{n}(\hat{\theta} - \theta) \approx \mathcal{N}(0, \sigma^2)$$неформально получаем:
$$\hat{\theta} - \theta \approx \mathcal{N}\left(0, \frac{\sigma^2}{n}\right)$$При $n \to \infty$ это распределение “сжимается” в точку $0$. Это неформальное рассуждение.
⚠️ Важное замечание: обратное неверно! Из состоятельности не следует даже асимптотическая несмещённость. Существует экзотический контрпример (его рассмотрим в следующий раз).
Метод моментов
Это первый из методов точечного оценивания параметров.
Постановка
Пусть имеется модель простейшей выборки $X_1, \ldots, X_n$, теоретическая функция распределения параметризуется параметром $\theta = (\theta_1, \ldots, \theta_d)$ — $d$-мерный параметр.
Алгоритм метода моментов
Шаг 1. Вводим функции $g_1, \ldots, g_d$ такие, что существуют математические ожидания:
$$\mathbb{E}[g_1(X_1)], \quad \mathbb{E}[g_2(X_1)], \quad \ldots, \quad \mathbb{E}[g_d(X_1)]$$Шаг 2. Поскольку распределение зависит от $\theta$, эти моментные характеристики тоже зависят от $\theta$:
$$\mathbb{E}[g_k(X_1)] = m_k(\theta_1, \ldots, \theta_d), \quad k = 1, \ldots, d$$Шаг 3. Переходим к эмпирическим аналогам. Заменяем теоретические математические ожидания выборочными средними:
$$\overline{g_k(X)} = \frac{1}{n} \sum_{i=1}^{n} g_k(X_i)$$Шаг 4. Получаем систему уравнений на оценки $\hat{\theta}_1, \ldots, \hat{\theta}_d$:
$$\begin{cases} \overline{g_1(X)} = m_1(\hat{\theta}_1, \ldots, \hat{\theta}_d) \\ \overline{g_2(X)} = m_2(\hat{\theta}_1, \ldots, \hat{\theta}_d) \\ \vdots \\ \overline{g_d(X)} = m_d(\hat{\theta}_1, \ldots, \hat{\theta}_d) \end{cases}$$Это система $d$ уравнений на $d$ неизвестных.
Шаг 5. Предположим, что существует и притом единственное решение. Тогда:
$$\hat{\theta}_k = \alpha_k\left(\overline{g_1(X)}, \ldots, \overline{g_d(X)}\right), \quad k = 1, \ldots, d$$Это решение и называется оценкой метода моментов.
Почему “метод моментов”
По умолчанию в качестве функций $g_k$ берут степенные:
$$g_k(x) = x^k$$Тогда $\mathbb{E}[g_k(X)] = \mathbb{E}[X^k]$ — это $k$-й момент. Отсюда и название.
Свойства оценок метода моментов
1. Состоятельность. Если:
- $\overline{g_k(X)}$ — состоятельные оценки $\mathbb{E}[g_k(X)]$,
- функции $\alpha_k$ непрерывны,
то оценка метода моментов состоятельна.
Это обычно выполняется.
2. Асимптотическая нормальность. Если:
- $\overline{g_k(X)}$ — асимптотически нормальные оценки,
- функции $\alpha_k$ гладкие,
то имеет место асимптотическая нормальность по дельта-методу.
3. Смещённость. В общем случае про смещённость и несмещённость сказать ничего нельзя.
Плюсы и минусы метода
Плюсы:
- Идея метода достаточно проста.
Минусы:
- Часто получаются не очень эффективные оценки (это будет видно даже на учебных примерах).
Примеры применения метода моментов
Пример 1. Распределение Бернулли
Робот много раз кидает монетку, на входе последовательность нулей и единичек. Оценить вероятность $p$ выпадения единички.
Берём дефолтную функцию $g(x) = x$. Математическое ожидание распределения Бернулли:
$$\mathbb{E}[X] = p$$Переходим к эмпирическому аналогу:
$$\overline{X} = \hat{p}$$Здесь всё разрешилось тривиально. Получили:
$$\boxed{\hat{p} = \overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i}$$То есть оценка вероятности успеха — это просто выборочное среднее (количество успехов / общее количество экспериментов).
Свойства: про выборочное среднее знаем, что это состоятельная, несмещённая, асимптотически нормальная оценка. Забегая вперёд — даже эффективная.
Пример 2. Распределение Пуассона
Вариант 1: $g(x) = x$
Математическое ожидание распределения Пуассона:
$$\mathbb{E}[X] = \lambda$$Эмпирический аналог:
$$\hat{\lambda}_1 = \overline{X}$$Вариант 2: $g(x) = x^2$
Используем то, что:
$$\mathbb{E}[X^2] = \text{Var}(X) + (\mathbb{E}[X])^2 = \lambda + \lambda^2$$Эмпирический аналог:
$$\hat{\lambda}^2 + \hat{\lambda} - \overline{X^2} = 0$$Это квадратное уравнение. Решаем:
$$\hat{\lambda} = \frac{-1 \pm \sqrt{1 + 4\overline{X^2}}}{2}$$Формально два корня, но по смыслу задачи $\lambda > 0$, поэтому выбираем положительный корень (с плюсом):
$$\boxed{\hat{\lambda}_2 = \frac{-1 + \sqrt{1 + 4\overline{X^2}}}{2}}$$Свойства: получилась гладкая (на области определения) функция от второго выборочного момента. Поэтому оценка состоятельная и асимптотически нормальная. Про смещённость конкретно сказать сложно.
Какая оценка лучше? Та, у которой меньше MSE. Забегая вперёд — первая оценка $\hat{\lambda}_1 = \overline{X}$ будет эффективной.
Это хорошо иллюстрирует минус метода: разные функции $g$ дают разные оценки, и не все они одинаково хороши.
Пример 3. Нормальное распределение $\mathcal{N}(\mu, b)$
Здесь $b$ — дисперсия. Два неизвестных параметра, поэтому нужны два уравнения.
Берём:
- $g_1(x) = x$,
- $g_2(x) = x^2$.
Теоретические соотношения:
$$\mathbb{E}[X] = \mu$$$$\mathbb{E}[X^2] = \text{Var}(X) + (\mathbb{E}[X])^2 = b + \mu^2$$Эмпирические аналоги:
$$\overline{X} = \hat{\mu}$$$$\overline{X^2} = \hat{b} + \hat{\mu}^2$$Отсюда:
$$\boxed{\hat{\mu} = \overline{X}, \qquad \hat{b} = \overline{X^2} - (\overline{X})^2}$$А $\overline{X^2} - (\overline{X})^2$ — это выборочная дисперсия $S^{*2}$.
Свойства:
- $\hat{\mu} = \overline{X}$ — несмещённая оценка.
- $\hat{b} = S^{*2}$ — смещённая оценка (но асимптотически несмещённая).
- Обе оценки состоятельные и асимптотически нормальные.
Это иллюстрирует, что в общем случае про смещённость метода моментов ничего конкретного сказать нельзя — здесь одна оценка несмещённая, другая смещённая.
Пример 4. Равномерное распределение $U[a, b]$
Берём те же функции $g_1(x) = x$, $g_2(x) = x^2$.
Математическое ожидание равномерного закона:
$$\mathbb{E}[X] = \frac{a + b}{2}$$Дисперсия:
$$\text{Var}(X) = \frac{(b - a)^2}{12}$$Тогда:
$$\mathbb{E}[X^2] = \frac{(b - a)^2}{12} + \left(\frac{a + b}{2}\right)^2$$Эмпирические соотношения:
$$\overline{X} = \frac{\hat{a} + \hat{b}}{2}$$$$\overline{X^2} = \frac{(\hat{b} - \hat{a})^2}{12} + \left(\frac{\hat{a} + \hat{b}}{2}\right)^2$$Из второго уравнения, подставляя первое:
$$\frac{(\hat{b} - \hat{a})^2}{12} = \overline{X^2} - (\overline{X})^2 = S^{*2}$$Снова получили выборочную дисперсию! Откуда:
$$(\hat{b} - \hat{a})^2 = 12 \cdot S^{*2}$$$$\hat{b} - \hat{a} = \pm 2\sqrt{3} \cdot S^*$$где $S^* = \sqrt{S^{*2}}$.
Выбираем знак “+”, так как $b - a > 0$.
Имеем систему:
$$\begin{cases} \hat{a} + \hat{b} = 2\overline{X} \\ \hat{b} - \hat{a} = 2\sqrt{3} \cdot S^* \end{cases}$$Решая (сложение и вычитание):
$$\boxed{\hat{a} = \overline{X} - \sqrt{3} \cdot S^*, \qquad \hat{b} = \overline{X} + \sqrt{3} \cdot S^*}$$Пример 5 (демонстрационный). Равномерное распределение $U[-\theta, \theta]$
Здесь интересный случай: функция $g(x) = x$ не подходит, потому что:
$$\mathbb{E}[X] = 0$$— математическое ожидание не зависит от $\theta$, поэтому уравнение бессмысленно.
Берём $g(x) = x^2$:
$$\mathbb{E}[X^2] = \frac{\theta^2}{3}$$Эмпирический аналог даёт явное выражение для оценки $\hat{\theta}$.
На демонстрации в Google Colab было показано: при объёме выборки 10 разброс оценки большой, а при объёме 10000 разброс существенно меньше, и распределение оценки концентрируется около реального параметра. Это иллюстрирует состоятельность и асимптотическую нормальность.
Что дальше
В следующий раз:
- Будет приведён экзотический контрпример, показывающий, что из состоятельности не следует даже асимптотическая несмещённость.
- Перейдём к следующему методу — методу максимального правдоподобия (maximum likelihood).