Карточки Anki
Скачайте колоды для интервального повторения
Лекция 2: Описательная статистика. Выборочные моменты, квантили и асимптотические свойства
Повторение материала прошлой лекции
Модель простейшей выборки
С математической точки зрения простейшая выборка — это набор случайных величин, которые:
- независимы
- одинаково распределены (i.i.d.)
Распределение этих величин описывается теоретической функцией распределения $F(x)$.
Эмпирическая функция распределения
В прошлый раз научились оценивать $F(x)$ с помощью эмпирической функции распределения:
$$\hat{F}_n(x) = \frac{1}{n}\sum_{i=1}^{n} \mathbb{I}\{X_i \leq x\}$$Словами: это доля элементов выборки, которые не превосходят заданного аргумента $x$.
Свойства эмпирической функции распределения
Состоятельность: при $n \to \infty$ эмпирическая функция $\hat{F}_n(x)$ всё лучше оценивает теоретическую — $\hat{F}_n(x) \xrightarrow{P} F(x)$ по вероятности (в силу закона больших чисел).
- Состоятельность означает: оценка стремится к оцениваемому параметру.
Несмещённость: $\mathbb{E}[\hat{F}_n(x)] = F(x)$ — в среднем эмпирическая функция распределения равна теоретической.
- С практической точки зрения это означает отсутствие систематической ошибки.
Асимптотическая нормальность (по ЦПТ):
$$\sqrt{n} \cdot \frac{\hat{F}_n(x) - F(x)}{\sqrt{F(x)(1 - F(x))}} \xrightarrow{d} \mathcal{N}(0, 1)$$
Также упоминались:
- Теорема Гливенко–Кантелли
- Теорема Колмогорова–Смирнова
- Гистограмма как графическая оценка теоретической плотности — при увеличении объёма выборки в силу ЗБЧ её график становится всё более похожим на график реальной плотности.
Выборочные начальные моменты
Обозначения:
- $\alpha_k = \mathbb{E}[X_1^k]$ — теоретический $k$-й начальный момент
- $\hat{\alpha}_k = \overline{X^k} = \frac{1}{n}\sum_{j=1}^{n} X_j^k$ — выборочный $k$-й начальный момент
Свойства: $\hat{\alpha}_k$ является:
- состоятельной оценкой $\alpha_k$
- несмещённой
- асимптотически нормальной
Центральные выборочные моменты
Определения
Теоретический центральный $k$-й момент:
$$\beta_k = \mathbb{E}[(X_1 - \mathbb{E}X_1)^k]$$Выборочный центральный $k$-й момент:
$$\hat{\beta}_k = \overline{(X - \overline{X})^k} = \frac{1}{n}\sum_{j=1}^{n}(X_j - \overline{X})^k$$В частности, для $k=2$:
$$\hat{\beta}_2 = \frac{1}{n}\sum_{j=1}^{n}(X_j - \overline{X})^2$$Ключевое наблюдение
Выборочный момент — это не просто формулка, а момент относительно эмпирического распределения. Поэтому свойства и соотношения, справедливые для теоретических моментов, справедливы и для выборочных.
Например, аналог формулы дисперсии:
$$\hat{\beta}_2 = \overline{X^2} - \overline{X}^2$$(среднее от квадрата минус квадрат среднего)
Состоятельность центральных выборочных моментов
Идея: произвольный $k$-й выборочный центральный момент — это некоторый полином от выборочных начальных моментов $\hat{\alpha}_1, \hat{\alpha}_2, \ldots, \hat{\alpha}_k$.
Поскольку:
- начальные выборочные моменты сходятся к теоретическим по вероятности,
- полином — непрерывная функция,
по теореме о сходимости непрерывной функции от сходящихся величин:
$$\hat{\beta}_k \xrightarrow{P} \beta_k$$Таким образом, состоятельность есть.
Несмещённость — есть проблемы (на примере дисперсии)
Введём обозначение выборочной дисперсии со звёздочкой:
$$S^{*2} = \hat{\beta}_2 = \overline{X^2} - \overline{X}^2$$Вычислим математическое ожидание:
$$\mathbb{E}[S^{*2}] = \mathbb{E}[\overline{X^2}] - \mathbb{E}[\overline{X}^2]$$- Первое слагаемое: $\mathbb{E}[\overline{X^2}] = \alpha_2$ (поскольку начальный выборочный момент несмещён).
- Второе слагаемое (используем $\mathbb{E}[Y^2] = \mathbb{D}Y + (\mathbb{E}Y)^2$): $$\mathbb{E}[\overline{X}^2] = \mathbb{D}[\overline{X}] + (\mathbb{E}\overline{X})^2 = \frac{\beta_2}{n} + \alpha_1^2$$
Подставляя:
$$\mathbb{E}[S^{*2}] = \alpha_2 - \frac{\beta_2}{n} - \alpha_1^2 = \beta_2 - \frac{\beta_2}{n} = \frac{n-1}{n}\beta_2$$Вывод: $\mathbb{E}[S^{*2}] \neq \beta_2$ — выборочная дисперсия является смещённой.
Исправленная (несмещённая) выборочная дисперсия
Чтобы убрать смещение, вводят:
$$S^2 = \frac{n}{n-1} S^{*2} = \frac{1}{n-1}\sum_{j=1}^{n}(X_j - \overline{X})^2$$Эта величина называется исправленной выборочной дисперсией. Её свойство:
$$\mathbb{E}[S^2] = \beta_2$$Таким образом, выборочных дисперсий две штуки: $S^{*2}$ и $S^2$.
Выборочное стандартное отклонение: $S = \sqrt{S^2}$.
Промежуточный итог
У центральных выборочных моментов:
- состоятельность ✓
- несмещённость нарушается (требуется поправка)
Дельта-метод
Зачем нужен
Для асимптотической нормальности начальных выборочных моментов и эмпирической функции распределения мы напрямую применяли ЦПТ. Но для центральных моментов это не работает: слагаемые вида $(X_j - \overline{X})^k$ не являются независимыми, потому что везде присутствует $\overline{X}$. Поэтому ЦПТ напрямую не применима — нужен дельта-метод.
Одномерная версия дельта-метода
Постановка. Пусть случайные величины $\xi_n$ удовлетворяют:
$$\sqrt{n}(\xi_n - a) \xrightarrow{d} \mathcal{N}(0, \sigma^2)$$Пусть $\varphi: \mathbb{R} \to \mathbb{R}$ — достаточно гладкая функция (столько раз дифференцируемая, сколько потребуется).
Вопрос: к чему сходится $\sqrt{n}(\varphi(\xi_n) - \varphi(a))$?
Обоснование одномерного дельта-метода
Шаг 0: $\xi_n - a \xrightarrow{P} 0$.
Действительно, рассмотрим:
$$\mathbb{P}(|\xi_n - a| < \varepsilon) = \mathbb{P}(\sqrt{n}|\xi_n - a| < \sqrt{n}\varepsilon)$$Поскольку $\sqrt{n}(\xi_n - a) \xrightarrow{d} \mathcal{N}(0,\sigma^2)$, имеем:
$$\mathbb{P}(\sqrt{n}|\xi_n - a| < \sqrt{n}\varepsilon) \to \Phi_{0,\sigma^2}(+\infty) - \Phi_{0,\sigma^2}(-\infty) = 1 - 0 = 1$$Значит, $\xi_n \xrightarrow{P} a$.
Шаг 1. Раскладываем по формуле Тейлора с остатком в форме Лагранжа:
$$\varphi(\xi_n) - \varphi(a) = \varphi'(a)(\xi_n - a) + \frac{\varphi''(\tilde{\xi}_n)}{2}(\xi_n - a)^2$$где $\tilde{\xi}_n$ — между $a$ и $\xi_n$.
Шаг 2. Домножим на $\sqrt{n}$:
$$\sqrt{n}(\varphi(\xi_n) - \varphi(a)) = \varphi'(a) \cdot \sqrt{n}(\xi_n - a) + \frac{\varphi''(\tilde{\xi}_n)}{2}\sqrt{n}(\xi_n - a)^2$$- Первое слагаемое: $\varphi'(a) \cdot \sqrt{n}(\xi_n-a) \xrightarrow{d} \mathcal{N}(0, (\varphi'(a))^2 \sigma^2)$
- Второе слагаемое: $\sqrt{n}(\xi_n - a)^2 = \underbrace{\sqrt{n}(\xi_n - a)}_{\to \mathcal{N}(0,\sigma^2)} \cdot \underbrace{(\xi_n - a)}_{\xrightarrow{P} 0} \xrightarrow{P} 0$, причём $\tilde{\xi}_n \xrightarrow{P} a$, $\varphi''(\tilde{\xi}_n)$ — ограничено.
В итоге всё второе слагаемое сходится к нулю по вероятности.
Результат (одномерный дельта-метод)
$$\boxed{\sqrt{n}(\varphi(\xi_n) - \varphi(a)) \xrightarrow{d} \mathcal{N}(0,\, (\varphi'(a))^2 \sigma^2)}$$Многомерная версия дельта-метода
Постановка: $\xi_n$ — теперь случайный вектор, и
$$\sqrt{n}(\xi_n - a) \xrightarrow{d} \mathcal{N}(0, \Sigma)$$где $\Sigma$ — матрица ковариаций. Пусть $\varphi: \mathbb{R}^d \to \mathbb{R}$ — гладкая (непрерывно дифференцируемая) функция $d$ переменных.
Утверждение:
$$\sqrt{n}(\varphi(\xi_n) - \varphi(a)) \xrightarrow{d} \mathcal{N}(0,\, \nabla\varphi(a)^\top \Sigma\, \nabla\varphi(a))$$где $\nabla\varphi(a)$ — градиент (строчка из частных производных). Размерность согласуется: строчка × матрица × столбец = число.
Замечание: матрица ковариаций — это аналог дисперсии в многомерном случае.
Многомерная ЦПТ (для удобства использования)
Пусть $X_1, \ldots, X_n$ — независимые одинаково распределённые случайные векторы, $\mathbb{E}X_1 = a$, $\mathbb{D}X_1 = \Sigma$. Пусть $S_n = \sum_{k=1}^n X_k$. Тогда:
$$\frac{S_n - na}{\sqrt{n}} \xrightarrow{d} \mathcal{N}(0, \Sigma)$$В удобной для статистики форме:
$$\sqrt{n}\left(\frac{S_n}{n} - a\right) \xrightarrow{d} \mathcal{N}(0, \Sigma)$$Теорема об асимптотической нормальности функций от начальных выборочных моментов
Постановка
Пусть $X_1, \ldots, X_n$ — простейшая выборка (одномерные величины). Обозначим:
$$a = (\mathbb{E}X_1,\, \mathbb{E}X_1^2,\, \ldots,\, \mathbb{E}X_1^k)$$— вектор математических ожиданий случайного вектора $(X_1, X_1^2, \ldots, X_1^k)$.
$$\Sigma = \mathbb{D}(X_1, X_1^2, \ldots, X_1^k)$$— матрица ковариаций этого случайного вектора.
$$\hat{a} = (\overline{X},\, \overline{X^2},\, \ldots,\, \overline{X^k})$$— выборочный аналог $a$ (это в точности $S_n/n$).
К $\hat{a}$ применима многомерная ЦПТ.
Пусть $\varphi: \mathbb{R}^k \to \mathbb{R}$ — гладкая функция.
Утверждение 1
$$\sqrt{n}(\varphi(\hat{a}) - \varphi(a)) \xrightarrow{d} \mathcal{N}\bigl(0,\, \nabla\varphi(a)^\top \Sigma\, \nabla\varphi(a)\bigr)$$Это напрямую следует из дельта-метода.
Утверждение 2 (важно для практики)
Положим:
$$\sigma^2 = \nabla\varphi(a)^\top \Sigma\, \nabla\varphi(a)$$Эта величина — функция от $\mathbb{E}X_1, \mathbb{E}X_1^2, \ldots, \mathbb{E}X_1^{2k}$ (поскольку на диагонали матрицы $\Sigma$ стоит $\mathbb{D}X_1^k = \mathbb{E}X_1^{2k} - (\mathbb{E}X_1^k)^2$).
Будем считать, что $\sigma^2$ — непрерывная функция от своих аргументов. Тогда:
$$\frac{\sqrt{n}(\varphi(\hat{a}) - \varphi(a))}{\sigma(\hat{a}_{2k})} \xrightarrow{d} \mathcal{N}(0, 1)$$где в знаменателе вместо теоретических моментов подставлены выборочные аналоги. Это работает, потому что знаменатель — непрерывная функция, и подстановка выборочных моментов сохраняет сходимость.
Асимптотическая нормальность выборочной дисперсии
Применение теоремы
Выборочная дисперсия:
$$S^{*2} = \overline{X^2} - \overline{X}^2 = \varphi(\overline{X}, \overline{X^2})$$где $\varphi(x_1, x_2) = x_2 - x_1^2$.
Градиент:
$$\nabla\varphi(x_1, x_2) = (-2x_1,\, 1)$$В точке $a = (\mathbb{E}X_1, \mathbb{E}X_1^2)$:
$$\nabla\varphi(a) = (-2\mathbb{E}X_1,\, 1)$$Применяем дельта-метод
$$\sqrt{n}(S^{*2} - \mathbb{D}X_1) \xrightarrow{d} \mathcal{N}(0,\, \sigma^2)$$где
$$\sigma^2 = (-2\mathbb{E}X_1,\, 1) \cdot \begin{pmatrix} \mathbb{D}X_1 & \mathrm{cov}(X_1, X_1^2) \\ \mathrm{cov}(X_1, X_1^2) & \mathbb{D}X_1^2 \end{pmatrix} \cdot \begin{pmatrix} -2\mathbb{E}X_1 \\ 1 \end{pmatrix}$$Упрощение (упражнение)
После раскрытия:
$$\sigma^2 = \mathbb{E}(X - \mathbb{E}X)^4 - (\mathbb{D}X)^2 = \mu_4 - \beta_2^2$$где $\mu_4$ — четвёртый центральный момент.
Стандартизованный результат
$$\frac{\sqrt{n}(S^{*2} - \mathbb{D}X)}{\sqrt{\hat{\beta}_4 - (S^{*2})^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$где $\hat{\beta}_4$ — четвёртый выборочный центральный момент.
Вывод: выборочная дисперсия — асимптотически нормальная оценка.
Парные выборки. Выборочная ковариация и корреляция
Теоретические понятия (повторение)
Ковариация:
$$\mathrm{cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}X)(Y - \mathbb{E}Y)] = \mathbb{E}[XY] - \mathbb{E}X \cdot \mathbb{E}Y$$Коэффициент корреляции:
$$\rho(X, Y) = \frac{\mathrm{cov}(X, Y)}{\sqrt{\mathbb{D}X \cdot \mathbb{D}Y}}$$Парная выборка
В статистике часто возникает ситуация парной выборки — датафрейм длины $n$ с двумя атрибутами:
$$(X_1, Y_1), (X_2, Y_2), \ldots, (X_n, Y_n)$$Выборочная ковариация
$$\widehat{\mathrm{cov}}(X, Y) = \overline{(X - \overline{X})(Y - \overline{Y})} = \overline{XY} - \overline{X} \cdot \overline{Y}$$Выборочный коэффициент корреляции (Пирсона)
$$\hat{\rho}(X, Y) = \frac{\overline{(X - \overline{X})(Y - \overline{Y})}}{\sqrt{S^{*2}_X \cdot S^{*2}_Y}}$$Это нормированная величина, принимающая значения от $-1$ до $1$. Используется для оценки меры линейной зависимости.
Порядковые статистики и выборочные квантили
Вариационный ряд
Пусть $X_1, \ldots, X_n$ — исходная выборка. Сортируем по возрастанию и получаем:
$$X_{(1)} \leq X_{(2)} \leq \ldots \leq X_{(n)}$$Это и есть вариационный ряд. Элементы $X_{(k)}$ называются порядковыми статистиками.
Замечание: некоторые авторы под вариационным рядом понимают статистический ряд — где сначала берётся unique, затем для каждого уникального значения считается количество вхождений $\nu_i$:
после чего массив сортируется по $x$. Здесь $\nu_i$ — случайные величины (функции от выборки).
Теоретический квантиль (повторение)
Квантиль порядка $\alpha$ $u_\alpha$ — это число, такое что:
$$\mathbb{P}(X \geq u_\alpha) \geq 1 - \alpha \quad \text{и} \quad \mathbb{P}(X \leq u_\alpha) \geq \alpha$$В непрерывном случае квантиль определяется однозначно:
$$F(u_\alpha) = \alpha$$Геометрическая интерпретация: квантиль $u_\alpha$ делит вероятностную массу под графиком плотности на части $\alpha$ (слева) и $1 - \alpha$ (справа).
Выборочные квантили
Обозначение: $\hat{u}_\alpha$.
Граничные случаи:
- $\hat{u}_0 = X_{(1)} = \min X_i$ — минимум
- $\hat{u}_1 = X_{(n)} = \max X_i$ — максимум
Содержательный случай $\alpha \in (0, 1)$. Существует номер $k \in \{1, \ldots, n\}$, такой что:
$$\frac{k-1}{n} < \alpha \leq \frac{k}{n}$$Тогда:
$$\hat{u}_\alpha = X_{(k)} = X_{(\lceil n\alpha \rceil)}$$(элемент вариационного ряда с номером $\lceil n\alpha \rceil$).
Связанные термины
Квартили (от лат. quartus — четвёртый): делят выборку на четыре равные (в смысле эмпирической вероятностной массы) части.
- Нулевой квартиль = $\min$
- Первый квартиль (нижний) = $\hat{u}_{1/4}$
- Второй квартиль = медиана = $\hat{u}_{1/2}$
- Третий квартиль (верхний) = $\hat{u}_{3/4}$
- Четвёртый квартиль = $\max$
Перцентили: например, 74-й перцентиль = $\hat{u}_{0.74}$.
Дециль: разбиение на десять частей.
Выборочная медиана
Часто определяется специальным образом в зависимости от чётности $n$:
- Если $n = 2m+1$ (нечётно): $\widehat{\mathrm{med}} = X_{(m+1)}$ — центральный элемент.
- Если $n = 2m$ (чётно): $\widehat{\mathrm{med}} = \dfrac{X_{(m)} + X_{(m+1)}}{2}$ — среднее арифметическое двух центральных элементов вариационного ряда.
При программировании необходимо смотреть, какое именно определение используется в конкретной библиотеке.
Средства визуализации выборки
Box plot («ящик с усами»)
Также неформально: «японские свечи» (хотя это другой объект на самом деле).
Структура (вертикальная ориентация):
- Прямоугольник (ящик):
- Нижняя граница = первый (нижний) квартиль $\hat{u}_{1/4}$
- Средняя линия = медиана $\hat{u}_{1/2}$
- Верхняя граница = третий (верхний) квартиль $\hat{u}_{3/4}$
- Межквартильный размах $\mathrm{IQR} = \hat{u}_{3/4} - \hat{u}_{1/4}$ — аналог стандартного отклонения.
- «Усики»: длиной обычно $1.5 \cdot \mathrm{IQR}$ от границ ящика.
- Точки за пределами «усов» отмечаются отдельно и трактуются как выбросы.
Внутри ящика сосредоточено 50% эмпирической вероятностной массы.
Применение: на одной картинке можно нарисовать несколько box plot для разных категорий — это позволяет визуально сравнивать распределения.
Violin plot («скрипка»)
Неформально — это box plot + гистограмма на одной картинке. Точнее — аппроксимация плотности с двух сторон (KDE с очень узкими bin’ами), а внутри что-то вроде box plot.
Асимптотические результаты для порядковых статистик
Теорема об асимптотике среднего члена вариационного ряда
Условия: $X_1, \ldots, X_n$ — выборка из непрерывного закона с теоретической плотностью $f$. Пусть $p \in (0, 1)$ — фиксированное число.
Утверждение:
$$\sqrt{n} \cdot f(u_p) \cdot \frac{X_{(\lceil np \rceil)} - u_p}{\sqrt{p(1-p)}} \xrightarrow{d} \mathcal{N}(0, 1)$$при $n \to \infty$.
Замечания:
- $u_p$ — теоретический квантиль порядка $p$.
- Выборочный квантиль порядка $p$ — асимптотически нормальная оценка теоретического квантиля.
- Структура напоминает дисперсию распределения Бернулли $p(1-p)$.
- При $p = 1/2$ получаем результат для выборочной медианы.
- На русском языке эта теорема плохо гуглится — на английском лучше.
Теорема об асимптотике крайних членов вариационного ряда (более экзотическая)
Условия: те же — выборка из непрерывного закона.
Утверждение: Для фиксированных $\ell, s$:
- $n \cdot F(X_{(\ell)})$ сходится по распределению к $\Gamma$-распределению с параметрами $(\ell, 1)$.
- $n \cdot (1 - F(X_{(n - s + 1)}))$ сходится по распределению к $\Gamma$-распределению с параметрами $(s, 1)$.
При этом эти предельные распределения независимы.
Заключительные замечания
Что обсудили в курсе
- Описательные статистики: эмпирическая функция распределения, гистограмма, выборочные характеристики.
- Хорошие свойства выборочных характеристик: состоятельность, несмещённость (для исправленных версий), асимптотическая нормальность.
Важная оговорка: модель простейшей выборки
Все эти результаты получены в рамках модели простейшей выборки (i.i.d.), а это сильное предположение.
Проблема робастности
Если ослабить предположения модели (например, отказаться от полной независимости/одинаковой распределённости, допустить выбросы), оценки могут вести себя по-разному:
- Выборочное среднее — неробастная оценка: при наличии выбросов оно сильно искажается.
- Медиана — более устойчивая оценка к выбросам.
Это нетривиальная тема, на эту тему написано немалое количество нетонких книг. Конкретные подходы к борьбе с нарушением условий зависят от конкретной задачи и предметной области.
Где почитать про распределение порядковых статистик
Ивченко, Медведев — «Введение в математическую статистику» (упоминалась в списке литературы курса).