Лекция 02

#математическая статистика #4 семестр

11.02.2026 • Обновлено: 11.02.2026

notakeith

Карточки Anki

Скачайте колоды для интервального повторения

Лекция 2: Описательная статистика. Выборочные моменты, квантили и асимптотические свойства

Повторение материала прошлой лекции

Модель простейшей выборки

С математической точки зрения простейшая выборка — это набор случайных величин, которые:

независимы
одинаково распределены (i.i.d.)

Распределение этих величин описывается теоретической функцией распределения $F(x)$.

Эмпирическая функция распределения

В прошлый раз научились оценивать $F(x)$ с помощью эмпирической функции распределения:

$$\hat{F}_n(x) = \frac{1}{n}\sum_{i=1}^{n} \mathbb{I}\{X_i \leq x\}$$

Словами: это доля элементов выборки, которые не превосходят заданного аргумента $x$.

Свойства эмпирической функции распределения

Состоятельность: при $n \to \infty$ эмпирическая функция $\hat{F}_n(x)$ всё лучше оценивает теоретическую — $\hat{F}_n(x) \xrightarrow{P} F(x)$ по вероятности (в силу закона больших чисел).
- Состоятельность означает: оценка стремится к оцениваемому параметру.
Несмещённость: $\mathbb{E}[\hat{F}_n(x)] = F(x)$ — в среднем эмпирическая функция распределения равна теоретической.
- С практической точки зрения это означает отсутствие систематической ошибки.
Асимптотическая нормальность (по ЦПТ):
$$\sqrt{n} \cdot \frac{\hat{F}_n(x) - F(x)}{\sqrt{F(x)(1 - F(x))}} \xrightarrow{d} \mathcal{N}(0, 1)$$

Также упоминались:

Теорема Гливенко–Кантелли
Теорема Колмогорова–Смирнова
Гистограмма как графическая оценка теоретической плотности — при увеличении объёма выборки в силу ЗБЧ её график становится всё более похожим на график реальной плотности.

Выборочные начальные моменты

Обозначения:

$\alpha_k = \mathbb{E}[X_1^k]$ — теоретический $k$-й начальный момент
$\hat{\alpha}_k = \overline{X^k} = \frac{1}{n}\sum_{j=1}^{n} X_j^k$ — выборочный $k$-й начальный момент

Свойства: $\hat{\alpha}_k$ является:

состоятельной оценкой $\alpha_k$
несмещённой
асимптотически нормальной

Центральные выборочные моменты

Определения

Теоретический центральный $k$-й момент:

$$\beta_k = \mathbb{E}[(X_1 - \mathbb{E}X_1)^k]$$

Выборочный центральный $k$-й момент:

$$\hat{\beta}_k = \overline{(X - \overline{X})^k} = \frac{1}{n}\sum_{j=1}^{n}(X_j - \overline{X})^k$$

В частности, для $k=2$:

$$\hat{\beta}_2 = \frac{1}{n}\sum_{j=1}^{n}(X_j - \overline{X})^2$$

Ключевое наблюдение

Выборочный момент — это не просто формулка, а момент относительно эмпирического распределения. Поэтому свойства и соотношения, справедливые для теоретических моментов, справедливы и для выборочных.

Например, аналог формулы дисперсии:

$$\hat{\beta}_2 = \overline{X^2} - \overline{X}^2$$

(среднее от квадрата минус квадрат среднего)

Состоятельность центральных выборочных моментов

Идея: произвольный $k$-й выборочный центральный момент — это некоторый полином от выборочных начальных моментов $\hat{\alpha}_1, \hat{\alpha}_2, \ldots, \hat{\alpha}_k$.

Поскольку:

начальные выборочные моменты сходятся к теоретическим по вероятности,
полином — непрерывная функция,

по теореме о сходимости непрерывной функции от сходящихся величин:

$$\hat{\beta}_k \xrightarrow{P} \beta_k$$

Таким образом, состоятельность есть.

Несмещённость — есть проблемы (на примере дисперсии)

Введём обозначение выборочной дисперсии со звёздочкой:

$$S^{*2} = \hat{\beta}_2 = \overline{X^2} - \overline{X}^2$$

Вычислим математическое ожидание:

$$\mathbb{E}[S^{*2}] = \mathbb{E}[\overline{X^2}] - \mathbb{E}[\overline{X}^2]$$

Первое слагаемое: $\mathbb{E}[\overline{X^2}] = \alpha_2$ (поскольку начальный выборочный момент несмещён).
Второе слагаемое (используем $\mathbb{E}[Y^2] = \mathbb{D}Y + (\mathbb{E}Y)^2$): $$\mathbb{E}[\overline{X}^2] = \mathbb{D}[\overline{X}] + (\mathbb{E}\overline{X})^2 = \frac{\beta_2}{n} + \alpha_1^2$$

Подставляя:

$$\mathbb{E}[S^{*2}] = \alpha_2 - \frac{\beta_2}{n} - \alpha_1^2 = \beta_2 - \frac{\beta_2}{n} = \frac{n-1}{n}\beta_2$$

Вывод: $\mathbb{E}[S^{*2}] \neq \beta_2$ — выборочная дисперсия является смещённой.

Исправленная (несмещённая) выборочная дисперсия

Чтобы убрать смещение, вводят:

$$S^2 = \frac{n}{n-1} S^{*2} = \frac{1}{n-1}\sum_{j=1}^{n}(X_j - \overline{X})^2$$

Эта величина называется исправленной выборочной дисперсией. Её свойство:

$$\mathbb{E}[S^2] = \beta_2$$

Таким образом, выборочных дисперсий две штуки: $S^{*2}$ и $S^2$.

Выборочное стандартное отклонение: $S = \sqrt{S^2}$.

Промежуточный итог

У центральных выборочных моментов:

состоятельность ✓
несмещённость нарушается (требуется поправка)

Дельта-метод

Зачем нужен

Для асимптотической нормальности начальных выборочных моментов и эмпирической функции распределения мы напрямую применяли ЦПТ. Но для центральных моментов это не работает: слагаемые вида $(X_j - \overline{X})^k$ не являются независимыми, потому что везде присутствует $\overline{X}$. Поэтому ЦПТ напрямую не применима — нужен дельта-метод.

Одномерная версия дельта-метода

Постановка. Пусть случайные величины $\xi_n$ удовлетворяют:

$$\sqrt{n}(\xi_n - a) \xrightarrow{d} \mathcal{N}(0, \sigma^2)$$

Пусть $\varphi: \mathbb{R} \to \mathbb{R}$ — достаточно гладкая функция (столько раз дифференцируемая, сколько потребуется).

Вопрос: к чему сходится $\sqrt{n}(\varphi(\xi_n) - \varphi(a))$?

Обоснование одномерного дельта-метода

Шаг 0: $\xi_n - a \xrightarrow{P} 0$.

Действительно, рассмотрим:

$$\mathbb{P}(|\xi_n - a| < \varepsilon) = \mathbb{P}(\sqrt{n}|\xi_n - a| < \sqrt{n}\varepsilon)$$

Поскольку $\sqrt{n}(\xi_n - a) \xrightarrow{d} \mathcal{N}(0,\sigma^2)$, имеем:

$$\mathbb{P}(\sqrt{n}|\xi_n - a| < \sqrt{n}\varepsilon) \to \Phi_{0,\sigma^2}(+\infty) - \Phi_{0,\sigma^2}(-\infty) = 1 - 0 = 1$$

Значит, $\xi_n \xrightarrow{P} a$.

Шаг 1. Раскладываем по формуле Тейлора с остатком в форме Лагранжа:

$$\varphi(\xi_n) - \varphi(a) = \varphi'(a)(\xi_n - a) + \frac{\varphi''(\tilde{\xi}_n)}{2}(\xi_n - a)^2$$

где $\tilde{\xi}_n$ — между $a$ и $\xi_n$.

Шаг 2. Домножим на $\sqrt{n}$:

$$\sqrt{n}(\varphi(\xi_n) - \varphi(a)) = \varphi'(a) \cdot \sqrt{n}(\xi_n - a) + \frac{\varphi''(\tilde{\xi}_n)}{2}\sqrt{n}(\xi_n - a)^2$$

Первое слагаемое: $\varphi'(a) \cdot \sqrt{n}(\xi_n-a) \xrightarrow{d} \mathcal{N}(0, (\varphi'(a))^2 \sigma^2)$
Второе слагаемое: $\sqrt{n}(\xi_n - a)^2 = \underbrace{\sqrt{n}(\xi_n - a)}_{\to \mathcal{N}(0,\sigma^2)} \cdot \underbrace{(\xi_n - a)}_{\xrightarrow{P} 0} \xrightarrow{P} 0$, причём $\tilde{\xi}_n \xrightarrow{P} a$, $\varphi''(\tilde{\xi}_n)$ — ограничено.

В итоге всё второе слагаемое сходится к нулю по вероятности.

Результат (одномерный дельта-метод)

$$\boxed{\sqrt{n}(\varphi(\xi_n) - \varphi(a)) \xrightarrow{d} \mathcal{N}(0,\, (\varphi'(a))^2 \sigma^2)}$$

Многомерная версия дельта-метода

Постановка: $\xi_n$ — теперь случайный вектор, и

$$\sqrt{n}(\xi_n - a) \xrightarrow{d} \mathcal{N}(0, \Sigma)$$

где $\Sigma$ — матрица ковариаций. Пусть $\varphi: \mathbb{R}^d \to \mathbb{R}$ — гладкая (непрерывно дифференцируемая) функция $d$ переменных.

Утверждение:

$$\sqrt{n}(\varphi(\xi_n) - \varphi(a)) \xrightarrow{d} \mathcal{N}(0,\, \nabla\varphi(a)^\top \Sigma\, \nabla\varphi(a))$$

где $\nabla\varphi(a)$ — градиент (строчка из частных производных). Размерность согласуется: строчка × матрица × столбец = число.

Замечание: матрица ковариаций — это аналог дисперсии в многомерном случае.

Многомерная ЦПТ (для удобства использования)

Пусть $X_1, \ldots, X_n$ — независимые одинаково распределённые случайные векторы, $\mathbb{E}X_1 = a$, $\mathbb{D}X_1 = \Sigma$. Пусть $S_n = \sum_{k=1}^n X_k$. Тогда:

$$\frac{S_n - na}{\sqrt{n}} \xrightarrow{d} \mathcal{N}(0, \Sigma)$$

В удобной для статистики форме:

$$\sqrt{n}\left(\frac{S_n}{n} - a\right) \xrightarrow{d} \mathcal{N}(0, \Sigma)$$

Теорема об асимптотической нормальности функций от начальных выборочных моментов

Постановка

Пусть $X_1, \ldots, X_n$ — простейшая выборка (одномерные величины). Обозначим:

$$a = (\mathbb{E}X_1,\, \mathbb{E}X_1^2,\, \ldots,\, \mathbb{E}X_1^k)$$

— вектор математических ожиданий случайного вектора $(X_1, X_1^2, \ldots, X_1^k)$.

$$\Sigma = \mathbb{D}(X_1, X_1^2, \ldots, X_1^k)$$

— матрица ковариаций этого случайного вектора.

$$\hat{a} = (\overline{X},\, \overline{X^2},\, \ldots,\, \overline{X^k})$$

— выборочный аналог $a$ (это в точности $S_n/n$).

К $\hat{a}$ применима многомерная ЦПТ.

Пусть $\varphi: \mathbb{R}^k \to \mathbb{R}$ — гладкая функция.

Утверждение 1

$$\sqrt{n}(\varphi(\hat{a}) - \varphi(a)) \xrightarrow{d} \mathcal{N}\bigl(0,\, \nabla\varphi(a)^\top \Sigma\, \nabla\varphi(a)\bigr)$$

Это напрямую следует из дельта-метода.

Утверждение 2 (важно для практики)

Положим:

$$\sigma^2 = \nabla\varphi(a)^\top \Sigma\, \nabla\varphi(a)$$

Эта величина — функция от $\mathbb{E}X_1, \mathbb{E}X_1^2, \ldots, \mathbb{E}X_1^{2k}$ (поскольку на диагонали матрицы $\Sigma$ стоит $\mathbb{D}X_1^k = \mathbb{E}X_1^{2k} - (\mathbb{E}X_1^k)^2$).

Будем считать, что $\sigma^2$ — непрерывная функция от своих аргументов. Тогда:

$$\frac{\sqrt{n}(\varphi(\hat{a}) - \varphi(a))}{\sigma(\hat{a}_{2k})} \xrightarrow{d} \mathcal{N}(0, 1)$$

где в знаменателе вместо теоретических моментов подставлены выборочные аналоги. Это работает, потому что знаменатель — непрерывная функция, и подстановка выборочных моментов сохраняет сходимость.

Асимптотическая нормальность выборочной дисперсии

Применение теоремы

Выборочная дисперсия:

$$S^{*2} = \overline{X^2} - \overline{X}^2 = \varphi(\overline{X}, \overline{X^2})$$

где $\varphi(x_1, x_2) = x_2 - x_1^2$.

Градиент:

$$\nabla\varphi(x_1, x_2) = (-2x_1,\, 1)$$

В точке $a = (\mathbb{E}X_1, \mathbb{E}X_1^2)$:

$$\nabla\varphi(a) = (-2\mathbb{E}X_1,\, 1)$$

Применяем дельта-метод

$$\sqrt{n}(S^{*2} - \mathbb{D}X_1) \xrightarrow{d} \mathcal{N}(0,\, \sigma^2)$$

где

$$\sigma^2 = (-2\mathbb{E}X_1,\, 1) \cdot \begin{pmatrix} \mathbb{D}X_1 & \mathrm{cov}(X_1, X_1^2) \\ \mathrm{cov}(X_1, X_1^2) & \mathbb{D}X_1^2 \end{pmatrix} \cdot \begin{pmatrix} -2\mathbb{E}X_1 \\ 1 \end{pmatrix}$$

Упрощение (упражнение)

После раскрытия:

$$\sigma^2 = \mathbb{E}(X - \mathbb{E}X)^4 - (\mathbb{D}X)^2 = \mu_4 - \beta_2^2$$

где $\mu_4$ — четвёртый центральный момент.

Стандартизованный результат

$$\frac{\sqrt{n}(S^{*2} - \mathbb{D}X)}{\sqrt{\hat{\beta}_4 - (S^{*2})^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$

где $\hat{\beta}_4$ — четвёртый выборочный центральный момент.

Вывод: выборочная дисперсия — асимптотически нормальная оценка.

Парные выборки. Выборочная ковариация и корреляция

Теоретические понятия (повторение)

Ковариация:

$$\mathrm{cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}X)(Y - \mathbb{E}Y)] = \mathbb{E}[XY] - \mathbb{E}X \cdot \mathbb{E}Y$$

Коэффициент корреляции:

$$\rho(X, Y) = \frac{\mathrm{cov}(X, Y)}{\sqrt{\mathbb{D}X \cdot \mathbb{D}Y}}$$

Парная выборка

В статистике часто возникает ситуация парной выборки — датафрейм длины $n$ с двумя атрибутами:

$$(X_1, Y_1), (X_2, Y_2), \ldots, (X_n, Y_n)$$

Выборочная ковариация

$$\widehat{\mathrm{cov}}(X, Y) = \overline{(X - \overline{X})(Y - \overline{Y})} = \overline{XY} - \overline{X} \cdot \overline{Y}$$

Выборочный коэффициент корреляции (Пирсона)

$$\hat{\rho}(X, Y) = \frac{\overline{(X - \overline{X})(Y - \overline{Y})}}{\sqrt{S^{*2}_X \cdot S^{*2}_Y}}$$

Это нормированная величина, принимающая значения от $-1$ до $1$. Используется для оценки меры линейной зависимости.

Порядковые статистики и выборочные квантили

Вариационный ряд

Пусть $X_1, \ldots, X_n$ — исходная выборка. Сортируем по возрастанию и получаем:

$$X_{(1)} \leq X_{(2)} \leq \ldots \leq X_{(n)}$$

Это и есть вариационный ряд. Элементы $X_{(k)}$ называются порядковыми статистиками.

Замечание: некоторые авторы под вариационным рядом понимают статистический ряд — где сначала берётся unique, затем для каждого уникального значения считается количество вхождений $\nu_i$:

$$(x_1, \nu_1), (x_2, \nu_2), \ldots, (x_m, \nu_m)$$

после чего массив сортируется по $x$. Здесь $\nu_i$ — случайные величины (функции от выборки).

Теоретический квантиль (повторение)

Квантиль порядка $\alpha$ $u_\alpha$ — это число, такое что:

$$\mathbb{P}(X \geq u_\alpha) \geq 1 - \alpha \quad \text{и} \quad \mathbb{P}(X \leq u_\alpha) \geq \alpha$$

В непрерывном случае квантиль определяется однозначно:

$$F(u_\alpha) = \alpha$$

Геометрическая интерпретация: квантиль $u_\alpha$ делит вероятностную массу под графиком плотности на части $\alpha$ (слева) и $1 - \alpha$ (справа).

Выборочные квантили

Обозначение: $\hat{u}_\alpha$.

Граничные случаи:

$\hat{u}_0 = X_{(1)} = \min X_i$ — минимум
$\hat{u}_1 = X_{(n)} = \max X_i$ — максимум

Содержательный случай $\alpha \in (0, 1)$. Существует номер $k \in \{1, \ldots, n\}$, такой что:

$$\frac{k-1}{n} < \alpha \leq \frac{k}{n}$$

Тогда:

$$\hat{u}_\alpha = X_{(k)} = X_{(\lceil n\alpha \rceil)}$$

(элемент вариационного ряда с номером $\lceil n\alpha \rceil$).

Связанные термины

Квартили (от лат. quartus — четвёртый): делят выборку на четыре равные (в смысле эмпирической вероятностной массы) части.

Нулевой квартиль = $\min$
Первый квартиль (нижний) = $\hat{u}_{1/4}$
Второй квартиль = медиана = $\hat{u}_{1/2}$
Третий квартиль (верхний) = $\hat{u}_{3/4}$
Четвёртый квартиль = $\max$

Перцентили: например, 74-й перцентиль = $\hat{u}_{0.74}$.

Дециль: разбиение на десять частей.

Выборочная медиана

Часто определяется специальным образом в зависимости от чётности $n$:

Если $n = 2m+1$ (нечётно): $\widehat{\mathrm{med}} = X_{(m+1)}$ — центральный элемент.
Если $n = 2m$ (чётно): $\widehat{\mathrm{med}} = \dfrac{X_{(m)} + X_{(m+1)}}{2}$ — среднее арифметическое двух центральных элементов вариационного ряда.

При программировании необходимо смотреть, какое именно определение используется в конкретной библиотеке.

Средства визуализации выборки

Box plot («ящик с усами»)

Также неформально: «японские свечи» (хотя это другой объект на самом деле).

Структура (вертикальная ориентация):

Прямоугольник (ящик):
- Нижняя граница = первый (нижний) квартиль $\hat{u}_{1/4}$
- Средняя линия = медиана $\hat{u}_{1/2}$
- Верхняя граница = третий (верхний) квартиль $\hat{u}_{3/4}$
Межквартильный размах $\mathrm{IQR} = \hat{u}_{3/4} - \hat{u}_{1/4}$ — аналог стандартного отклонения.
«Усики»: длиной обычно $1.5 \cdot \mathrm{IQR}$ от границ ящика.
Точки за пределами «усов» отмечаются отдельно и трактуются как выбросы.

Внутри ящика сосредоточено 50% эмпирической вероятностной массы.

Применение: на одной картинке можно нарисовать несколько box plot для разных категорий — это позволяет визуально сравнивать распределения.

Violin plot («скрипка»)

Неформально — это box plot + гистограмма на одной картинке. Точнее — аппроксимация плотности с двух сторон (KDE с очень узкими bin’ами), а внутри что-то вроде box plot.

Асимптотические результаты для порядковых статистик

Теорема об асимптотике среднего члена вариационного ряда

Условия: $X_1, \ldots, X_n$ — выборка из непрерывного закона с теоретической плотностью $f$. Пусть $p \in (0, 1)$ — фиксированное число.

Утверждение:

$$\sqrt{n} \cdot f(u_p) \cdot \frac{X_{(\lceil np \rceil)} - u_p}{\sqrt{p(1-p)}} \xrightarrow{d} \mathcal{N}(0, 1)$$

при $n \to \infty$.

Замечания:

$u_p$ — теоретический квантиль порядка $p$.
Выборочный квантиль порядка $p$ — асимптотически нормальная оценка теоретического квантиля.
Структура напоминает дисперсию распределения Бернулли $p(1-p)$.
При $p = 1/2$ получаем результат для выборочной медианы.
На русском языке эта теорема плохо гуглится — на английском лучше.

Теорема об асимптотике крайних членов вариационного ряда (более экзотическая)

Условия: те же — выборка из непрерывного закона.

Утверждение: Для фиксированных $\ell, s$:

$n \cdot F(X_{(\ell)})$ сходится по распределению к $\Gamma$-распределению с параметрами $(\ell, 1)$.
$n \cdot (1 - F(X_{(n - s + 1)}))$ сходится по распределению к $\Gamma$-распределению с параметрами $(s, 1)$.

При этом эти предельные распределения независимы.

Заключительные замечания

Что обсудили в курсе

Описательные статистики: эмпирическая функция распределения, гистограмма, выборочные характеристики.
Хорошие свойства выборочных характеристик: состоятельность, несмещённость (для исправленных версий), асимптотическая нормальность.

Важная оговорка: модель простейшей выборки

Все эти результаты получены в рамках модели простейшей выборки (i.i.d.), а это сильное предположение.

Проблема робастности

Если ослабить предположения модели (например, отказаться от полной независимости/одинаковой распределённости, допустить выбросы), оценки могут вести себя по-разному:

Выборочное среднее — неробастная оценка: при наличии выбросов оно сильно искажается.
Медиана — более устойчивая оценка к выбросам.

Это нетривиальная тема, на эту тему написано немалое количество нетонких книг. Конкретные подходы к борьбе с нарушением условий зависят от конкретной задачи и предметной области.

Где почитать про распределение порядковых статистик

Ивченко, Медведев — «Введение в математическую статистику» (упоминалась в списке литературы курса).

Предыдущая Лекция 01

Следующая Лекция 03