Лекция 01

04.02.2026 • Обновлено: 04.02.2026

Карточки Anki

Скачайте колоды для интервального повторения

Лекция 1. Введение в математическую статистику

Что изучает математическая статистика

В этом семестре изучается математическая статистика. Чтобы понять её предмет, полезно сравнить с теорией вероятностей.

Теория вероятностей (грубо говоря): есть некоторая модель, задаётся распределение базовых параметров, и на основе этого находятся числовые характеристики или распределения функций этих параметров.

Математическая статистика имеет другую глобальную задачу. Допустим, есть совокупность всех студентов, и по тем или иным причинам нельзя обследовать каждый объект из этого набора. В контексте статистики такой полный набор называется генеральной совокупностью. Чтобы сделать вывод о генеральной совокупности, берут конечный поднабор из неё, который называется выборкой, и на основе выборки делают более-менее содержательные выводы о всей генеральной совокупности.

Иллюстрирующие примеры

Пример 1. Подбрасывание монеты роботом

Робот кидает монетку, мы видим результат: последовательность нулей и единиц. Какие задачи можно решать?

Точечная оценка вероятности орла — оценить вероятность орла в виде числа. Резонной оценкой является: $$\hat{p} = \frac{\text{количество орлов}}{\text{общее количество бросков}}$$

В статистике под словом «резонная» понимается «разумная». Можно оценивать в виде числа.

Интервальная оценка — указать интервал, в котором, скорее всего, лежит реальная вероятность орла. Иногда интервал нагляднее одного числа.
Проверка гипотезы о честности монеты — честно ли робот кидает монетку? Интуитивно: если доля орлов больше некоторого числа $\delta$, то монетка нечестная. Но как выбрать порог $\delta$? Кто-то скажет 0.51, кто-то 0.01, кто-то 0.1, 0.5 — всё это берётся «с потолка». Методы статистики позволяют формально и обоснованно выбрать этот порог.

Также в статистике есть показатель p-value (пэ-вэлю), который мы будем обсуждать. В терминах p-value тоже можно переписать критерий «if».

Пример 2. Клинические испытания вакцины/лекарства

Проводятся клинические испытания нового лекарства. Есть набор людей, для каждого из которых известны два атрибута:

болен / здоров
получил вакцину / не получил вакцину

Методы математической статистики позволяют привести аргумент в пользу того, что вакцина действительно положительно влияет на здоровье человека.

Пример 3. Цена квартиры

От чего может зависеть цена квартиры?

размер (площадь)
ситуация на рынке
регион (region)
расстояние до центра (distance)
возможно, какие-то другие факторы

Методы статистики позволяют сказать, действительно ли указанные факторы влияют на цену, или это ошибочные предположения.

Важное замечание: статистика — не серебряная пуля

Статистика не доказывает формальные утверждения так, как это делается в чистой фундаментальной математике.

Пример из медицины. Допустим, фармацевт провёл клиническое испытание, получил хорошие результаты, провёл статистический тест, p-value получилось меньше нужного значения. Он отправляет статью в журнал — и редактор её отклоняет (reject). Почему? Потому что был грубо нарушен протокол, принятый в медицинском сообществе. Нельзя в медицине «просто провести стат-тест и сказать, что вакцина эффективна».

Вывод: в каждой предметной области есть свои протоколы применения статистических методов. Курс посвящён именно самим статистическим методам, но нужно понимать, что в каждой предметной области есть своя специфика.

Репрезентативность выборки

Вопрос: какое свойство выборки позволяет сделать содержательные выводы о всей генеральной совокупности?

Ответ: репрезентативность.

Важно: к утверждению «чем больше объём выборки, тем она репрезентативнее» нужно подходить очень осторожно.

Пример нерепрезентативной выборки

Социологический опрос жителей России. Анкета размещена только в интернете, заполнили сотни тысяч человек. Является ли выборка репрезентативной?

Нет, потому что есть люди, которые по тем или иным причинам не любят заполнять анкеты в интернете. Тем самым проигнорирован существенный кластер людей.

Виды выборок (на примере социологии)

Чисто случайная выборка — объекты берутся случайно из генеральной совокупности.
Стратифицированная выборка — есть кластеры (страты), которые заранее известны. В рамках каждого класса случайно выбираются люди, потом всё объединяется в одну выборку. Например, делим людей на группы по возрасту, профессии и т.п., и из каждой группы случайно выбираем некоторое количество людей.

Это сильно зависит от дизайна исследования и предметной области.

Главный вывод: утверждение «чем больше объём выборки, тем она репрезентативнее» далеко не всегда правда.

Простейшая выборка

Определение

Пусть имеется $n$ вещественных чисел. Будем воспринимать их как $n$ независимых одинаково распределённых случайных величин:

$$X_1, X_2, \ldots, X_n$$

Распределение задаётся теоретической функцией распределения $F(t)$.

Почему случайные величины? Потому что в разных экспериментах могут получаться разные результаты. Например, выбираем 5 случайных студентов и измеряем рост — получаем один результат; выбираем других 5 — получаем другой результат.

Почему «простейшая»? Потому что величины независимы и одинаково распределены.

Цель

Оценить неизвестную функцию распределения $F$ на основе выборки.

Обозначения

Большие буквы $X_1, \ldots, X_n$ — элементы выборки как случайные величины.
Маленькие буквы $x_1, \ldots, x_n$ — конкретная реализация выборки (когда важно подчеркнуть, что речь идёт о конкретных числах).
Краткая запись: $X_1, \ldots, X_n \sim F$ — выборка из распределения $F$.
Иногда указывается конкретный класс распределений:
- $\mathcal{N}(\mu, \sigma^2)$ — нормальное распределение с матожиданием $\mu$ и дисперсией $\sigma^2$
- $\text{Exp}(\lambda)$ — экспоненциальное распределение с параметром $\lambda$

Пример: запись $X_1, \ldots, X_n \sim \mathcal{N}(\mu, \sigma^2)$ означает выборку из нормального закона с неизвестными $\mu$ и $\sigma^2$.

В первой части семестра почти всегда «выборка» = «простейшая выборка».

Эмпирическая функция распределения

Определение

Введём вспомогательную величину:

$$\nu_n(t) = \sum_{i=1}^{n} \mathbb{I}\{X_i \leq t\}$$

— это количество элементов выборки, не превосходящих $t$.

Эмпирическая функция распределения:

$$\hat{F}_n(t) = \frac{\nu_n(t)}{n}$$

— это доля (отношение) количества элементов выборки, не превосходящих $t$, к общему объёму выборки $n$.

Терминология: $n$ называется объём выборки (или размер выборки).

График

График $\hat{F}_n(t)$ — это ступенчатая функция. Высота скачка зависит от количества элементов выборки в данной точке.

Замечание. В разных учебниках функция распределения может быть непрерывна слева либо непрерывна справа. Здесь рассматривается непрерывная справа версия (знак $\leq$).

Эмпирическая ФР как случайная величина

Сама выборка — случайные величины, поэтому $\hat{F}_n(t)$ — это функция от выборки, то есть тоже случайная величина. В разных экспериментах будет получаться своя $\hat{F}_n$. Значит, можно говорить о её распределении и числовых характеристиках.

Свойства эмпирической ФР

Распределение индикатора

Индикатор $\mathbb{I}\{X_i \leq t\}$ принимает значения $0$ или $1$. Это распределение Бернулли с параметром:

$$p = P(X_i \leq t) = F(t)$$

Это и есть теоретическая функция распределения.

Распределение $\nu_n(t)$

$\nu_n(t)$ — сумма $n$ бернуллиевских величин, значит:

$$\nu_n(t) \sim \text{Bin}(n, F(t))$$

Отсюда:

$$\mathbb{E}\,\nu_n(t) = n F(t)$$

$$\text{Var}\,\nu_n(t) = n F(t)(1 - F(t))$$

Несмещённость

$$\mathbb{E}\,\hat{F}_n(t) = \frac{\mathbb{E}\,\nu_n(t)}{n} = \frac{n F(t)}{n} = F(t)$$

В среднем эмпирическая функция распределения совпадает с теоретической.

Определение. Свойство несмещённости: математическое ожидание оценки равняется самому оцениваемому параметру.
Практический смысл: отсутствует систематическая ошибка. Можно получить оценку больше или меньше истинного значения, но в среднем — попадаешь в цель.

Состоятельность (закон больших чисел)

$\hat{F}_n(t)$ — усреднённая сумма независимых одинаково распределённых случайных величин. По закону больших чисел:

$$\hat{F}_n(t) \xrightarrow{P} F(t)$$

Определение. Свойство состоятельности: оценка сходится по вероятности к параметру при $n \to \infty$.
Практический смысл: оценка вообще «разумная» — при увеличении объёма выборки она становится всё ближе к реальному значению оцениваемого параметра.

Асимптотическая нормальность (ЦПТ)

По центральной предельной теореме:

$$\frac{\nu_n(t) - n F(t)}{\sqrt{n F(t)(1 - F(t))}} \xrightarrow{d} \mathcal{N}(0, 1)$$

Или, после преобразований (вынося $n$ из числителя):

$$\sqrt{n} \cdot \frac{\hat{F}_n(t) - F(t)}{\sqrt{F(t)(1 - F(t))}} \xrightarrow{d} \mathcal{N}(0, 1)$$

Определение. Свойство асимптотической нормальности: домноженная на $\sqrt{n}$ и нормированная разность между оценкой и оцениваемым параметром сходится по распределению к стандартной гауссовской величине.

Применение: построение доверительного интервала

Задача

Дано вещественное число $\gamma \in (0, 1)$. Найти такое $\delta$, чтобы:

$$P\left(\left|\hat{F}_n(t) - F(t)\right| < \delta\right) \geq \gamma$$

(можем считать $n$ достаточно большим).

Решение через ЦПТ

Преобразуем выражение под вероятностью, домножив на $\sqrt{n}/\sqrt{F(t)(1-F(t))}$:

$$P\left(\frac{\sqrt{n}\,|\hat{F}_n(t) - F(t)|}{\sqrt{F(t)(1-F(t))}} < \frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right)$$

При больших $n$ распределение этой величины близко к стандартному нормальному:

$$\approx \Phi\left(\frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right) - \Phi\left(-\frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right)$$

Используя свойства функции распределения стандартного нормального закона:

$$= 2\Phi\left(\frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right) - 1$$

Проблема и её решение

В аргументе содержится неизвестное выражение $F(t)(1-F(t))$ — а ведь $F$ как раз и хотим оценить.

Идея: оценить $F(t)(1-F(t))$ сверху.

Функция $f(x) = x(1-x)$ — парабола ветвями вниз с точкой максимума в $x = 1/2$. Её максимум на $[0,1]$ равен $1/4$.

Значит:

$$F(t)(1-F(t)) \leq \frac{1}{4} \implies \sqrt{F(t)(1-F(t))} \leq \frac{1}{2}$$

В силу строгой монотонности $\Phi$:

$$2\Phi\left(\frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right) - 1 \geq 2\Phi(2\sqrt{n}\,\delta) - 1$$

Требуем:

$$2\Phi(2\sqrt{n}\,\delta) - 1 \geq \gamma$$

$$\Phi(2\sqrt{n}\,\delta) \geq \frac{1 + \gamma}{2}$$

Использование квантилей

Определение. Квантиль порядка $\alpha$ — такое число $u_\alpha$, что:
$$P(\xi \geq u_\alpha) \geq 1 - \alpha \quad \text{(или эквивалентно)} \quad F(u_\alpha) = \alpha \text{ (в непрерывном случае)}$$
Геометрически: под плотностью вещественная прямая делится на две части: слева от $u_\alpha$ — масса $\alpha$, справа — масса $1-\alpha$.
Обозначение. Для квантилей будет использоваться буква $u$ (хотя для нормального закона иногда используется $z$).

Из неравенства $\Phi(2\sqrt{n}\,\delta) \geq (1+\gamma)/2$ получаем:

$$2\sqrt{n}\,\delta \geq u_{(1+\gamma)/2}$$

$$\boxed{\delta \geq \frac{u_{(1+\gamma)/2}}{2\sqrt{n}}}$$

Спойлер: это и есть доверительный интервал для теоретической функции распределения. К этой теме мы вернёмся в своё время.

Дополнительные теоремы для эмпирической ФР

Теорема Гливенко–Кантелли

Условия: простейшая выборка, $F$ — теоретическая ФР, $\hat{F}_n$ — эмпирическая ФР.

Утверждение:

$$P\left(\sup_{t \in \mathbb{R}}\left|\hat{F}_n(t) - F(t)\right| \xrightarrow[n \to \infty]{} 0\right) = 1$$

То есть с вероятностью 1 супремум модуля разности между эмпирической и теоретической ФР стремится к нулю.

Теорема Колмогорова

Условия: простейшая выборка, теоретическая ФР $F$ должна быть непрерывной.

Важно: теорема Колмогорова работает только для непрерывных распределений; для дискретных она не имеет места быть.

Обозначение:

$$D_n = \sqrt{n} \cdot \sup_{t \in \mathbb{R}} \left|\hat{F}_n(t) - F(t)\right|$$

Утверждение: $D_n$ имеет предельное распределение, задаваемое функцией распределения Колмогорова:

$$P(D_n \leq x) \xrightarrow[n \to \infty]{} K(x)$$

где аналитический вид:

$$K(x) = \sum_{j=-\infty}^{\infty} (-1)^j \, e^{-2 j^2 x^2}$$

Эта функция табулирована и реализована во многих статистических пакетах и библиотеках. Она используется для построения критерия Колмогорова.

Теорема Смирнова

Условия: есть две независимые выборки:

$X_1, \ldots, X_n \sim F$ (непрерывное распределение)
$Y_1, \ldots, Y_m$ — выборка того же распределения

$\hat{F}_n^X$, $\hat{F}_m^Y$ — соответствующие эмпирические ФР.

Замечание о независимости выборок: если объединить обе выборки в одну, всё должно быть независимо. Например, функции от $X_i$ и от $Y_j$ независимы.

Обозначение:

$$D_{m,n} = \sqrt{\frac{mn}{m+n}} \cdot \sup_{t \in \mathbb{R}}\left|\hat{F}_n^X(t) - \hat{F}_m^Y(t)\right|$$

Утверждение: при $m, n \to \infty$:

$$P(D_{m,n} \leq x) \to K(x)$$

— то же самое распределение Колмогорова $K(x)$.

Поэтому в статистических пакетах два соответствующих критерия (Колмогорова и Смирнова) часто объединены в одну функцию.

Визуализация выборки

Способы визуализировать выборку:

График эмпирической функции распределения (ступенчатая функция).
Гистограмма. При построении в любой системе важно понимать: можно нормировать, можно не нормировать.
Зачем нормировать? Пример: гистограмма оценок мальчиков и девочек. Если девочек меньше, чем мальчиков, ненормированная гистограмма для мальчиков будет явно выше. При сравнении двух гистограмм на одной картинке лучше нормировать.
Существуют эмпирические (эвристические) принципы выбора оптимального количества интервалов в зависимости от объёма выборки.
При увеличении объёма выборки гистограмма для непрерывного распределения стремится к теоретической плотности.
Полигон частот. Используется для дискретных величин: откладываются частоты, точки соединяются. Особой мудрости здесь нет; обычно гистограмма нагляднее.
Кумулята (упомянута вскользь). Если эмпирическую ФР «сгладить» прямыми через границы интервалов, получим кумуляту.

Эмпирическое распределение

Если зафиксировать конкретную реализацию $x_1, \ldots, x_n$, то $\hat{F}_n$ — это функция, которая:

монотонно возрастает,
непрерывна справа,
стремится к 1 на $+\infty$, к 0 на $-\infty$,

то есть удовлетворяет всем свойствам функции распределения. Значит, она задаёт некоторое распределение — называемое эмпирическим распределением.

Описание эмпирического распределения

Случайная величина $Y$ принимает значения $x_1, \ldots, x_n$ со следующими вероятностями:

$$P(Y = x) = \frac{\#\{i : x_i = x\}}{n}$$

— количество элементов выборки, равных $x$, делённое на $n$.

Скачки эмпирической ФР

Если упорядочить элементы выборки и обозначить точку $x_k$ ($x_k$, скажем, лежит между $x_{k-1}$ и $x_{k+1}$), то величина скачка в точке $x_k$ равна:

$$p_k = \frac{\#\{i : x_i = x_k\}}{n}$$

Для дискретного распределения: при росте $n$ величины скачков сходятся к реальным вероятностям $p_k$.
Для непрерывного распределения: скачки уходят в 0.

Выборочные моменты

Теоретические моменты

Модель простейшей выборки $X_1, \ldots, X_n \sim F$.

Теоретические моменты:

Начальный момент порядка $k$: $\alpha_k = \mathbb{E}\,X_1^k$
Центральный момент порядка $k$: $\beta_k = \mathbb{E}(X_1 - \mathbb{E}\,X_1)^k$

Поскольку величины одинаково распределены: $\mathbb{E}\,X_1^k = \mathbb{E}\,X_2^k = \ldots$

Предполагаем, что нужные моменты существуют. Напоминание: есть распределения, где у матожидания и дисперсии большие проблемы. Например, распределение Коши — у него не существует матожидания и дисперсии.

Выборочные моменты

Начальный выборочный момент порядка $k$:

$$\hat{\alpha}_k = \frac{1}{n}\sum_{i=1}^{n} X_i^k$$

Один из важнейших начальных выборочных моментов — выборочное среднее:

$$\hat{\alpha}_1 = \overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$$

Важное предостережение! Когда люди (либо не до конца разобравшись, либо специально желая ввести в заблуждение) приводят только средние — этого далеко не достаточно. Нужны и другие характеристики.

Центральный выборочный момент порядка $k$:

$$\hat{\beta}_k = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^k$$

Выборочная дисперсия — наиболее важный центральный выборочный момент:

$$S_*^2 = \hat{\beta}_2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2$$

Выборочное стандартное отклонение (выборочное среднее квадратическое отклонение):

$$S_* = \sqrt{S_*^2}$$

Выборочные моменты как моменты эмпирического распределения

Предположим для простоты, что все $x_1, \ldots, x_n$ различны. Тогда формула выборочного среднего:

$$\overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$$

— это среднее арифметическое, или, иными словами, сумма $X_i \cdot \frac{1}{n}$, где $\frac{1}{n}$ — вероятности значений в эмпирическом распределении.

Ключевое наблюдение: выборочный момент — не что иное, как матожидание относительно эмпирического распределения.

Это позволяет переносить «теоретические» формулы на «выборочные»:

$$\text{Var}(X) = \mathbb{E}(X^2) - (\mathbb{E}\,X)^2 \implies S_*^2 = \hat{\alpha}_2 - \overline{X}^2$$

Почему? Потому что выборочные моменты — моменты относительно эмпирического распределения, и формула дисперсии переносится непосредственно.

Удобная нотация

Пусть $g: \mathbb{R} \to \mathbb{R}$ — некоторая функция. Введём обозначение:

$$\overline{g(X)} = \frac{1}{n}\sum_{i=1}^{n} g(X_i)$$

Тогда:

$\hat{\alpha}_k = \overline{X^k}$ (взять $g(x) = x^k$)
$\hat{\beta}_k = \overline{(X - \overline{X})^k}$ (взять $g(x) = (x - \overline{X})^k$)

Это just notation — просто обозначение, которое будет активно эксплуатироваться.

Свойства начальных выборочных моментов

Выборка — случайная, поэтому моменты — тоже случайные величины. Можно говорить об их распределении.

Несмещённость

$$\mathbb{E}\,\hat{\alpha}_k = \mathbb{E}\left(\frac{1}{n}\sum_{i=1}^{n} X_i^k\right) = \frac{1}{n}\sum_{i=1}^{n}\mathbb{E}\,X_i^k = \frac{n \cdot \alpha_k}{n} = \alpha_k$$

Начальный выборочный момент — несмещённая оценка теоретического начального момента.

Состоятельность (закон больших чисел)

$\hat{\alpha}_k$ — усреднённая сумма независимых одинаково распределённых случайных величин $X_i^k$. По закону больших чисел:

$$\hat{\alpha}_k \xrightarrow{P} \alpha_k$$

Оценка состоятельная.

Асимптотическая нормальность (ЦПТ)

По центральной предельной теореме:

$$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\text{Var}(X_1^k)}} \xrightarrow{d} \mathcal{N}(0, 1)$$

или, расписав дисперсию:

$$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\mathbb{E}\,X_1^{2k} - (\mathbb{E}\,X_1^k)^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$

То есть:

$$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\alpha_{2k} - \alpha_k^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$

Замена теоретических моментов выборочными в знаменателе

Проблема

В знаменателе ЦПТ-формулы стоят неизвестные характеристики $\alpha_{2k}, \alpha_k$. Это будет мешать решать статистические задачи (например, оценивать $\alpha_k$).

Замечание про знак: выражение $\alpha_{2k} - \alpha_k^2$ — это дисперсия, она не отрицательна (но может быть равна 0).

Решение: подставить выборочные аналоги

Утверждение: если в знаменатель подставить выборочные моменты вместо теоретических, сходимость к нормальному закону сохранится.

Рассматриваем модифицированную статистику:

Определение. Статистика — это функция от выборки (для математически строгих — измеримая функция). Внимание: «статистика» — не только название предмета, но и термин!

$$T_n = \sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\hat{\alpha}_{2k} - \hat{\alpha}_k^2}}$$

Доказательство сходимости (схема)

Преобразуем (умножаем и делим на теоретический корень):

$$T_n = \underbrace{\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\alpha_{2k} - \alpha_k^2}}}_{\xrightarrow{d}\, \mathcal{N}(0,1)\, \text{по ЦПТ}} \cdot \underbrace{\sqrt{\frac{\alpha_{2k} - \alpha_k^2}{\hat{\alpha}_{2k} - \hat{\alpha}_k^2}}}_{\xrightarrow{P}\, 1}$$

Почему второй множитель сходится по вероятности к 1?

$\hat{\alpha}_{2k} \xrightarrow{P} \alpha_{2k}$ (состоятельность)
$\hat{\alpha}_k \xrightarrow{P} \alpha_k$ (состоятельность)
Возведение в квадрат, разность, деление, извлечение корня — всё это непрерывные функции на области определения.
Непрерывные функции сохраняют сходимость по вероятности.

Поэтому $\sqrt{\frac{\alpha_{2k} - \alpha_k^2}{\hat{\alpha}_{2k} - \hat{\alpha}_k^2}} \xrightarrow{P} 1$.

Используя свойство сходимости (произведение случайной величины, сходящейся по распределению, на величину, сходящуюся по вероятности к константе):

$$T_n \xrightarrow{d} \mathcal{N}(0, 1)$$

Зачем нужна эта замена

В исходной записи в знаменателе стоят неизвестные характеристики — это потенциально мешает оценивать $\alpha_k$. Чтобы упростить себе жизнь в оценивании $\alpha_k$, теоретические характеристики заменяются выборочными, и оказывается, что данная величина также сходится к стандартной гауссовской величине.

Этот результат зафиксируем. Он понадобится в дальнейшем — в частности, для построения асимптотических доверительных интервалов для математического ожидания и для проверки различных статистических гипотез о матожидании.

Что будет на следующей лекции

В следующий раз:

Разговор о центральных выборочных моментах.
В частности, поймём, зачем нужны две выборочные дисперсии (есть две выборочные дисперсии, и обе важны).

Следующая Лекция 02