Лекция 01

04.02.2026 Обновлено: 04.02.2026

Лекция 1. Введение в математическую статистику

Что изучает математическая статистика

В этом семестре изучается математическая статистика. Чтобы понять её предмет, полезно сравнить с теорией вероятностей.

Теория вероятностей (грубо говоря): есть некоторая модель, задаётся распределение базовых параметров, и на основе этого находятся числовые характеристики или распределения функций этих параметров.

Математическая статистика имеет другую глобальную задачу. Допустим, есть совокупность всех студентов, и по тем или иным причинам нельзя обследовать каждый объект из этого набора. В контексте статистики такой полный набор называется генеральной совокупностью. Чтобы сделать вывод о генеральной совокупности, берут конечный поднабор из неё, который называется выборкой, и на основе выборки делают более-менее содержательные выводы о всей генеральной совокупности.

Иллюстрирующие примеры

Пример 1. Подбрасывание монеты роботом

Робот кидает монетку, мы видим результат: последовательность нулей и единиц. Какие задачи можно решать?

  1. Точечная оценка вероятности орла — оценить вероятность орла в виде числа. Резонной оценкой является: $$\hat{p} = \frac{\text{количество орлов}}{\text{общее количество бросков}}$$

В статистике под словом «резонная» понимается «разумная». Можно оценивать в виде числа.

  1. Интервальная оценка — указать интервал, в котором, скорее всего, лежит реальная вероятность орла. Иногда интервал нагляднее одного числа.

  2. Проверка гипотезы о честности монеты — честно ли робот кидает монетку? Интуитивно: если доля орлов больше некоторого числа $\delta$, то монетка нечестная. Но как выбрать порог $\delta$? Кто-то скажет 0.51, кто-то 0.01, кто-то 0.1, 0.5 — всё это берётся «с потолка». Методы статистики позволяют формально и обоснованно выбрать этот порог.

Также в статистике есть показатель p-value (пэ-вэлю), который мы будем обсуждать. В терминах p-value тоже можно переписать критерий «if».

Пример 2. Клинические испытания вакцины/лекарства

Проводятся клинические испытания нового лекарства. Есть набор людей, для каждого из которых известны два атрибута:

  • болен / здоров
  • получил вакцину / не получил вакцину

Методы математической статистики позволяют привести аргумент в пользу того, что вакцина действительно положительно влияет на здоровье человека.

Пример 3. Цена квартиры

От чего может зависеть цена квартиры?

  • размер (площадь)
  • ситуация на рынке
  • регион (region)
  • расстояние до центра (distance)
  • возможно, какие-то другие факторы

Методы статистики позволяют сказать, действительно ли указанные факторы влияют на цену, или это ошибочные предположения.

Важное замечание: статистика — не серебряная пуля

Статистика не доказывает формальные утверждения так, как это делается в чистой фундаментальной математике.

Пример из медицины. Допустим, фармацевт провёл клиническое испытание, получил хорошие результаты, провёл статистический тест, p-value получилось меньше нужного значения. Он отправляет статью в журнал — и редактор её отклоняет (reject). Почему? Потому что был грубо нарушен протокол, принятый в медицинском сообществе. Нельзя в медицине «просто провести стат-тест и сказать, что вакцина эффективна».

Вывод: в каждой предметной области есть свои протоколы применения статистических методов. Курс посвящён именно самим статистическим методам, но нужно понимать, что в каждой предметной области есть своя специфика.

Репрезентативность выборки

Вопрос: какое свойство выборки позволяет сделать содержательные выводы о всей генеральной совокупности?

Ответ: репрезентативность.

Важно: к утверждению «чем больше объём выборки, тем она репрезентативнее» нужно подходить очень осторожно.

Пример нерепрезентативной выборки

Социологический опрос жителей России. Анкета размещена только в интернете, заполнили сотни тысяч человек. Является ли выборка репрезентативной?

Нет, потому что есть люди, которые по тем или иным причинам не любят заполнять анкеты в интернете. Тем самым проигнорирован существенный кластер людей.

Виды выборок (на примере социологии)

  • Чисто случайная выборка — объекты берутся случайно из генеральной совокупности.
  • Стратифицированная выборка — есть кластеры (страты), которые заранее известны. В рамках каждого класса случайно выбираются люди, потом всё объединяется в одну выборку. Например, делим людей на группы по возрасту, профессии и т.п., и из каждой группы случайно выбираем некоторое количество людей.

Это сильно зависит от дизайна исследования и предметной области.

Главный вывод: утверждение «чем больше объём выборки, тем она репрезентативнее» далеко не всегда правда.


Простейшая выборка

Определение

Пусть имеется $n$ вещественных чисел. Будем воспринимать их как $n$ независимых одинаково распределённых случайных величин:

$$X_1, X_2, \ldots, X_n$$

Распределение задаётся теоретической функцией распределения $F(t)$.

Почему случайные величины? Потому что в разных экспериментах могут получаться разные результаты. Например, выбираем 5 случайных студентов и измеряем рост — получаем один результат; выбираем других 5 — получаем другой результат.

Почему «простейшая»? Потому что величины независимы и одинаково распределены.

Цель

Оценить неизвестную функцию распределения $F$ на основе выборки.

Обозначения

  • Большие буквы $X_1, \ldots, X_n$ — элементы выборки как случайные величины.
  • Маленькие буквы $x_1, \ldots, x_n$ — конкретная реализация выборки (когда важно подчеркнуть, что речь идёт о конкретных числах).
  • Краткая запись: $X_1, \ldots, X_n \sim F$ — выборка из распределения $F$.
  • Иногда указывается конкретный класс распределений:
    • $\mathcal{N}(\mu, \sigma^2)$ — нормальное распределение с матожиданием $\mu$ и дисперсией $\sigma^2$
    • $\text{Exp}(\lambda)$ — экспоненциальное распределение с параметром $\lambda$

Пример: запись $X_1, \ldots, X_n \sim \mathcal{N}(\mu, \sigma^2)$ означает выборку из нормального закона с неизвестными $\mu$ и $\sigma^2$.

В первой части семестра почти всегда «выборка» = «простейшая выборка».


Эмпирическая функция распределения

Определение

Введём вспомогательную величину:

$$\nu_n(t) = \sum_{i=1}^{n} \mathbb{I}\{X_i \leq t\}$$

— это количество элементов выборки, не превосходящих $t$.

Эмпирическая функция распределения:

$$\hat{F}_n(t) = \frac{\nu_n(t)}{n}$$

— это доля (отношение) количества элементов выборки, не превосходящих $t$, к общему объёму выборки $n$.

Терминология: $n$ называется объём выборки (или размер выборки).

График

График $\hat{F}_n(t)$ — это ступенчатая функция. Высота скачка зависит от количества элементов выборки в данной точке.

Замечание. В разных учебниках функция распределения может быть непрерывна слева либо непрерывна справа. Здесь рассматривается непрерывная справа версия (знак $\leq$).

Эмпирическая ФР как случайная величина

Сама выборка — случайные величины, поэтому $\hat{F}_n(t)$ — это функция от выборки, то есть тоже случайная величина. В разных экспериментах будет получаться своя $\hat{F}_n$. Значит, можно говорить о её распределении и числовых характеристиках.

Свойства эмпирической ФР

Распределение индикатора

Индикатор $\mathbb{I}\{X_i \leq t\}$ принимает значения $0$ или $1$. Это распределение Бернулли с параметром:

$$p = P(X_i \leq t) = F(t)$$

Это и есть теоретическая функция распределения.

Распределение $\nu_n(t)$

$\nu_n(t)$ — сумма $n$ бернуллиевских величин, значит:

$$\nu_n(t) \sim \text{Bin}(n, F(t))$$

Отсюда:

$$\mathbb{E}\,\nu_n(t) = n F(t)$$

$$\text{Var}\,\nu_n(t) = n F(t)(1 - F(t))$$

Несмещённость

$$\mathbb{E}\,\hat{F}_n(t) = \frac{\mathbb{E}\,\nu_n(t)}{n} = \frac{n F(t)}{n} = F(t)$$

В среднем эмпирическая функция распределения совпадает с теоретической.

Определение. Свойство несмещённости: математическое ожидание оценки равняется самому оцениваемому параметру.

Практический смысл: отсутствует систематическая ошибка. Можно получить оценку больше или меньше истинного значения, но в среднем — попадаешь в цель.

Состоятельность (закон больших чисел)

$\hat{F}_n(t)$ — усреднённая сумма независимых одинаково распределённых случайных величин. По закону больших чисел:

$$\hat{F}_n(t) \xrightarrow{P} F(t)$$

Определение. Свойство состоятельности: оценка сходится по вероятности к параметру при $n \to \infty$.

Практический смысл: оценка вообще «разумная» — при увеличении объёма выборки она становится всё ближе к реальному значению оцениваемого параметра.

Асимптотическая нормальность (ЦПТ)

По центральной предельной теореме:

$$\frac{\nu_n(t) - n F(t)}{\sqrt{n F(t)(1 - F(t))}} \xrightarrow{d} \mathcal{N}(0, 1)$$

Или, после преобразований (вынося $n$ из числителя):

$$\sqrt{n} \cdot \frac{\hat{F}_n(t) - F(t)}{\sqrt{F(t)(1 - F(t))}} \xrightarrow{d} \mathcal{N}(0, 1)$$

Определение. Свойство асимптотической нормальности: домноженная на $\sqrt{n}$ и нормированная разность между оценкой и оцениваемым параметром сходится по распределению к стандартной гауссовской величине.


Применение: построение доверительного интервала

Задача

Дано вещественное число $\gamma \in (0, 1)$. Найти такое $\delta$, чтобы:

$$P\left(\left|\hat{F}_n(t) - F(t)\right| < \delta\right) \geq \gamma$$

(можем считать $n$ достаточно большим).

Решение через ЦПТ

Преобразуем выражение под вероятностью, домножив на $\sqrt{n}/\sqrt{F(t)(1-F(t))}$:

$$P\left(\frac{\sqrt{n}\,|\hat{F}_n(t) - F(t)|}{\sqrt{F(t)(1-F(t))}} < \frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right)$$

При больших $n$ распределение этой величины близко к стандартному нормальному:

$$\approx \Phi\left(\frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right) - \Phi\left(-\frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right)$$

Используя свойства функции распределения стандартного нормального закона:

$$= 2\Phi\left(\frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right) - 1$$

Проблема и её решение

В аргументе содержится неизвестное выражение $F(t)(1-F(t))$ — а ведь $F$ как раз и хотим оценить.

Идея: оценить $F(t)(1-F(t))$ сверху.

Функция $f(x) = x(1-x)$ — парабола ветвями вниз с точкой максимума в $x = 1/2$. Её максимум на $[0,1]$ равен $1/4$.

Значит:

$$F(t)(1-F(t)) \leq \frac{1}{4} \implies \sqrt{F(t)(1-F(t))} \leq \frac{1}{2}$$

В силу строгой монотонности $\Phi$:

$$2\Phi\left(\frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right) - 1 \geq 2\Phi(2\sqrt{n}\,\delta) - 1$$

Требуем:

$$2\Phi(2\sqrt{n}\,\delta) - 1 \geq \gamma$$

$$\Phi(2\sqrt{n}\,\delta) \geq \frac{1 + \gamma}{2}$$

Использование квантилей

Определение. Квантиль порядка $\alpha$ — такое число $u_\alpha$, что:

$$P(\xi \geq u_\alpha) \geq 1 - \alpha \quad \text{(или эквивалентно)} \quad F(u_\alpha) = \alpha \text{ (в непрерывном случае)}$$

Геометрически: под плотностью вещественная прямая делится на две части: слева от $u_\alpha$ — масса $\alpha$, справа — масса $1-\alpha$.

Обозначение. Для квантилей будет использоваться буква $u$ (хотя для нормального закона иногда используется $z$).

Из неравенства $\Phi(2\sqrt{n}\,\delta) \geq (1+\gamma)/2$ получаем:

$$2\sqrt{n}\,\delta \geq u_{(1+\gamma)/2}$$

$$\boxed{\delta \geq \frac{u_{(1+\gamma)/2}}{2\sqrt{n}}}$$

Спойлер: это и есть доверительный интервал для теоретической функции распределения. К этой теме мы вернёмся в своё время.


Дополнительные теоремы для эмпирической ФР

Теорема Гливенко–Кантелли

Условия: простейшая выборка, $F$ — теоретическая ФР, $\hat{F}_n$ — эмпирическая ФР.

Утверждение:

$$P\left(\sup_{t \in \mathbb{R}}\left|\hat{F}_n(t) - F(t)\right| \xrightarrow[n \to \infty]{} 0\right) = 1$$

То есть с вероятностью 1 супремум модуля разности между эмпирической и теоретической ФР стремится к нулю.

Теорема Колмогорова

Условия: простейшая выборка, теоретическая ФР $F$ должна быть непрерывной.

Важно: теорема Колмогорова работает только для непрерывных распределений; для дискретных она не имеет места быть.

Обозначение:

$$D_n = \sqrt{n} \cdot \sup_{t \in \mathbb{R}} \left|\hat{F}_n(t) - F(t)\right|$$

Утверждение: $D_n$ имеет предельное распределение, задаваемое функцией распределения Колмогорова:

$$P(D_n \leq x) \xrightarrow[n \to \infty]{} K(x)$$

где аналитический вид:

$$K(x) = \sum_{j=-\infty}^{\infty} (-1)^j \, e^{-2 j^2 x^2}$$

Эта функция табулирована и реализована во многих статистических пакетах и библиотеках. Она используется для построения критерия Колмогорова.

Теорема Смирнова

Условия: есть две независимые выборки:

  • $X_1, \ldots, X_n \sim F$ (непрерывное распределение)
  • $Y_1, \ldots, Y_m$ — выборка того же распределения

$\hat{F}_n^X$, $\hat{F}_m^Y$ — соответствующие эмпирические ФР.

Замечание о независимости выборок: если объединить обе выборки в одну, всё должно быть независимо. Например, функции от $X_i$ и от $Y_j$ независимы.

Обозначение:

$$D_{m,n} = \sqrt{\frac{mn}{m+n}} \cdot \sup_{t \in \mathbb{R}}\left|\hat{F}_n^X(t) - \hat{F}_m^Y(t)\right|$$

Утверждение: при $m, n \to \infty$:

$$P(D_{m,n} \leq x) \to K(x)$$

то же самое распределение Колмогорова $K(x)$.

Поэтому в статистических пакетах два соответствующих критерия (Колмогорова и Смирнова) часто объединены в одну функцию.


Визуализация выборки

Способы визуализировать выборку:

  1. График эмпирической функции распределения (ступенчатая функция).

  2. Гистограмма. При построении в любой системе важно понимать: можно нормировать, можно не нормировать.

    Зачем нормировать? Пример: гистограмма оценок мальчиков и девочек. Если девочек меньше, чем мальчиков, ненормированная гистограмма для мальчиков будет явно выше. При сравнении двух гистограмм на одной картинке лучше нормировать.

    Существуют эмпирические (эвристические) принципы выбора оптимального количества интервалов в зависимости от объёма выборки.

    При увеличении объёма выборки гистограмма для непрерывного распределения стремится к теоретической плотности.

  3. Полигон частот. Используется для дискретных величин: откладываются частоты, точки соединяются. Особой мудрости здесь нет; обычно гистограмма нагляднее.

  4. Кумулята (упомянута вскользь). Если эмпирическую ФР «сгладить» прямыми через границы интервалов, получим кумуляту.


Эмпирическое распределение

Если зафиксировать конкретную реализацию $x_1, \ldots, x_n$, то $\hat{F}_n$ — это функция, которая:

  • монотонно возрастает,
  • непрерывна справа,
  • стремится к 1 на $+\infty$, к 0 на $-\infty$,

то есть удовлетворяет всем свойствам функции распределения. Значит, она задаёт некоторое распределение — называемое эмпирическим распределением.

Описание эмпирического распределения

Случайная величина $Y$ принимает значения $x_1, \ldots, x_n$ со следующими вероятностями:

$$P(Y = x) = \frac{\#\{i : x_i = x\}}{n}$$

— количество элементов выборки, равных $x$, делённое на $n$.

Скачки эмпирической ФР

Если упорядочить элементы выборки и обозначить точку $x_k$ ($x_k$, скажем, лежит между $x_{k-1}$ и $x_{k+1}$), то величина скачка в точке $x_k$ равна:

$$p_k = \frac{\#\{i : x_i = x_k\}}{n}$$
  • Для дискретного распределения: при росте $n$ величины скачков сходятся к реальным вероятностям $p_k$.
  • Для непрерывного распределения: скачки уходят в 0.

Выборочные моменты

Теоретические моменты

Модель простейшей выборки $X_1, \ldots, X_n \sim F$.

Теоретические моменты:

  • Начальный момент порядка $k$: $\alpha_k = \mathbb{E}\,X_1^k$
  • Центральный момент порядка $k$: $\beta_k = \mathbb{E}(X_1 - \mathbb{E}\,X_1)^k$

Поскольку величины одинаково распределены: $\mathbb{E}\,X_1^k = \mathbb{E}\,X_2^k = \ldots$

Предполагаем, что нужные моменты существуют. Напоминание: есть распределения, где у матожидания и дисперсии большие проблемы. Например, распределение Коши — у него не существует матожидания и дисперсии.

Выборочные моменты

Начальный выборочный момент порядка $k$:

$$\hat{\alpha}_k = \frac{1}{n}\sum_{i=1}^{n} X_i^k$$

Один из важнейших начальных выборочных моментов — выборочное среднее:

$$\hat{\alpha}_1 = \overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$$

Важное предостережение! Когда люди (либо не до конца разобравшись, либо специально желая ввести в заблуждение) приводят только средние — этого далеко не достаточно. Нужны и другие характеристики.

Центральный выборочный момент порядка $k$:

$$\hat{\beta}_k = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^k$$

Выборочная дисперсия — наиболее важный центральный выборочный момент:

$$S_*^2 = \hat{\beta}_2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2$$

Выборочное стандартное отклонение (выборочное среднее квадратическое отклонение):

$$S_* = \sqrt{S_*^2}$$

Выборочные моменты как моменты эмпирического распределения

Предположим для простоты, что все $x_1, \ldots, x_n$ различны. Тогда формула выборочного среднего:

$$\overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$$

— это среднее арифметическое, или, иными словами, сумма $X_i \cdot \frac{1}{n}$, где $\frac{1}{n}$ — вероятности значений в эмпирическом распределении.

Ключевое наблюдение: выборочный момент — не что иное, как матожидание относительно эмпирического распределения.

Это позволяет переносить «теоретические» формулы на «выборочные»:

$$\text{Var}(X) = \mathbb{E}(X^2) - (\mathbb{E}\,X)^2 \implies S_*^2 = \hat{\alpha}_2 - \overline{X}^2$$

Почему? Потому что выборочные моменты — моменты относительно эмпирического распределения, и формула дисперсии переносится непосредственно.

Удобная нотация

Пусть $g: \mathbb{R} \to \mathbb{R}$ — некоторая функция. Введём обозначение:

$$\overline{g(X)} = \frac{1}{n}\sum_{i=1}^{n} g(X_i)$$

Тогда:

  • $\hat{\alpha}_k = \overline{X^k}$ (взять $g(x) = x^k$)
  • $\hat{\beta}_k = \overline{(X - \overline{X})^k}$ (взять $g(x) = (x - \overline{X})^k$)

Это just notation — просто обозначение, которое будет активно эксплуатироваться.


Свойства начальных выборочных моментов

Выборка — случайная, поэтому моменты — тоже случайные величины. Можно говорить об их распределении.

Несмещённость

$$\mathbb{E}\,\hat{\alpha}_k = \mathbb{E}\left(\frac{1}{n}\sum_{i=1}^{n} X_i^k\right) = \frac{1}{n}\sum_{i=1}^{n}\mathbb{E}\,X_i^k = \frac{n \cdot \alpha_k}{n} = \alpha_k$$

Начальный выборочный момент — несмещённая оценка теоретического начального момента.

Состоятельность (закон больших чисел)

$\hat{\alpha}_k$ — усреднённая сумма независимых одинаково распределённых случайных величин $X_i^k$. По закону больших чисел:

$$\hat{\alpha}_k \xrightarrow{P} \alpha_k$$

Оценка состоятельная.

Асимптотическая нормальность (ЦПТ)

По центральной предельной теореме:

$$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\text{Var}(X_1^k)}} \xrightarrow{d} \mathcal{N}(0, 1)$$

или, расписав дисперсию:

$$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\mathbb{E}\,X_1^{2k} - (\mathbb{E}\,X_1^k)^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$

То есть:

$$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\alpha_{2k} - \alpha_k^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$

Замена теоретических моментов выборочными в знаменателе

Проблема

В знаменателе ЦПТ-формулы стоят неизвестные характеристики $\alpha_{2k}, \alpha_k$. Это будет мешать решать статистические задачи (например, оценивать $\alpha_k$).

Замечание про знак: выражение $\alpha_{2k} - \alpha_k^2$ — это дисперсия, она не отрицательна (но может быть равна 0).

Решение: подставить выборочные аналоги

Утверждение: если в знаменатель подставить выборочные моменты вместо теоретических, сходимость к нормальному закону сохранится.

Рассматриваем модифицированную статистику:

Определение. Статистика — это функция от выборки (для математически строгих — измеримая функция). Внимание: «статистика» — не только название предмета, но и термин!

$$T_n = \sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\hat{\alpha}_{2k} - \hat{\alpha}_k^2}}$$

Доказательство сходимости (схема)

Преобразуем (умножаем и делим на теоретический корень):

$$T_n = \underbrace{\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\alpha_{2k} - \alpha_k^2}}}_{\xrightarrow{d}\, \mathcal{N}(0,1)\, \text{по ЦПТ}} \cdot \underbrace{\sqrt{\frac{\alpha_{2k} - \alpha_k^2}{\hat{\alpha}_{2k} - \hat{\alpha}_k^2}}}_{\xrightarrow{P}\, 1}$$

Почему второй множитель сходится по вероятности к 1?

  • $\hat{\alpha}_{2k} \xrightarrow{P} \alpha_{2k}$ (состоятельность)
  • $\hat{\alpha}_k \xrightarrow{P} \alpha_k$ (состоятельность)
  • Возведение в квадрат, разность, деление, извлечение корня — всё это непрерывные функции на области определения.
  • Непрерывные функции сохраняют сходимость по вероятности.

Поэтому $\sqrt{\frac{\alpha_{2k} - \alpha_k^2}{\hat{\alpha}_{2k} - \hat{\alpha}_k^2}} \xrightarrow{P} 1$.

Используя свойство сходимости (произведение случайной величины, сходящейся по распределению, на величину, сходящуюся по вероятности к константе):

$$T_n \xrightarrow{d} \mathcal{N}(0, 1)$$

Зачем нужна эта замена

В исходной записи в знаменателе стоят неизвестные характеристики — это потенциально мешает оценивать $\alpha_k$. Чтобы упростить себе жизнь в оценивании $\alpha_k$, теоретические характеристики заменяются выборочными, и оказывается, что данная величина также сходится к стандартной гауссовской величине.

Этот результат зафиксируем. Он понадобится в дальнейшем — в частности, для построения асимптотических доверительных интервалов для математического ожидания и для проверки различных статистических гипотез о матожидании.


Что будет на следующей лекции

В следующий раз:

  • Разговор о центральных выборочных моментах.
  • В частности, поймём, зачем нужны две выборочные дисперсии (есть две выборочные дисперсии, и обе важны).