Карточки Anki
Скачайте колоды для интервального повторения
Лекция 1. Введение в математическую статистику
Что изучает математическая статистика
В этом семестре изучается математическая статистика. Чтобы понять её предмет, полезно сравнить с теорией вероятностей.
Теория вероятностей (грубо говоря): есть некоторая модель, задаётся распределение базовых параметров, и на основе этого находятся числовые характеристики или распределения функций этих параметров.
Математическая статистика имеет другую глобальную задачу. Допустим, есть совокупность всех студентов, и по тем или иным причинам нельзя обследовать каждый объект из этого набора. В контексте статистики такой полный набор называется генеральной совокупностью. Чтобы сделать вывод о генеральной совокупности, берут конечный поднабор из неё, который называется выборкой, и на основе выборки делают более-менее содержательные выводы о всей генеральной совокупности.
Иллюстрирующие примеры
Пример 1. Подбрасывание монеты роботом
Робот кидает монетку, мы видим результат: последовательность нулей и единиц. Какие задачи можно решать?
- Точечная оценка вероятности орла — оценить вероятность орла в виде числа. Резонной оценкой является: $$\hat{p} = \frac{\text{количество орлов}}{\text{общее количество бросков}}$$
В статистике под словом «резонная» понимается «разумная». Можно оценивать в виде числа.
Интервальная оценка — указать интервал, в котором, скорее всего, лежит реальная вероятность орла. Иногда интервал нагляднее одного числа.
Проверка гипотезы о честности монеты — честно ли робот кидает монетку? Интуитивно: если доля орлов больше некоторого числа $\delta$, то монетка нечестная. Но как выбрать порог $\delta$? Кто-то скажет 0.51, кто-то 0.01, кто-то 0.1, 0.5 — всё это берётся «с потолка». Методы статистики позволяют формально и обоснованно выбрать этот порог.
Также в статистике есть показатель p-value (пэ-вэлю), который мы будем обсуждать. В терминах p-value тоже можно переписать критерий «if».
Пример 2. Клинические испытания вакцины/лекарства
Проводятся клинические испытания нового лекарства. Есть набор людей, для каждого из которых известны два атрибута:
- болен / здоров
- получил вакцину / не получил вакцину
Методы математической статистики позволяют привести аргумент в пользу того, что вакцина действительно положительно влияет на здоровье человека.
Пример 3. Цена квартиры
От чего может зависеть цена квартиры?
- размер (площадь)
- ситуация на рынке
- регион (region)
- расстояние до центра (distance)
- возможно, какие-то другие факторы
Методы статистики позволяют сказать, действительно ли указанные факторы влияют на цену, или это ошибочные предположения.
Важное замечание: статистика — не серебряная пуля
Статистика не доказывает формальные утверждения так, как это делается в чистой фундаментальной математике.
Пример из медицины. Допустим, фармацевт провёл клиническое испытание, получил хорошие результаты, провёл статистический тест, p-value получилось меньше нужного значения. Он отправляет статью в журнал — и редактор её отклоняет (reject). Почему? Потому что был грубо нарушен протокол, принятый в медицинском сообществе. Нельзя в медицине «просто провести стат-тест и сказать, что вакцина эффективна».
Вывод: в каждой предметной области есть свои протоколы применения статистических методов. Курс посвящён именно самим статистическим методам, но нужно понимать, что в каждой предметной области есть своя специфика.
Репрезентативность выборки
Вопрос: какое свойство выборки позволяет сделать содержательные выводы о всей генеральной совокупности?
Ответ: репрезентативность.
Важно: к утверждению «чем больше объём выборки, тем она репрезентативнее» нужно подходить очень осторожно.
Пример нерепрезентативной выборки
Социологический опрос жителей России. Анкета размещена только в интернете, заполнили сотни тысяч человек. Является ли выборка репрезентативной?
Нет, потому что есть люди, которые по тем или иным причинам не любят заполнять анкеты в интернете. Тем самым проигнорирован существенный кластер людей.
Виды выборок (на примере социологии)
- Чисто случайная выборка — объекты берутся случайно из генеральной совокупности.
- Стратифицированная выборка — есть кластеры (страты), которые заранее известны. В рамках каждого класса случайно выбираются люди, потом всё объединяется в одну выборку. Например, делим людей на группы по возрасту, профессии и т.п., и из каждой группы случайно выбираем некоторое количество людей.
Это сильно зависит от дизайна исследования и предметной области.
Главный вывод: утверждение «чем больше объём выборки, тем она репрезентативнее» далеко не всегда правда.
Простейшая выборка
Определение
Пусть имеется $n$ вещественных чисел. Будем воспринимать их как $n$ независимых одинаково распределённых случайных величин:
$$X_1, X_2, \ldots, X_n$$Распределение задаётся теоретической функцией распределения $F(t)$.
Почему случайные величины? Потому что в разных экспериментах могут получаться разные результаты. Например, выбираем 5 случайных студентов и измеряем рост — получаем один результат; выбираем других 5 — получаем другой результат.
Почему «простейшая»? Потому что величины независимы и одинаково распределены.
Цель
Оценить неизвестную функцию распределения $F$ на основе выборки.
Обозначения
- Большие буквы $X_1, \ldots, X_n$ — элементы выборки как случайные величины.
- Маленькие буквы $x_1, \ldots, x_n$ — конкретная реализация выборки (когда важно подчеркнуть, что речь идёт о конкретных числах).
- Краткая запись: $X_1, \ldots, X_n \sim F$ — выборка из распределения $F$.
- Иногда указывается конкретный класс распределений:
- $\mathcal{N}(\mu, \sigma^2)$ — нормальное распределение с матожиданием $\mu$ и дисперсией $\sigma^2$
- $\text{Exp}(\lambda)$ — экспоненциальное распределение с параметром $\lambda$
Пример: запись $X_1, \ldots, X_n \sim \mathcal{N}(\mu, \sigma^2)$ означает выборку из нормального закона с неизвестными $\mu$ и $\sigma^2$.
В первой части семестра почти всегда «выборка» = «простейшая выборка».
Эмпирическая функция распределения
Определение
Введём вспомогательную величину:
$$\nu_n(t) = \sum_{i=1}^{n} \mathbb{I}\{X_i \leq t\}$$— это количество элементов выборки, не превосходящих $t$.
Эмпирическая функция распределения:
$$\hat{F}_n(t) = \frac{\nu_n(t)}{n}$$— это доля (отношение) количества элементов выборки, не превосходящих $t$, к общему объёму выборки $n$.
Терминология: $n$ называется объём выборки (или размер выборки).
График
График $\hat{F}_n(t)$ — это ступенчатая функция. Высота скачка зависит от количества элементов выборки в данной точке.
Замечание. В разных учебниках функция распределения может быть непрерывна слева либо непрерывна справа. Здесь рассматривается непрерывная справа версия (знак $\leq$).
Эмпирическая ФР как случайная величина
Сама выборка — случайные величины, поэтому $\hat{F}_n(t)$ — это функция от выборки, то есть тоже случайная величина. В разных экспериментах будет получаться своя $\hat{F}_n$. Значит, можно говорить о её распределении и числовых характеристиках.
Свойства эмпирической ФР
Распределение индикатора
Индикатор $\mathbb{I}\{X_i \leq t\}$ принимает значения $0$ или $1$. Это распределение Бернулли с параметром:
$$p = P(X_i \leq t) = F(t)$$Это и есть теоретическая функция распределения.
Распределение $\nu_n(t)$
$\nu_n(t)$ — сумма $n$ бернуллиевских величин, значит:
$$\nu_n(t) \sim \text{Bin}(n, F(t))$$Отсюда:
$$\mathbb{E}\,\nu_n(t) = n F(t)$$$$\text{Var}\,\nu_n(t) = n F(t)(1 - F(t))$$Несмещённость
$$\mathbb{E}\,\hat{F}_n(t) = \frac{\mathbb{E}\,\nu_n(t)}{n} = \frac{n F(t)}{n} = F(t)$$В среднем эмпирическая функция распределения совпадает с теоретической.
Определение. Свойство несмещённости: математическое ожидание оценки равняется самому оцениваемому параметру.
Практический смысл: отсутствует систематическая ошибка. Можно получить оценку больше или меньше истинного значения, но в среднем — попадаешь в цель.
Состоятельность (закон больших чисел)
$\hat{F}_n(t)$ — усреднённая сумма независимых одинаково распределённых случайных величин. По закону больших чисел:
$$\hat{F}_n(t) \xrightarrow{P} F(t)$$Определение. Свойство состоятельности: оценка сходится по вероятности к параметру при $n \to \infty$.
Практический смысл: оценка вообще «разумная» — при увеличении объёма выборки она становится всё ближе к реальному значению оцениваемого параметра.
Асимптотическая нормальность (ЦПТ)
По центральной предельной теореме:
$$\frac{\nu_n(t) - n F(t)}{\sqrt{n F(t)(1 - F(t))}} \xrightarrow{d} \mathcal{N}(0, 1)$$Или, после преобразований (вынося $n$ из числителя):
$$\sqrt{n} \cdot \frac{\hat{F}_n(t) - F(t)}{\sqrt{F(t)(1 - F(t))}} \xrightarrow{d} \mathcal{N}(0, 1)$$Определение. Свойство асимптотической нормальности: домноженная на $\sqrt{n}$ и нормированная разность между оценкой и оцениваемым параметром сходится по распределению к стандартной гауссовской величине.
Применение: построение доверительного интервала
Задача
Дано вещественное число $\gamma \in (0, 1)$. Найти такое $\delta$, чтобы:
$$P\left(\left|\hat{F}_n(t) - F(t)\right| < \delta\right) \geq \gamma$$(можем считать $n$ достаточно большим).
Решение через ЦПТ
Преобразуем выражение под вероятностью, домножив на $\sqrt{n}/\sqrt{F(t)(1-F(t))}$:
$$P\left(\frac{\sqrt{n}\,|\hat{F}_n(t) - F(t)|}{\sqrt{F(t)(1-F(t))}} < \frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right)$$При больших $n$ распределение этой величины близко к стандартному нормальному:
$$\approx \Phi\left(\frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right) - \Phi\left(-\frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right)$$Используя свойства функции распределения стандартного нормального закона:
$$= 2\Phi\left(\frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right) - 1$$Проблема и её решение
В аргументе содержится неизвестное выражение $F(t)(1-F(t))$ — а ведь $F$ как раз и хотим оценить.
Идея: оценить $F(t)(1-F(t))$ сверху.
Функция $f(x) = x(1-x)$ — парабола ветвями вниз с точкой максимума в $x = 1/2$. Её максимум на $[0,1]$ равен $1/4$.
Значит:
$$F(t)(1-F(t)) \leq \frac{1}{4} \implies \sqrt{F(t)(1-F(t))} \leq \frac{1}{2}$$В силу строгой монотонности $\Phi$:
$$2\Phi\left(\frac{\sqrt{n}\,\delta}{\sqrt{F(t)(1-F(t))}}\right) - 1 \geq 2\Phi(2\sqrt{n}\,\delta) - 1$$Требуем:
$$2\Phi(2\sqrt{n}\,\delta) - 1 \geq \gamma$$$$\Phi(2\sqrt{n}\,\delta) \geq \frac{1 + \gamma}{2}$$Использование квантилей
Определение. Квантиль порядка $\alpha$ — такое число $u_\alpha$, что:
$$P(\xi \geq u_\alpha) \geq 1 - \alpha \quad \text{(или эквивалентно)} \quad F(u_\alpha) = \alpha \text{ (в непрерывном случае)}$$Геометрически: под плотностью вещественная прямая делится на две части: слева от $u_\alpha$ — масса $\alpha$, справа — масса $1-\alpha$.
Обозначение. Для квантилей будет использоваться буква $u$ (хотя для нормального закона иногда используется $z$).
Из неравенства $\Phi(2\sqrt{n}\,\delta) \geq (1+\gamma)/2$ получаем:
$$2\sqrt{n}\,\delta \geq u_{(1+\gamma)/2}$$$$\boxed{\delta \geq \frac{u_{(1+\gamma)/2}}{2\sqrt{n}}}$$Спойлер: это и есть доверительный интервал для теоретической функции распределения. К этой теме мы вернёмся в своё время.
Дополнительные теоремы для эмпирической ФР
Теорема Гливенко–Кантелли
Условия: простейшая выборка, $F$ — теоретическая ФР, $\hat{F}_n$ — эмпирическая ФР.
Утверждение:
$$P\left(\sup_{t \in \mathbb{R}}\left|\hat{F}_n(t) - F(t)\right| \xrightarrow[n \to \infty]{} 0\right) = 1$$То есть с вероятностью 1 супремум модуля разности между эмпирической и теоретической ФР стремится к нулю.
Теорема Колмогорова
Условия: простейшая выборка, теоретическая ФР $F$ должна быть непрерывной.
Важно: теорема Колмогорова работает только для непрерывных распределений; для дискретных она не имеет места быть.
Обозначение:
$$D_n = \sqrt{n} \cdot \sup_{t \in \mathbb{R}} \left|\hat{F}_n(t) - F(t)\right|$$Утверждение: $D_n$ имеет предельное распределение, задаваемое функцией распределения Колмогорова:
$$P(D_n \leq x) \xrightarrow[n \to \infty]{} K(x)$$где аналитический вид:
$$K(x) = \sum_{j=-\infty}^{\infty} (-1)^j \, e^{-2 j^2 x^2}$$Эта функция табулирована и реализована во многих статистических пакетах и библиотеках. Она используется для построения критерия Колмогорова.
Теорема Смирнова
Условия: есть две независимые выборки:
- $X_1, \ldots, X_n \sim F$ (непрерывное распределение)
- $Y_1, \ldots, Y_m$ — выборка того же распределения
$\hat{F}_n^X$, $\hat{F}_m^Y$ — соответствующие эмпирические ФР.
Замечание о независимости выборок: если объединить обе выборки в одну, всё должно быть независимо. Например, функции от $X_i$ и от $Y_j$ независимы.
Обозначение:
$$D_{m,n} = \sqrt{\frac{mn}{m+n}} \cdot \sup_{t \in \mathbb{R}}\left|\hat{F}_n^X(t) - \hat{F}_m^Y(t)\right|$$Утверждение: при $m, n \to \infty$:
$$P(D_{m,n} \leq x) \to K(x)$$— то же самое распределение Колмогорова $K(x)$.
Поэтому в статистических пакетах два соответствующих критерия (Колмогорова и Смирнова) часто объединены в одну функцию.
Визуализация выборки
Способы визуализировать выборку:
График эмпирической функции распределения (ступенчатая функция).
Гистограмма. При построении в любой системе важно понимать: можно нормировать, можно не нормировать.
Зачем нормировать? Пример: гистограмма оценок мальчиков и девочек. Если девочек меньше, чем мальчиков, ненормированная гистограмма для мальчиков будет явно выше. При сравнении двух гистограмм на одной картинке лучше нормировать.
Существуют эмпирические (эвристические) принципы выбора оптимального количества интервалов в зависимости от объёма выборки.
При увеличении объёма выборки гистограмма для непрерывного распределения стремится к теоретической плотности.
Полигон частот. Используется для дискретных величин: откладываются частоты, точки соединяются. Особой мудрости здесь нет; обычно гистограмма нагляднее.
Кумулята (упомянута вскользь). Если эмпирическую ФР «сгладить» прямыми через границы интервалов, получим кумуляту.
Эмпирическое распределение
Если зафиксировать конкретную реализацию $x_1, \ldots, x_n$, то $\hat{F}_n$ — это функция, которая:
- монотонно возрастает,
- непрерывна справа,
- стремится к 1 на $+\infty$, к 0 на $-\infty$,
то есть удовлетворяет всем свойствам функции распределения. Значит, она задаёт некоторое распределение — называемое эмпирическим распределением.
Описание эмпирического распределения
Случайная величина $Y$ принимает значения $x_1, \ldots, x_n$ со следующими вероятностями:
$$P(Y = x) = \frac{\#\{i : x_i = x\}}{n}$$— количество элементов выборки, равных $x$, делённое на $n$.
Скачки эмпирической ФР
Если упорядочить элементы выборки и обозначить точку $x_k$ ($x_k$, скажем, лежит между $x_{k-1}$ и $x_{k+1}$), то величина скачка в точке $x_k$ равна:
$$p_k = \frac{\#\{i : x_i = x_k\}}{n}$$- Для дискретного распределения: при росте $n$ величины скачков сходятся к реальным вероятностям $p_k$.
- Для непрерывного распределения: скачки уходят в 0.
Выборочные моменты
Теоретические моменты
Модель простейшей выборки $X_1, \ldots, X_n \sim F$.
Теоретические моменты:
- Начальный момент порядка $k$: $\alpha_k = \mathbb{E}\,X_1^k$
- Центральный момент порядка $k$: $\beta_k = \mathbb{E}(X_1 - \mathbb{E}\,X_1)^k$
Поскольку величины одинаково распределены: $\mathbb{E}\,X_1^k = \mathbb{E}\,X_2^k = \ldots$
Предполагаем, что нужные моменты существуют. Напоминание: есть распределения, где у матожидания и дисперсии большие проблемы. Например, распределение Коши — у него не существует матожидания и дисперсии.
Выборочные моменты
Начальный выборочный момент порядка $k$:
$$\hat{\alpha}_k = \frac{1}{n}\sum_{i=1}^{n} X_i^k$$Один из важнейших начальных выборочных моментов — выборочное среднее:
$$\hat{\alpha}_1 = \overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$$Важное предостережение! Когда люди (либо не до конца разобравшись, либо специально желая ввести в заблуждение) приводят только средние — этого далеко не достаточно. Нужны и другие характеристики.
Центральный выборочный момент порядка $k$:
$$\hat{\beta}_k = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^k$$Выборочная дисперсия — наиболее важный центральный выборочный момент:
$$S_*^2 = \hat{\beta}_2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2$$Выборочное стандартное отклонение (выборочное среднее квадратическое отклонение):
$$S_* = \sqrt{S_*^2}$$Выборочные моменты как моменты эмпирического распределения
Предположим для простоты, что все $x_1, \ldots, x_n$ различны. Тогда формула выборочного среднего:
$$\overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i$$— это среднее арифметическое, или, иными словами, сумма $X_i \cdot \frac{1}{n}$, где $\frac{1}{n}$ — вероятности значений в эмпирическом распределении.
Ключевое наблюдение: выборочный момент — не что иное, как матожидание относительно эмпирического распределения.
Это позволяет переносить «теоретические» формулы на «выборочные»:
$$\text{Var}(X) = \mathbb{E}(X^2) - (\mathbb{E}\,X)^2 \implies S_*^2 = \hat{\alpha}_2 - \overline{X}^2$$Почему? Потому что выборочные моменты — моменты относительно эмпирического распределения, и формула дисперсии переносится непосредственно.
Удобная нотация
Пусть $g: \mathbb{R} \to \mathbb{R}$ — некоторая функция. Введём обозначение:
$$\overline{g(X)} = \frac{1}{n}\sum_{i=1}^{n} g(X_i)$$Тогда:
- $\hat{\alpha}_k = \overline{X^k}$ (взять $g(x) = x^k$)
- $\hat{\beta}_k = \overline{(X - \overline{X})^k}$ (взять $g(x) = (x - \overline{X})^k$)
Это just notation — просто обозначение, которое будет активно эксплуатироваться.
Свойства начальных выборочных моментов
Выборка — случайная, поэтому моменты — тоже случайные величины. Можно говорить об их распределении.
Несмещённость
$$\mathbb{E}\,\hat{\alpha}_k = \mathbb{E}\left(\frac{1}{n}\sum_{i=1}^{n} X_i^k\right) = \frac{1}{n}\sum_{i=1}^{n}\mathbb{E}\,X_i^k = \frac{n \cdot \alpha_k}{n} = \alpha_k$$Начальный выборочный момент — несмещённая оценка теоретического начального момента.
Состоятельность (закон больших чисел)
$\hat{\alpha}_k$ — усреднённая сумма независимых одинаково распределённых случайных величин $X_i^k$. По закону больших чисел:
$$\hat{\alpha}_k \xrightarrow{P} \alpha_k$$Оценка состоятельная.
Асимптотическая нормальность (ЦПТ)
По центральной предельной теореме:
$$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\text{Var}(X_1^k)}} \xrightarrow{d} \mathcal{N}(0, 1)$$или, расписав дисперсию:
$$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\mathbb{E}\,X_1^{2k} - (\mathbb{E}\,X_1^k)^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$То есть:
$$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\alpha_{2k} - \alpha_k^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$Замена теоретических моментов выборочными в знаменателе
Проблема
В знаменателе ЦПТ-формулы стоят неизвестные характеристики $\alpha_{2k}, \alpha_k$. Это будет мешать решать статистические задачи (например, оценивать $\alpha_k$).
Замечание про знак: выражение $\alpha_{2k} - \alpha_k^2$ — это дисперсия, она не отрицательна (но может быть равна 0).
Решение: подставить выборочные аналоги
Утверждение: если в знаменатель подставить выборочные моменты вместо теоретических, сходимость к нормальному закону сохранится.
Рассматриваем модифицированную статистику:
$$T_n = \sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\hat{\alpha}_{2k} - \hat{\alpha}_k^2}}$$Определение. Статистика — это функция от выборки (для математически строгих — измеримая функция). Внимание: «статистика» — не только название предмета, но и термин!
Доказательство сходимости (схема)
Преобразуем (умножаем и делим на теоретический корень):
$$T_n = \underbrace{\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\alpha_{2k} - \alpha_k^2}}}_{\xrightarrow{d}\, \mathcal{N}(0,1)\, \text{по ЦПТ}} \cdot \underbrace{\sqrt{\frac{\alpha_{2k} - \alpha_k^2}{\hat{\alpha}_{2k} - \hat{\alpha}_k^2}}}_{\xrightarrow{P}\, 1}$$Почему второй множитель сходится по вероятности к 1?
- $\hat{\alpha}_{2k} \xrightarrow{P} \alpha_{2k}$ (состоятельность)
- $\hat{\alpha}_k \xrightarrow{P} \alpha_k$ (состоятельность)
- Возведение в квадрат, разность, деление, извлечение корня — всё это непрерывные функции на области определения.
- Непрерывные функции сохраняют сходимость по вероятности.
Поэтому $\sqrt{\frac{\alpha_{2k} - \alpha_k^2}{\hat{\alpha}_{2k} - \hat{\alpha}_k^2}} \xrightarrow{P} 1$.
Используя свойство сходимости (произведение случайной величины, сходящейся по распределению, на величину, сходящуюся по вероятности к константе):
$$T_n \xrightarrow{d} \mathcal{N}(0, 1)$$Зачем нужна эта замена
В исходной записи в знаменателе стоят неизвестные характеристики — это потенциально мешает оценивать $\alpha_k$. Чтобы упростить себе жизнь в оценивании $\alpha_k$, теоретические характеристики заменяются выборочными, и оказывается, что данная величина также сходится к стандартной гауссовской величине.
Этот результат зафиксируем. Он понадобится в дальнейшем — в частности, для построения асимптотических доверительных интервалов для математического ожидания и для проверки различных статистических гипотез о матожидании.
Что будет на следующей лекции
В следующий раз:
- Разговор о центральных выборочных моментах.
- В частности, поймём, зачем нужны две выборочные дисперсии (есть две выборочные дисперсии, и обе важны).