# Лекция 1. Введение в математическую статистику ## Что изучает математическая статистика В этом семестре изучается **математическая статистика**. Чтобы понять её предмет, полезно сравнить с теорией вероятностей. **Теория вероятностей** (грубо говоря): есть некоторая модель, задаётся распределение базовых параметров, и на основе этого находятся числовые характеристики или распределения функций этих параметров. **Математическая статистика** имеет другую глобальную задачу. Допустим, есть совокупность всех студентов, и по тем или иным причинам нельзя обследовать каждый объект из этого набора. В контексте статистики такой полный набор называется **генеральной совокупностью**. Чтобы сделать вывод о генеральной совокупности, берут конечный поднабор из неё, который называется **выборкой**, и на основе выборки делают более-менее содержательные выводы о всей генеральной совокупности. ## Иллюстрирующие примеры ### Пример 1. Подбрасывание монеты роботом Робот кидает монетку, мы видим результат: последовательность нулей и единиц. Какие задачи можно решать? 1. **Точечная оценка вероятности орла** — оценить вероятность орла в виде числа. Резонной оценкой является: $$\hat{p} = \frac{\text{количество орлов}}{\text{общее количество бросков}}$$ В статистике под словом «резонная» понимается «разумная». Можно оценивать в виде числа. 2. **Интервальная оценка** — указать интервал, в котором, скорее всего, лежит реальная вероятность орла. Иногда интервал нагляднее одного числа. 3. **Проверка гипотезы о честности монеты** — честно ли робот кидает монетку? Интуитивно: если доля орлов больше некоторого числа $\delta$, то монетка нечестная. Но как выбрать порог $\delta$? Кто-то скажет 0.51, кто-то 0.01, кто-то 0.1, 0.5 — всё это берётся «с потолка». **Методы статистики позволяют формально и обоснованно выбрать этот порог**. > Также в статистике есть показатель **p-value (пэ-вэлю)**, который мы будем обсуждать. В терминах p-value тоже можно переписать критерий «if». ### Пример 2. Клинические испытания вакцины/лекарства Проводятся клинические испытания нового лекарства. Есть набор людей, для каждого из которых известны два атрибута: - болен / здоров - получил вакцину / не получил вакцину Методы математической статистики позволяют **привести аргумент в пользу того, что вакцина действительно положительно влияет на здоровье человека**. ### Пример 3. Цена квартиры От чего может зависеть цена квартиры? - размер (площадь) - ситуация на рынке - регион (region) - расстояние до центра (distance) - возможно, какие-то другие факторы Методы статистики позволяют сказать, действительно ли указанные факторы влияют на цену, или это ошибочные предположения. ## Важное замечание: статистика — не серебряная пуля Статистика **не доказывает** формальные утверждения так, как это делается в чистой фундаментальной математике. **Пример из медицины.** Допустим, фармацевт провёл клиническое испытание, получил хорошие результаты, провёл статистический тест, p-value получилось меньше нужного значения. Он отправляет статью в журнал — и редактор её отклоняет (reject). Почему? Потому что был грубо нарушен **протокол**, принятый в медицинском сообществе. Нельзя в медицине «просто провести стат-тест и сказать, что вакцина эффективна». **Вывод:** в каждой предметной области есть свои протоколы применения статистических методов. Курс посвящён именно самим статистическим методам, но нужно понимать, что в каждой предметной области есть своя специфика. ## Репрезентативность выборки **Вопрос:** какое свойство выборки позволяет сделать содержательные выводы о всей генеральной совокупности? **Ответ:** репрезентативность. > **Важно:** к утверждению «чем больше объём выборки, тем она репрезентативнее» нужно подходить очень осторожно. ### Пример нерепрезентативной выборки Социологический опрос жителей России. Анкета размещена только в интернете, заполнили сотни тысяч человек. Является ли выборка репрезентативной? **Нет**, потому что есть люди, которые по тем или иным причинам не любят заполнять анкеты в интернете. Тем самым проигнорирован существенный кластер людей. ### Виды выборок (на примере социологии) - **Чисто случайная выборка** — объекты берутся случайно из генеральной совокупности. - **Стратифицированная выборка** — есть кластеры (страты), которые заранее известны. В рамках каждого класса случайно выбираются люди, потом всё объединяется в одну выборку. Например, делим людей на группы по возрасту, профессии и т.п., и из каждой группы случайно выбираем некоторое количество людей. Это сильно зависит от **дизайна исследования** и **предметной области**. > **Главный вывод:** утверждение «чем больше объём выборки, тем она репрезентативнее» **далеко не всегда правда**. # Эмпирическая функция распределения ## Определение Введём вспомогательную величину: $$\nu_n(t) = \sum_{i=1}^{n} \mathbb{I}\{X_i \leq t\}$$ — это **количество элементов выборки, не превосходящих $t$**. **Эмпирическая функция распределения**: $$\hat{F}_n(t) = \frac{\nu_n(t)}{n}$$ — это **доля (отношение) количества элементов выборки, не превосходящих $t$, к общему объёму выборки $n$**. > **Терминология:** $n$ называется **объём выборки** (или размер выборки). ## График График $\hat{F}_n(t)$ — это ступенчатая функция. Высота скачка зависит от количества элементов выборки в данной точке. > **Замечание.** В разных учебниках функция распределения может быть непрерывна слева либо непрерывна справа. Здесь рассматривается непрерывная справа версия (знак $\leq$). ## Эмпирическая ФР как случайная величина Сама выборка — случайные величины, поэтому $\hat{F}_n(t)$ — это **функция от выборки**, то есть **тоже случайная величина**. В разных экспериментах будет получаться своя $\hat{F}_n$. Значит, можно говорить о её распределении и числовых характеристиках. ## Свойства эмпирической ФР ### Распределение индикатора Индикатор $\mathbb{I}\{X_i \leq t\}$ принимает значения $0$ или $1$. Это **распределение Бернулли** с параметром: $$p = P(X_i \leq t) = F(t)$$ Это и есть теоретическая функция распределения. ### Распределение $\nu_n(t)$ $\nu_n(t)$ — сумма $n$ бернуллиевских величин, значит: $$\nu_n(t) \sim \text{Bin}(n, F(t))$$ Отсюда: $$\mathbb{E}\,\nu_n(t) = n F(t)$$ $$\text{Var}\,\nu_n(t) = n F(t)(1 - F(t))$$ ### Несмещённость $$\mathbb{E}\,\hat{F}_n(t) = \frac{\mathbb{E}\,\nu_n(t)}{n} = \frac{n F(t)}{n} = F(t)$$ В среднем эмпирическая функция распределения совпадает с теоретической. > **Определение.** Свойство **несмещённости**: математическое ожидание оценки равняется самому оцениваемому параметру. > > **Практический смысл:** отсутствует систематическая ошибка. Можно получить оценку больше или меньше истинного значения, но в среднем — попадаешь в цель. ### Состоятельность (закон больших чисел) $\hat{F}_n(t)$ — усреднённая сумма независимых одинаково распределённых случайных величин. По **закону больших чисел**: $$\hat{F}_n(t) \xrightarrow{P} F(t)$$ > **Определение.** Свойство **состоятельности**: оценка сходится по вероятности к параметру при $n \to \infty$. > > **Практический смысл:** оценка вообще «разумная» — при увеличении объёма выборки она становится всё ближе к реальному значению оцениваемого параметра. ### Асимптотическая нормальность (ЦПТ) По **центральной предельной теореме**: $$\frac{\nu_n(t) - n F(t)}{\sqrt{n F(t)(1 - F(t))}} \xrightarrow{d} \mathcal{N}(0, 1)$$ Или, после преобразований (вынося $n$ из числителя): $$\sqrt{n} \cdot \frac{\hat{F}_n(t) - F(t)}{\sqrt{F(t)(1 - F(t))}} \xrightarrow{d} \mathcal{N}(0, 1)$$ > **Определение.** Свойство **асимптотической нормальности**: домноженная на $\sqrt{n}$ и нормированная разность между оценкой и оцениваемым параметром сходится по распределению к стандартной гауссовской величине. # Дополнительные теоремы для эмпирической ФР ## Теорема Гливенко–Кантелли **Условия:** простейшая выборка, $F$ — теоретическая ФР, $\hat{F}_n$ — эмпирическая ФР. **Утверждение:** $$P\left(\sup_{t \in \mathbb{R}}\left|\hat{F}_n(t) - F(t)\right| \xrightarrow[n \to \infty]{} 0\right) = 1$$ То есть **с вероятностью 1** супремум модуля разности между эмпирической и теоретической ФР стремится к нулю. ## Теорема Колмогорова **Условия:** простейшая выборка, теоретическая ФР $F$ должна быть **непрерывной**. > **Важно:** теорема Колмогорова работает только для непрерывных распределений; для дискретных она не имеет места быть. **Обозначение:** $$D_n = \sqrt{n} \cdot \sup_{t \in \mathbb{R}} \left|\hat{F}_n(t) - F(t)\right|$$ **Утверждение:** $D_n$ имеет предельное распределение, задаваемое функцией распределения Колмогорова: $$P(D_n \leq x) \xrightarrow[n \to \infty]{} K(x)$$ где аналитический вид: $$K(x) = \sum_{j=-\infty}^{\infty} (-1)^j \, e^{-2 j^2 x^2}$$ Эта функция табулирована и реализована во многих статистических пакетах и библиотеках. Она используется для построения **критерия Колмогорова**. ## Теорема Смирнова **Условия:** есть две независимые выборки: - $X_1, \ldots, X_n \sim F$ (непрерывное распределение) - $Y_1, \ldots, Y_m$ — выборка того же распределения $\hat{F}_n^X$, $\hat{F}_m^Y$ — соответствующие эмпирические ФР. > **Замечание о независимости выборок:** если объединить обе выборки в одну, всё должно быть независимо. Например, функции от $X_i$ и от $Y_j$ независимы. **Обозначение:** $$D_{m,n} = \sqrt{\frac{mn}{m+n}} \cdot \sup_{t \in \mathbb{R}}\left|\hat{F}_n^X(t) - \hat{F}_m^Y(t)\right|$$ **Утверждение:** при $m, n \to \infty$: $$P(D_{m,n} \leq x) \to K(x)$$ — **то же самое распределение Колмогорова** $K(x)$. > Поэтому в статистических пакетах два соответствующих критерия (Колмогорова и Смирнова) часто **объединены в одну функцию**. # Эмпирическое распределение Если зафиксировать конкретную реализацию $x_1, \ldots, x_n$, то $\hat{F}_n$ — это функция, которая: - монотонно возрастает, - непрерывна справа, - стремится к 1 на $+\infty$, к 0 на $-\infty$, то есть удовлетворяет всем свойствам функции распределения. Значит, **она задаёт некоторое распределение** — называемое **эмпирическим распределением**. ## Описание эмпирического распределения Случайная величина $Y$ принимает значения $x_1, \ldots, x_n$ со следующими вероятностями: $$P(Y = x) = \frac{\#\{i : x_i = x\}}{n}$$ — количество элементов выборки, равных $x$, делённое на $n$. ## Скачки эмпирической ФР Если упорядочить элементы выборки и обозначить точку $x_k$ ($x_k$, скажем, лежит между $x_{k-1}$ и $x_{k+1}$), то **величина скачка** в точке $x_k$ равна: $$p_k = \frac{\#\{i : x_i = x_k\}}{n}$$ - Для **дискретного** распределения: при росте $n$ величины скачков сходятся к реальным вероятностям $p_k$. - Для **непрерывного** распределения: скачки уходят в 0. # Свойства начальных выборочных моментов Выборка — случайная, поэтому моменты — тоже случайные величины. Можно говорить об их распределении. ## Несмещённость $$\mathbb{E}\,\hat{\alpha}_k = \mathbb{E}\left(\frac{1}{n}\sum_{i=1}^{n} X_i^k\right) = \frac{1}{n}\sum_{i=1}^{n}\mathbb{E}\,X_i^k = \frac{n \cdot \alpha_k}{n} = \alpha_k$$ Начальный выборочный момент — **несмещённая оценка** теоретического начального момента. ## Состоятельность (закон больших чисел) $\hat{\alpha}_k$ — усреднённая сумма независимых одинаково распределённых случайных величин $X_i^k$. По закону больших чисел: $$\hat{\alpha}_k \xrightarrow{P} \alpha_k$$ Оценка **состоятельная**. ## Асимптотическая нормальность (ЦПТ) По центральной предельной теореме: $$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\text{Var}(X_1^k)}} \xrightarrow{d} \mathcal{N}(0, 1)$$ или, расписав дисперсию: $$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\mathbb{E}\,X_1^{2k} - (\mathbb{E}\,X_1^k)^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$ То есть: $$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\alpha_{2k} - \alpha_k^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$ # Лекция 2: Описательная статистика. Выборочные моменты, квантили и асимптотические свойства ## Дельта-метод ### Зачем нужен Для асимптотической нормальности **начальных** выборочных моментов и эмпирической функции распределения мы напрямую применяли ЦПТ. Но для **центральных** моментов это не работает: слагаемые вида $(X_j - \overline{X})^k$ **не являются независимыми**, потому что везде присутствует $\overline{X}$. Поэтому ЦПТ напрямую не применима — нужен **дельта-метод**. ### Одномерная версия дельта-метода **Постановка**. Пусть случайные величины $\xi_n$ удовлетворяют: $$\sqrt{n}(\xi_n - a) \xrightarrow{d} \mathcal{N}(0, \sigma^2)$$ Пусть $\varphi: \mathbb{R} \to \mathbb{R}$ — достаточно гладкая функция (столько раз дифференцируемая, сколько потребуется). **Вопрос**: к чему сходится $\sqrt{n}(\varphi(\xi_n) - \varphi(a))$? ### Обоснование одномерного дельта-метода **Шаг 0**: $\xi_n - a \xrightarrow{P} 0$. Действительно, рассмотрим: $$\mathbb{P}(|\xi_n - a| < \varepsilon) = \mathbb{P}(\sqrt{n}|\xi_n - a| < \sqrt{n}\varepsilon)$$ Поскольку $\sqrt{n}(\xi_n - a) \xrightarrow{d} \mathcal{N}(0,\sigma^2)$, имеем: $$\mathbb{P}(\sqrt{n}|\xi_n - a| < \sqrt{n}\varepsilon) \to \Phi_{0,\sigma^2}(+\infty) - \Phi_{0,\sigma^2}(-\infty) = 1 - 0 = 1$$ Значит, $\xi_n \xrightarrow{P} a$. **Шаг 1**. Раскладываем по формуле Тейлора с остатком в форме Лагранжа: $$\varphi(\xi_n) - \varphi(a) = \varphi'(a)(\xi_n - a) + \frac{\varphi''(\tilde{\xi}_n)}{2}(\xi_n - a)^2$$ где $\tilde{\xi}_n$ — между $a$ и $\xi_n$. **Шаг 2**. Домножим на $\sqrt{n}$: $$\sqrt{n}(\varphi(\xi_n) - \varphi(a)) = \varphi'(a) \cdot \sqrt{n}(\xi_n - a) + \frac{\varphi''(\tilde{\xi}_n)}{2}\sqrt{n}(\xi_n - a)^2$$ - Первое слагаемое: $\varphi'(a) \cdot \sqrt{n}(\xi_n-a) \xrightarrow{d} \mathcal{N}(0, (\varphi'(a))^2 \sigma^2)$ - Второе слагаемое: $\sqrt{n}(\xi_n - a)^2 = \underbrace{\sqrt{n}(\xi_n - a)}_{\to \mathcal{N}(0,\sigma^2)} \cdot \underbrace{(\xi_n - a)}_{\xrightarrow{P} 0} \xrightarrow{P} 0$, причём $\tilde{\xi}_n \xrightarrow{P} a$, $\varphi''(\tilde{\xi}_n)$ — ограничено. В итоге всё второе слагаемое сходится к нулю по вероятности. ### Результат (одномерный дельта-метод) $$\boxed{\sqrt{n}(\varphi(\xi_n) - \varphi(a)) \xrightarrow{d} \mathcal{N}(0,\, (\varphi'(a))^2 \sigma^2)}$$ ### Многомерная версия дельта-метода **Постановка**: $\xi_n$ — теперь случайный вектор, и $$\sqrt{n}(\xi_n - a) \xrightarrow{d} \mathcal{N}(0, \Sigma)$$ где $\Sigma$ — матрица ковариаций. Пусть $\varphi: \mathbb{R}^d \to \mathbb{R}$ — гладкая (непрерывно дифференцируемая) функция $d$ переменных. **Утверждение**: $$\sqrt{n}(\varphi(\xi_n) - \varphi(a)) \xrightarrow{d} \mathcal{N}(0,\, \nabla\varphi(a)^\top \Sigma\, \nabla\varphi(a))$$ где $\nabla\varphi(a)$ — градиент (строчка из частных производных). Размерность согласуется: строчка × матрица × столбец = число. **Замечание**: матрица ковариаций — это аналог дисперсии в многомерном случае. ### Многомерная ЦПТ (для удобства использования) Пусть $X_1, \ldots, X_n$ — независимые одинаково распределённые случайные **векторы**, $\mathbb{E}X_1 = a$, $\mathbb{D}X_1 = \Sigma$. Пусть $S_n = \sum_{k=1}^n X_k$. Тогда: $$\frac{S_n - na}{\sqrt{n}} \xrightarrow{d} \mathcal{N}(0, \Sigma)$$ В удобной для статистики форме: $$\sqrt{n}\left(\frac{S_n}{n} - a\right) \xrightarrow{d} \mathcal{N}(0, \Sigma)$$ ## Асимптотическая нормальность выборочной дисперсии ### Применение теоремы Выборочная дисперсия: $$S^{*2} = \overline{X^2} - \overline{X}^2 = \varphi(\overline{X}, \overline{X^2})$$ где $\varphi(x_1, x_2) = x_2 - x_1^2$. **Градиент**: $$\nabla\varphi(x_1, x_2) = (-2x_1,\, 1)$$ В точке $a = (\mathbb{E}X_1, \mathbb{E}X_1^2)$: $$\nabla\varphi(a) = (-2\mathbb{E}X_1,\, 1)$$ ### Применяем дельта-метод $$\sqrt{n}(S^{*2} - \mathbb{D}X_1) \xrightarrow{d} \mathcal{N}(0,\, \sigma^2)$$ где $$\sigma^2 = (-2\mathbb{E}X_1,\, 1) \cdot \begin{pmatrix} \mathbb{D}X_1 & \mathrm{cov}(X_1, X_1^2) \\ \mathrm{cov}(X_1, X_1^2) & \mathbb{D}X_1^2 \end{pmatrix} \cdot \begin{pmatrix} -2\mathbb{E}X_1 \\ 1 \end{pmatrix}$$ ### Упрощение (упражнение) После раскрытия: $$\sigma^2 = \mathbb{E}(X - \mathbb{E}X)^4 - (\mathbb{D}X)^2 = \mu_4 - \beta_2^2$$ где $\mu_4$ — четвёртый центральный момент. ### Стандартизованный результат $$\frac{\sqrt{n}(S^{*2} - \mathbb{D}X)}{\sqrt{\hat{\beta}_4 - (S^{*2})^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$ где $\hat{\beta}_4$ — четвёртый выборочный центральный момент. **Вывод**: выборочная дисперсия — **асимптотически нормальная** оценка. ## Порядковые статистики и выборочные квантили ### Вариационный ряд Пусть $X_1, \ldots, X_n$ — исходная выборка. **Сортируем по возрастанию** и получаем: $$X_{(1)} \leq X_{(2)} \leq \ldots \leq X_{(n)}$$ Это и есть **вариационный ряд**. Элементы $X_{(k)}$ называются **порядковыми статистиками**. **Замечание**: некоторые авторы под вариационным рядом понимают **статистический ряд** — где сначала берётся `unique`, затем для каждого уникального значения считается количество вхождений $\nu_i$: $$(x_1, \nu_1), (x_2, \nu_2), \ldots, (x_m, \nu_m)$$ после чего массив сортируется по $x$. Здесь $\nu_i$ — случайные величины (функции от выборки). ### Теоретический квантиль (повторение) **Квантиль порядка $\alpha$** $u_\alpha$ — это число, такое что: $$\mathbb{P}(X \geq u_\alpha) \geq 1 - \alpha \quad \text{и} \quad \mathbb{P}(X \leq u_\alpha) \geq \alpha$$ В **непрерывном случае** квантиль определяется однозначно: $$F(u_\alpha) = \alpha$$ **Геометрическая интерпретация**: квантиль $u_\alpha$ делит вероятностную массу под графиком плотности на части $\alpha$ (слева) и $1 - \alpha$ (справа). ### Выборочные квантили Обозначение: $\hat{u}_\alpha$. **Граничные случаи**: - $\hat{u}_0 = X_{(1)} = \min X_i$ — минимум - $\hat{u}_1 = X_{(n)} = \max X_i$ — максимум **Содержательный случай** $\alpha \in (0, 1)$. Существует номер $k \in \{1, \ldots, n\}$, такой что: $$\frac{k-1}{n} < \alpha \leq \frac{k}{n}$$ Тогда: $$\hat{u}_\alpha = X_{(k)} = X_{(\lceil n\alpha \rceil)}$$ (элемент вариационного ряда с номером $\lceil n\alpha \rceil$). ### Связанные термины **Квартили** (от лат. *quartus* — четвёртый): делят выборку на четыре равные (в смысле эмпирической вероятностной массы) части. - Нулевой квартиль = $\min$ - Первый квартиль (нижний) = $\hat{u}_{1/4}$ - Второй квартиль = **медиана** = $\hat{u}_{1/2}$ - Третий квартиль (верхний) = $\hat{u}_{3/4}$ - Четвёртый квартиль = $\max$ **Перцентили**: например, 74-й перцентиль = $\hat{u}_{0.74}$. **Дециль**: разбиение на десять частей. ### Выборочная медиана Часто определяется специальным образом в зависимости от чётности $n$: - Если $n = 2m+1$ (нечётно): $\widehat{\mathrm{med}} = X_{(m+1)}$ — центральный элемент. - Если $n = 2m$ (чётно): $\widehat{\mathrm{med}} = \dfrac{X_{(m)} + X_{(m+1)}}{2}$ — среднее арифметическое двух центральных элементов вариационного ряда. При программировании необходимо смотреть, какое именно определение используется в конкретной библиотеке. ## Асимптотические результаты для порядковых статистик ### Теорема об асимптотике среднего члена вариационного ряда **Условия**: $X_1, \ldots, X_n$ — выборка из непрерывного закона с теоретической плотностью $f$. Пусть $p \in (0, 1)$ — фиксированное число. **Утверждение**: $$\sqrt{n} \cdot f(u_p) \cdot \frac{X_{(\lceil np \rceil)} - u_p}{\sqrt{p(1-p)}} \xrightarrow{d} \mathcal{N}(0, 1)$$ при $n \to \infty$. **Замечания**: - $u_p$ — теоретический квантиль порядка $p$. - Выборочный квантиль порядка $p$ — **асимптотически нормальная** оценка теоретического квантиля. - Структура напоминает дисперсию распределения Бернулли $p(1-p)$. - При $p = 1/2$ получаем результат для **выборочной медианы**. - На русском языке эта теорема плохо гуглится — на английском лучше. ### Теорема об асимптотике крайних членов вариационного ряда (более экзотическая) **Условия**: те же — выборка из непрерывного закона. **Утверждение**: Для фиксированных $\ell, s$: - $n \cdot F(X_{(\ell)})$ сходится по распределению к $\Gamma$-распределению с параметрами $(\ell, 1)$. - $n \cdot (1 - F(X_{(n - s + 1)}))$ сходится по распределению к $\Gamma$-распределению с параметрами $(s, 1)$. При этом эти предельные распределения **независимы**. --- ## Заключительные замечания ### Что обсудили в курсе - **Описательные статистики**: эмпирическая функция распределения, гистограмма, выборочные характеристики. - **Хорошие свойства** выборочных характеристик: состоятельность, несмещённость (для исправленных версий), асимптотическая нормальность. ### Важная оговорка: модель простейшей выборки Все эти результаты получены в рамках модели **простейшей выборки** (i.i.d.), а это **сильное предположение**. ### Проблема робастности Если ослабить предположения модели (например, отказаться от полной независимости/одинаковой распределённости, допустить выбросы), оценки могут вести себя по-разному: - **Выборочное среднее** — **неробастная** оценка: при наличии выбросов оно сильно искажается. - **Медиана** — более **устойчивая** оценка к выбросам. Это нетривиальная тема, на эту тему написано немалое количество **нетонких** книг. Конкретные подходы к борьбе с нарушением условий зависят от конкретной задачи и предметной области. ### Где почитать про распределение порядковых статистик Ивченко, Медведев — «Введение в математическую статистику» (упоминалась в списке литературы курса). --- # Лекция 3: Точечное оценивание параметров. Метод моментов ## Общая постановка задачи Пусть имеется **модель простейшей выборки**. С теоретической точки зрения это набор независимых одинаково распределённых случайных величин, распределение которых задаётся функцией распределения. При этом будем предполагать, что функция распределения параметризуется неким параметром $\theta$: $$F(x; \theta), \quad \theta \in \Theta \subseteq \mathbb{R}^d$$ где $\Theta$ — множество допустимых значений параметра, а $\theta$ может быть $d$-мерным вектором. **Мотивация:** часто есть основания предполагать, что выборка пришла из какого-то класса распределений. Например: - В биологии сами данные или их логарифмы аппроксимируются нормальным законом. - Для потоков событий нередко используется распределение Пуассона. **Цель:** оценить неизвестный параметр $\theta$ в виде $\hat{\theta}$, где $\hat{\theta}$ — это какая-то функция от выборки. > Напоминание: функция от выборки кратко называется **статистикой**. Нам бы какая оценка не годится — хотелось, чтобы она удовлетворяла каким-то хорошим свойствам. ## Связь свойств: разложение MSE ### Распишем MSE $$\text{MSE}(\hat{\theta}) = \mathbb{E}\left[(\hat{\theta} - \theta)^T(\hat{\theta} - \theta)\right]$$ Применим приём "плюс-минус $\mathbb{E}\hat{\theta}$": $$\hat{\theta} - \theta = (\hat{\theta} - \mathbb{E}\hat{\theta}) + (\mathbb{E}\hat{\theta} - \theta)$$ Раскрывая скобки и используя линейность математического ожидания, получим **четыре слагаемых**: 1. $\mathbb{E}\left[(\hat{\theta} - \mathbb{E}\hat{\theta})^T(\hat{\theta} - \mathbb{E}\hat{\theta})\right]$ 2. $\mathbb{E}\left[(\mathbb{E}\hat{\theta} - \theta)^T(\mathbb{E}\hat{\theta} - \theta)\right]$ 3. $\mathbb{E}\left[(\hat{\theta} - \mathbb{E}\hat{\theta})^T(\mathbb{E}\hat{\theta} - \theta)\right]$ 4. $\mathbb{E}\left[(\mathbb{E}\hat{\theta} - \theta)^T(\hat{\theta} - \mathbb{E}\hat{\theta})\right]$ ### Анализ слагаемых **Слагаемые 3 и 4 равны нулю.** Рассуждение: - $\theta$ — константа. - $\mathbb{E}\hat{\theta}$ — это число (не случайная величина), значит тоже константа. - Следовательно, $\mathbb{E}\hat{\theta} - \theta$ — константа, которую можно вынести из-под знака математического ожидания. - Остаётся $\mathbb{E}[\hat{\theta} - \mathbb{E}\hat{\theta}] = \mathbb{E}\hat{\theta} - \mathbb{E}\hat{\theta} = 0$. > Транспонирование константы — это тоже константа (транспонированная), не важно, строчка или вектор. **Слагаемое 2** — это уже константа, поэтому $\mathbb{E}$ снимается. Оно равно квадрату нормы смещения: $$\|\text{bias}(\hat{\theta})\|^2 = \|\mathbb{E}\hat{\theta} - \theta\|^2$$ **Слагаемое 1** — расписав покомпонентно: $$\sum_{i=1}^{d} \mathbb{E}\left[(\hat{\theta}_i - \mathbb{E}\hat{\theta}_i)^2\right] = \sum_{i=1}^{d} \text{Var}(\hat{\theta}_i) = \text{tr}(\Sigma_{\hat{\theta}})$$ (на диагонали матрицы ковариации стоят как раз дисперсии). ### Итоговая формула $$\boxed{\text{MSE}(\hat{\theta}) = \text{tr}(\Sigma_{\hat{\theta}}) + \|\text{bias}(\hat{\theta})\|^2}$$ ### Соображение №1: эффективность через след матрицы ковариации Если оценка **несмещённая**, то $\text{bias} = 0$, и тогда: $$\text{MSE}(\hat{\theta}) = \text{tr}(\Sigma_{\hat{\theta}})$$ То есть для несмещённых оценок оптимизация MSE — это то же самое, что оптимизация следа матрицы ковариации. Это объясняет, почему в некоторых книгах эффективность определяется именно через минимизацию следа матрицы ковариации. > **Спойлер:** если оценка несмещённая (и выполняются некоторые условия, о которых будет сказано позже), то можно указать **нетривиальную нижнюю границу** для дисперсии оценки. Тривиальная граница — это, понятно, $0$. ## Связь свойств: асимптотическая нормальность ⟹ состоятельность ### Утверждение Если $\hat{\theta}$ — асимптотически нормальная оценка, то она состоятельна. ### Формальное доказательство По определению асимптотической нормальности: $$\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} \mathcal{N}(0, \sigma^2)$$ Распишем вероятность: $$P(|\hat{\theta} - \theta| < \varepsilon) = P(|\sqrt{n}(\hat{\theta} - \theta)| < \varepsilon\sqrt{n})$$ В силу асимптотической нормальности: $$P(|\sqrt{n}(\hat{\theta} - \theta)| < \varepsilon\sqrt{n}) \to F_{\mathcal{N}(0,\sigma^2)}(\varepsilon\sqrt{n}) - F_{\mathcal{N}(0,\sigma^2)}(-\varepsilon\sqrt{n})$$ При $n \to \infty$: - $F_{\mathcal{N}(0,\sigma^2)}(+\infty) = 1$ - $F_{\mathcal{N}(0,\sigma^2)}(-\infty) = 0$ Значит, выражение стремится к $1 - 0 = 1$. То есть оценка действительно состоятельна. ∎ ### Неформально про асимптотическую несмещённость Из $$\sqrt{n}(\hat{\theta} - \theta) \approx \mathcal{N}(0, \sigma^2)$$ неформально получаем: $$\hat{\theta} - \theta \approx \mathcal{N}\left(0, \frac{\sigma^2}{n}\right)$$ При $n \to \infty$ это распределение "сжимается" в точку $0$. Это неформальное рассуждение. > ⚠️ **Важное замечание:** обратное неверно! Из состоятельности **не следует** даже асимптотическая несмещённость. Существует экзотический контрпример (его рассмотрим в следующий раз). ## Примеры применения метода моментов ### Пример 1. Распределение Бернулли Робот много раз кидает монетку, на входе последовательность нулей и единичек. Оценить вероятность $p$ выпадения единички. Берём дефолтную функцию $g(x) = x$. Математическое ожидание распределения Бернулли: $$\mathbb{E}[X] = p$$ Переходим к эмпирическому аналогу: $$\overline{X} = \hat{p}$$ Здесь всё разрешилось тривиально. Получили: $$\boxed{\hat{p} = \overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i}$$ То есть оценка вероятности успеха — это просто выборочное среднее (количество успехов / общее количество экспериментов). **Свойства:** про выборочное среднее знаем, что это состоятельная, несмещённая, асимптотически нормальная оценка. Забегая вперёд — даже эффективная. ### Пример 3. Нормальное распределение $\mathcal{N}(\mu, b)$ Здесь $b$ — дисперсия. Два неизвестных параметра, поэтому нужны два уравнения. Берём: - $g_1(x) = x$, - $g_2(x) = x^2$. Теоретические соотношения: $$\mathbb{E}[X] = \mu$$ $$\mathbb{E}[X^2] = \text{Var}(X) + (\mathbb{E}[X])^2 = b + \mu^2$$ Эмпирические аналоги: $$\overline{X} = \hat{\mu}$$ $$\overline{X^2} = \hat{b} + \hat{\mu}^2$$ Отсюда: $$\boxed{\hat{\mu} = \overline{X}, \qquad \hat{b} = \overline{X^2} - (\overline{X})^2}$$ А $\overline{X^2} - (\overline{X})^2$ — это **выборочная дисперсия** $S^{*2}$. **Свойства:** - $\hat{\mu} = \overline{X}$ — несмещённая оценка. - $\hat{b} = S^{*2}$ — смещённая оценка (но асимптотически несмещённая). - Обе оценки состоятельные и асимптотически нормальные. > Это иллюстрирует, что в общем случае про смещённость метода моментов ничего конкретного сказать нельзя — здесь одна оценка несмещённая, другая смещённая. ### Пример 5 (демонстрационный). Равномерное распределение $U[-\theta, \theta]$ Здесь интересный случай: функция $g(x) = x$ **не подходит**, потому что: $$\mathbb{E}[X] = 0$$ — математическое ожидание не зависит от $\theta$, поэтому уравнение бессмысленно. Берём $g(x) = x^2$: $$\mathbb{E}[X^2] = \frac{\theta^2}{3}$$ Эмпирический аналог даёт явное выражение для оценки $\hat{\theta}$. > На демонстрации в Google Colab было показано: при объёме выборки 10 разброс оценки большой, а при объёме 10000 разброс существенно меньше, и распределение оценки концентрируется около реального параметра. Это иллюстрирует состоятельность и асимптотическую нормальность. --- # Лекция 4: Метод максимального правдоподобия и информация Фишера ## 1. Контрпример: асимптотическая нормальность ⇏ асимптотическая несмещённость ### Напоминание из прошлой лекции В прошлый раз были рассмотрены свойства оценок: - состоятельность, - эффективность, - асимптотическая нормальность, - несмещённость. Было показано: **если оценка асимптотически нормальная, то она состоятельна**. Сегодня покажем (обещанный контрпример), что **из асимптотической нормальности в общем случае НЕ следует асимптотическая несмещённость** (хотя обычно эта импликация имеет место). Пример экзотический, но формально корректный. ### Построение контрпримера Пусть выборка $X_1, \ldots, X_n$ из нормального распределения $\mathcal{N}(0, \sigma^2)$. Выборочное среднее $\bar{X}$ — состоятельная, несмещённая, асимптотически нормальная оценка для $0$ (поскольку матожидание здесь равно $0$). **Модифицируем оценку.** Положим: $$\hat{\theta} = \begin{cases} \bar{X}, & \text{с вероятностью } 1 - \tfrac{1}{n} \\ n, & \text{с вероятностью } \tfrac{1}{n} \end{cases}$$ ### Доказательство асимптотической нормальности $\hat{\theta}$ Рассмотрим функцию распределения $\sqrt{n}\,\hat{\theta}$ в точке $t$: $$P(\sqrt{n}\,\hat{\theta} \le t) = P\left(\sqrt{n}\,\hat{\theta} \le t \mid \text{случилось событие с вер. } 1-\tfrac{1}{n}\right)\cdot\left(1 - \tfrac{1}{n}\right) + P\left(\sqrt{n}\,\hat{\theta} \le t \mid \text{случилось событие с вер. } \tfrac{1}{n}\right)\cdot \tfrac{1}{n}$$ Это эквивалентно: $$P(\sqrt{n}\,\bar{X} \le t)\cdot\left(1 - \tfrac{1}{n}\right) + P\left(\sqrt{n}\cdot n \le t\right)\cdot \tfrac{1}{n}$$ При $n \to \infty$: - $\left(1 - \tfrac{1}{n}\right) \to 1$, - $\tfrac{1}{n} \to 0$, - $P(\sqrt{n}\,\bar{X} \le t) \to \Phi_{0,\sigma^2}(t)$ (т.к. выборочное среднее — асимптотически нормальная оценка), - второе слагаемое (ограниченная вероятность $\times \tfrac{1}{n}$) стремится к $0$. Итог: $\sqrt{n}\,\hat{\theta} \xrightarrow{d} \mathcal{N}(0, \sigma^2)$. То есть **$\hat{\theta}$ — асимптотически нормальная оценка**, а значит и **состоятельная**. ### Проверка асимптотической несмещённости $$\mathbb{E}[\hat{\theta}] = \mathbb{E}[\bar{X}]\cdot\left(1 - \tfrac{1}{n}\right) + n \cdot \tfrac{1}{n} = 0 + 1 = 1$$ Таким образом, $\mathbb{E}[\hat{\theta}] = 1 \ne 0$ для любого $n$, **асимптотической несмещённости нет**. > NOTE: Вывод > Контрпример показывает: из асимптотической нормальности **не следует** асимптотическая несмещённость, хотя состоятельность из неё следует. Контринтуитивно, но формально верно. ## 3. Алгоритм поиска оценки максимального правдоподобия ### Пункт 0. Посмотреть и подумать Возможно, удастся найти ответ, внимательно посмотрев на функцию правдоподобия — без вычислений (см. примеры с равномерным распределением и распределением Лапласа ниже). ### Пункт 1. Логарифмирование Используется свойство: производная логарифма функции $$(\ln f(x))' = \frac{f'(x)}{f(x)}$$ Логарифм — строго монотонная функция, поэтому **точка максимума не меняется**. Удобно работать с $\ln L$ потому, что произведение превращается в сумму. ### Пункт 2. Исследование на максимум 1. Рассмотреть $\ln L(X, \theta)$. 2. Вычислить производную $\dfrac{\partial \ln L}{\partial \theta}$. 3. Приравнять к нулю. 4. Проверить достаточные условия максимума. ## 5. Информация Фишера ### Условия регулярности Информация Фишера определяется в рамках условий регулярности (для одномерного случая, $\theta \in \mathbb{R}$). > WARNING: Замечание о терминологии > В разных книжках условия регулярности могут немного отличаться. То, что ниже — один из стандартных вариантов. **Условие 1.** Если $\theta_1 \ne \theta_2$, то распределение при $\theta_1$ не равно распределению при $\theta_2$ (идентифицируемость). **Условие 2.** Носитель распределения **не зависит от $\theta$**. - Множество значений случайной величины не зависит от параметра. - *Пример: равномерное распределение $U[\theta_1, \theta_2]$ — НЕ регулярно, т.к. носитель зависит от параметров.* **Условие 3.** Функция $p(x, \theta)$ дифференцируема по $\theta$ столько раз, сколько нужно. **Условие 4.** Внесение дифференцирования по $\theta$ под знак интеграла — законная операция: $$\frac{\partial}{\partial \theta}\int \ldots\, dx = \int \frac{\partial}{\partial \theta}\ldots\, dx$$ (не всегда верно в общем случае, но мы работаем там, где верно). **Условие 5.** $\mathbb{E}[V^2(X, \theta)] < \infty$ (вводится далее). ### Вклад выборки > DEFINITION: Вклад выборки > $$V(X, \theta) = \frac{\partial \ln L(X, \theta)}{\partial \theta}$$ > — логарифмическая производная функции правдоподобия. #### Интуиция термина «вклад выборки» Аналитически найти точку максимума $L$ удаётся не всегда — иногда задача решается только численно. Один из простейших численных методов — **градиентный спуск**: $$x_{k+1} = x_k - \alpha \cdot f'(x_k)$$ Здесь: - если мы правее минимума — $f'(x_k) > 0$ и сдвиг идёт влево (правильно); - если мы левее минимума — $f'(x_k) < 0$ и сдвиг идёт вправо (правильно); - чем больше $|f'|$, тем больше шаг — тем быстрее сходимость. В многомерном случае вместо производной — **градиент** (вектор частных производных). **Применяя к функции правдоподобия:** чем больше по модулю $V(X, \theta)$, тем быстрее численный метод сойдётся к оценке. Поэтому $V$ называется «вкладом выборки» — чем больше вклад, тем лучше (быстрее находится оценка). **Проблема:** $V(X, \theta)$ — случайная величина (зависит от $X$). Хотим унифицировать в виде числовой характеристики. ### Матожидание вклада выборки Рассмотрим тождество: $$1 = \int L(X, \theta)\, dX$$ (плотность интегрируется в $1$). Дифференцируем по $\theta$: $$0 = \frac{\partial}{\partial \theta}\int L(X, \theta)\, dX = \int \frac{\partial L(X, \theta)}{\partial \theta}\, dX$$ Воспользуемся **трюком**: умножим и разделим на $L$: $$0 = \int \frac{\partial L / \partial \theta}{L}\cdot L\, dX = \int \frac{\partial \ln L}{\partial \theta}\cdot L\, dX = \int V(X, \theta)\cdot L(X, \theta)\, dX$$ Это есть матожидание $V$: $$\boxed{\mathbb{E}[V(X, \theta)] = 0}$$ В среднем вклад выборки равен нулю. Не очень информативно — рассмотрим другую характеристику. ### Определение информации Фишера Мера разброса относительно нуля — **дисперсия**. > DEFINITION: Информация Фишера > $$I(\theta) = \mathrm{Var}[V(X, \theta)] = \mathrm{Var}\left[\frac{\partial \ln L(X, \theta)}{\partial \theta}\right]$$ ### Свойство 1. Аддитивность по выборке $$V(X, \theta) = \frac{\partial \ln L}{\partial \theta} = \sum_{k=1}^{n}\frac{\partial \ln p(X_k, \theta)}{\partial \theta}$$ (логарифм произведения = сумма логарифмов). Так как $X_k$ независимы, слагаемые независимы. Дисперсия суммы независимых = сумма дисперсий: $$I(\theta) = \sum_{k=1}^{n}\mathrm{Var}\left[\frac{\partial \ln p(X_k, \theta)}{\partial \theta}\right]$$ Все слагаемые одинаково распределены, поэтому: $$\boxed{I(\theta) = n\cdot i(\theta)}$$ где $i(\theta)$ — **информация Фишера для одного наблюдения**: $$i(\theta) = \mathrm{Var}\left[\frac{\partial \ln p(X, \theta)}{\partial \theta}\right]$$ ### Свойство 2. Информация Фишера через матожидание квадрата Поскольку $\mathbb{E}\left[\dfrac{\partial \ln p(X, \theta)}{\partial \theta}\right] = 0$, а дисперсия при нулевом матожидании совпадает с матожиданием квадрата: $$i(\theta) = \mathbb{E}\left[\left(\frac{\partial \ln p(X, \theta)}{\partial \theta}\right)^2\right]$$ ### Свойство 3. Альтернативная формула через вторую производную Продифференцируем тождество $\int \dfrac{\partial \ln p}{\partial \theta}\cdot p\, dx = 0$ ещё раз по $\theta$ (для одного наблюдения, индекс $k$ опускаем — все $X_k$ одинаково распределены): $$0 = \frac{\partial}{\partial \theta}\int \frac{\partial \ln p(X, \theta)}{\partial \theta}\cdot p(X, \theta)\, dX$$ Вносим производную под интеграл и применяем правило произведения: $$0 = \int \frac{\partial^2 \ln p}{\partial \theta^2}\cdot p\, dX + \int \frac{\partial \ln p}{\partial \theta}\cdot \frac{\partial p}{\partial \theta}\, dX$$ Во втором интеграле умножим и разделим на $p$: $$\int \frac{\partial \ln p}{\partial \theta}\cdot \frac{\partial p / \partial \theta}{p}\cdot p\, dX = \int \left(\frac{\partial \ln p}{\partial \theta}\right)^2\cdot p\, dX = \mathbb{E}\left[\left(\frac{\partial \ln p}{\partial \theta}\right)^2\right]$$ Получаем: $$0 = \mathbb{E}\left[\frac{\partial^2 \ln p}{\partial \theta^2}\right] + \mathbb{E}\left[\left(\frac{\partial \ln p}{\partial \theta}\right)^2\right]$$ Второе слагаемое равно $i(\theta)$, откуда: > IMPORTANT: Альтернативная формула для информации Фишера > $$\boxed{i(\theta) = -\mathbb{E}\left[\frac{\partial^2 \ln p(X, \theta)}{\partial \theta^2}\right]}$$ > > Часто удобнее для вычислений, чем определение через дисперсию. ### Замечание о записи В выкладках для одного наблюдения индекс $k$ можно опустить — поскольку все $X_k$ одинаково распределены, можно считать $k = 1$ или просто писать $X$ без индекса. --- # Лекция 5: Информация Фишера, неравенство Рао–Крамера и доверительные интервалы ## 1. Информация Фишера: напоминание определений В прошлый раз была введена **информация Фишера**. Информация Фишера для всей выборки определяется как дисперсия логарифмической функции правдоподобия: $$I_n(\theta) = D\left(\frac{\partial \ln L(x, \theta)}{\partial \theta}\right)$$ Для одного наблюдения: $$i(\theta) = D\left(\frac{\partial \ln p(x, \theta)}{\partial \theta}\right)$$ В силу того, что математическое ожидание этой величины равно нулю, дисперсия совпадает с математическим ожиданием квадрата: $$i(\theta) = E\left[\left(\frac{\partial \ln p(x, \theta)}{\partial \theta}\right)^2\right]$$ **Альтернативная формула** (через вторую производную): $$i(\theta) = -E\left[\frac{\partial^2 \ln p(x, \theta)}{\partial \theta^2}\right]$$ ## 3. Пример 2. Равномерное распределение Здесь нужно быть внимательным. **Информация Фишера не определена**, так как **не выполняются условия регулярности**. > **Необходимое условие регулярности:** множество значений случайной величины не должно зависеть от параметра. Для равномерного распределения множество значений зависит от параметра — поэтому модель **нерегулярна** и информация Фишера для неё не определяется. ## 5. Пример 3. Нормальное распределение $N(\mu, b)$ Здесь $b = \sigma^2$ — дисперсия. Плотность: $$p(x, \mu, b) = \frac{1}{\sqrt{2\pi b}} \exp\left(-\frac{(x - \mu)^2}{2b}\right)$$ **Логарифм плотности:** $$\ln p(x, \mu, b) = -\frac{1}{2} \ln(2\pi) - \frac{1}{2} \ln b - \frac{(x-\mu)^2}{2b}$$ ### Первые производные По $\mu$ (первые два слагаемых обнуляются): $$\frac{\partial \ln p}{\partial \mu} = \frac{x - \mu}{b}$$ По $b$: $$\frac{\partial \ln p}{\partial b} = -\frac{1}{2b} + \frac{(x-\mu)^2}{2b^2}$$ ### Вторые производные По $\mu$ дважды: $$\frac{\partial^2 \ln p}{\partial \mu^2} = -\frac{1}{b}$$ Смешанная (по $\mu$ и $b$): $$\frac{\partial^2 \ln p}{\partial \mu \, \partial b} = -\frac{x - \mu}{b^2}$$ По $b$ дважды: $$\frac{\partial^2 \ln p}{\partial b^2} = \frac{1}{2b^2} - \frac{(x-\mu)^2}{b^3}$$ ### Информационная матрица Берём $-E[\cdot]$ от каждой второй производной. - $-E\left[-\dfrac{1}{b}\right] = \dfrac{1}{b}$ - Смешанная: $-E\left[-\dfrac{x - \mu}{b^2}\right] = \dfrac{1}{b^2} \cdot E[x - \mu] = 0$ (т. к. $E[x] = \mu$) - По $b$ дважды: $-E\left[\dfrac{1}{2b^2} - \dfrac{(x-\mu)^2}{b^3}\right] = -\dfrac{1}{2b^2} + \dfrac{E[(x-\mu)^2]}{b^3} = -\dfrac{1}{2b^2} + \dfrac{b}{b^3} = \dfrac{1}{2b^2}$ > Здесь использовано, что $E[(x-\mu)^2] = D(x) = b$. **Итог — информационная матрица для нормального распределения:** $$\boxed{I(\mu, b) = \begin{pmatrix} \dfrac{1}{b} & 0 \\ 0 & \dfrac{1}{2b^2} \end{pmatrix}}$$ ## 7. Замечания к неравенству Рао–Крамера ### Замечание 1. Связь с MSE Вспомним: $$\mathrm{MSE} = D(T) + (\text{смещение})^2$$ Если оценка **несмещённая**, то $\mathrm{MSE} = D(T)$. Значит, при выполнении условий регулярности и несмещённости оценки можно дать нижнюю границу не только для дисперсии, но и для MSE. > **Если в регулярной модели несмещённая оценка достигает нижней границы Рао–Крамера, то она оптимальная.** То есть в несмещённой ситуации в регулярной модели оценка оптимальна тогда и только тогда, когда её дисперсия достигает нижней границы Рао–Крамера. ### Замечание 2. Многомерная формулировка Пусть $\tau(\theta)$ — функция из $\mathbb{R}^d \to \mathbb{R}$, и $T(x)$ — несмещённая оценка для $\tau(\theta)$. Тогда: $$D(T(x)) \geq \frac{1}{n} \cdot \nabla \tau(\theta)^\top \cdot I^{-1}(\theta) \cdot \nabla \tau(\theta)$$ ## 9. Асимптотическая нормальность ОМП ### Формулировка теоремы **Условия:** - $\left|\dfrac{\partial^3 \ln p(x, \theta)}{\partial \theta^3}\right| \leq M(x)$, причём $E[M(x)] < \infty$; - модель регулярна. **Утверждение:** $$\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} N\left(0, \, i^{-1}(\theta)\right)$$ Здесь $\hat{\theta}$ — **оценка максимального правдоподобия**. ### Интерпретация Неформально: при больших $n$ $$\hat{\theta} \approx N\left(\theta, \, \frac{1}{n \cdot i(\theta)}\right)$$ То есть **асимптотическая дисперсия ОМП совпадает с нижней границей Рао–Крамера**. Поэтому можно говорить, что оценки максимального правдоподобия **асимптотически эффективны**. ## 11. Общая схема построения доверительного интервала **Шаг 1.** Найти функцию $g(x, \theta)$ — статистику, аналитически зависящую от выборки и параметра, такую что **распределение $g(x, \theta)$ не зависит от $\theta$**. **Шаг 2.** Записать вероятность $$P(L \leq g(x, \theta) \leq R) = 1 - \alpha$$ **Шаг 3.** На графике плотности отсечь: - слева вероятностную массу $\alpha/2$; - справа вероятностную массу $\alpha/2$; - посередине останется $1 - \alpha$. Тогда: $$L = q_{\alpha/2}, \quad R = q_{1 - \alpha/2}$$ — квантили распределения статистики $g$. **Шаг 4.** Разрешить неравенство относительно $\theta$ — получится доверительный интервал. ## 13. Три важных вспомогательных распределения Перед тем как переходить к следующим задачам, нужно ввести три распределения, играющих ключевую роль в статистике. ### A. Распределение хи-квадрат $\chi^2_n$ Пусть $x_1, x_2, \dots, x_n$ — независимые случайные величины, каждая со стандартным нормальным распределением $N(0, 1)$. Тогда $$\sum_{k=1}^{n} x_k^2 \sim \chi^2_n$$ Параметр $n$ — **число степеней свободы** (это просто количество независимых слагаемых). > **Связь с гамма-распределением:** $\chi^2_n$ — это гамма-распределение с параметрами $\left(\dfrac{n}{2}, \dfrac{1}{2}\right)$. То есть класс распределений $\chi^2$ содержится в классе гамма-распределений. ### B. Распределение Стьюдента $t_n$ Пусть $x_0, x_1, \dots, x_n$ — независимые $N(0, 1)$. Рассмотрим: $$T_n = \frac{x_0}{\sqrt{\dfrac{1}{n} \sum\limits_{k=1}^{n} x_k^2}}$$ Тогда $T_n$ имеет **распределение Стьюдента** ($t$-распределение) с $n$ степенями свободы: $T_n \sim t_n$. Под корнем стоит **усреднённый $\chi^2$**. #### Свойства распределения Стьюдента 1. **Симметрично относительно нуля.** Числитель — стандартное гауссовское (симметрично), знаменатель — неотрицательная константа. 2. **При больших $n$ близко к нормальному.** По закону больших чисел знаменатель $\to 1$, и остаётся гауссовская величина. То есть при больших $n$: $t_n \approx N(0, 1)$. ### C. Распределение Фишера $F_{n, m}$ Пусть $\chi^2_n$ имеет распределение хи-квадрат с $n$ степенями свободы, а $\chi^2_m$ — независимая случайная величина с распределением хи-квадрат с $m$ степенями свободы. Тогда $$F_{n, m} = \frac{\chi^2_n / n}{\chi^2_m / m}$$ имеет **распределение Фишера** с параметрами $n$ и $m$. ### Где используются эти распределения - **Нормальное** — при построении доверительного интервала для матожидания, если дисперсия известна (или, забегая вперёд, при больших объёмах выборки — по ЦПТ). - **$\chi^2$** — при построении доверительного интервала для дисперсии. - **Стьюдент** — при построении доверительного интервала для матожидания, если дисперсия неизвестна. - **Фишер** — при построении доверительного интервала для отношения дисперсий. ## 15. Теорема Фишера Перед следующей задачей понадобится ключевая теорема. В разных источниках в неё включают разные пункты, приведём основные. **Условия:** выборка $x_1, \dots, x_n$ из гауссовского закона $N(\mu, \sigma^2)$. ### Пункт 1 $$\frac{n \cdot S^2}{\sigma^2} = \frac{(n-1) \cdot S^{*2}}{\sigma^2} \sim \chi^2_{n-1}$$ где - $S^2 = \dfrac{1}{n} \sum\limits_{k=1}^{n}(x_k - \bar{x})^2$ — **смещённая** выборочная дисперсия; - $S^{*2} = \dfrac{1}{n-1} \sum\limits_{k=1}^{n}(x_k - \bar{x})^2$ — **несмещённая** выборочная дисперсия. > **Неформально, почему $n - 1$.** В каждом слагаемом $(x_k - \bar{x})^2$ участвует выборочное среднее $\bar{x}$, которое «портит» независимость слагаемых. За счёт этой связи число степеней свободы уменьшается на единицу. ### Пункт 2 $\bar{x}$ и $S^2$ **независимы** (а также $\bar{x}$ и $S^{*2}$ независимы). > Это не очевидное наблюдение: в обеих статистиках на первый взгляд участвует $\bar{x}$ — казалось бы, они должны быть зависимы. Однако для выборок из нормального закона эти статистики **независимы**. Это нетривиальное свойство именно гауссовского распределения. Эти два пункта потребуются для решения следующих задач. ## 17. Доверительный интервал для матожидания при неизвестной дисперсии **Условия:** выборка из $N(\mu, \sigma^2)$, дисперсия **неизвестна**, строим интервал для $\mu$. Здесь нельзя использовать рецепт со стандартным нормальным, поскольку в нём фигурирует $\sigma$. ### Подбираем статистику Рассмотрим: $$T = \sqrt{n - 1} \cdot \frac{\bar{x} - \mu}{S} = \sqrt{n} \cdot \frac{\bar{x} - \mu}{S^*}$$ > **Почему $S$, а не $S^2$?** Физически $\bar{x} - \mu$ — это «метры», а $S^2$ — это «метры в квадрате». Математически: при нормировании мы делим на **стандартное отклонение**, а не на дисперсию. ### Распределение этой статистики Перепишем: $$T = \frac{\sqrt{n} \cdot (\bar{x} - \mu) / \sigma}{\sqrt{S^{*2} / \sigma^2}}$$ - В числителе: $\sqrt{n} \cdot \dfrac{\bar{x} - \mu}{\sigma} \sim N(0, 1)$ — стандартная гауссовская величина. - В знаменателе под корнем: $\dfrac{S^{*2}}{\sigma^2}$ связано с $\chi^2_{n-1}$ по теореме Фишера, причём поделенным на число степеней свободы. - По теореме Фишера числитель и знаменатель **независимы**. По определению распределения Стьюдента (отношение нормального к корню из «усреднённого $\chi^2$») получаем: $$T \sim t_{n-1}$$ ### Доверительный интервал Распределение Стьюдента **симметрично относительно нуля**, поэтому: $$-q_{1 - \alpha/2} \leq \sqrt{n} \cdot \frac{\bar{x} - \mu}{S^*} \leq q_{1 - \alpha/2}$$ где $q$ — квантили распределения $t_{n-1}$. Разрешая относительно $\mu$: $$\boxed{\mu \in \bar{x} \pm \frac{S^* \cdot q_{1 - \alpha/2}}{\sqrt{n}}}$$ где $q_{1 - \alpha/2}$ — квантиль распределения Стьюдента $t_{n-1}$. > Это **доверительный интервал для матожидания нормального закона при неизвестной дисперсии** — в нём как раз и используется распределение Стьюдента. --- # Лекция 6: Доверительные интервалы и введение в проверку статистических гипотез ## Повторение: определение доверительного интервала **Формальное определение.** Доверительный интервал $[L(x), R(x)]$ задаётся условием: $$P(\theta \in [L(x), R(x)]) \geq 1 - \alpha$$ где $1 - \alpha$ — **уровень доверия**. **Содержательная интерпретация.** Если уровень доверия 95% и мы рассматриваем 100 выборок, для каждой считаем доверительный интервал, то хотя бы в 95 случаях из 100 реальное значение параметра окажется в построенном доверительном интервале. **Что было раньше:** на прошлой лекции рассматривались доверительные интервалы для параметров нормального закона: - для мат. ожидания при известной дисперсии - для мат. ожидания при неизвестной дисперсии - для дисперсии при известном мат. ожидании - для дисперсии при неизвестном мат. ожидании ## Задача 6: Доверительный интервал для разности мат. ожиданий (равные неизвестные дисперсии) ### Постановка Те же две независимые гауссовские выборки, но теперь: - дисперсии **неизвестны** - известно, что $\sigma_x^2 = \sigma_y^2 = \sigma^2$ Цель та же: построить доверительный интервал для $\tau = \mu_y - \mu_x$. ### Идея В предыдущей задаче мы получили стандартную гауссовскую величину. Сейчас её знаменатель содержит неизвестное $\sigma^2$. Идея — построить статистику с распределением Стьюдента. **Напоминание определения t-распределения:** в числителе — стандартная гауссовская величина, в знаменателе — корень квадратный из $\chi^2$, делённого на число степеней свободы; числитель и знаменатель независимы. ### Применение теоремы Фишера По теореме Фишера: $$\frac{n s_x^{*2}}{\sigma^2} \sim \chi^2_{n-1}, \qquad \frac{m s_y^{*2}}{\sigma^2} \sim \chi^2_{m-1}$$ где $s^{*2}$ — смещённая выборочная дисперсия. Поскольку $x$ и $y$ независимы, при сложении степени свободы складываются: $$\frac{n s_x^{*2} + m s_y^{*2}}{\sigma^2} \sim \chi^2_{n + m - 2}$$ При этом числитель (выборочные средние) и знаменатель (выборочные дисперсии) **независимы** — также по теореме Фишера. ### Построение статистики $$T = \frac{\dfrac{\bar{y} - \bar{x} - \tau}{\sqrt{\sigma^2/m + \sigma^2/n}}}{\sqrt{\dfrac{1}{n+m-2}\!\left(\dfrac{n s_x^{*2}}{\sigma^2} + \dfrac{m s_y^{*2}}{\sigma^2}\right)}} \sim t_{n+m-2}$$ **Ключевой момент:** $\sigma^2$ в числителе и знаменателе **сокращаются**. После упрощения: $$T = \frac{(\bar{y} - \bar{x} - \tau)\sqrt{(n+m-2)\, mn}}{\sqrt{(m+n)(n s_x^{*2} + m s_y^{*2})}} \sim t_{n+m-2}$$ ### Зажатие между квантилями $$P\!\left(-t_{1-\alpha/2} \leq T \leq t_{1-\alpha/2}\right) = 1 - \alpha$$ > Это работает потому, что распределение Стьюдента **симметрично** относительно нуля. ### Ответ $$\boxed{\;\tau \in \bar{y} - \bar{x} \pm t_{1-\alpha/2}\sqrt{\frac{(n s_x^{*2} + m s_y^{*2})(m+n)}{mn(n+m-2)}}\;}$$ > 💡 **Замечание Ивана Александровича.** Это самая громоздкая задача на сегодня — дальше будет проще. > ⚠️ **Если дисперсии неравны и неизвестны** — задача формально неразрешима в таком виде (в общем случае точного решения нет — это так называемая проблема Беренса–Фишера). ## Задача 8: Доверительный интервал для отношения дисперсий (мат. ожидания известны) ### Постановка То же, но $\mu_x$ и $\mu_y$ **известны**. ### Идея Формально можно использовать прежнюю статистику, но при малом объёме выборки лучше иметь больше степеней свободы. Используем тот факт, что: $$\sum_{k=1}^{n} \frac{(x_k - \mu_x)^2}{\sigma_x^2} \sim \chi^2_n, \qquad \sum_{k=1}^{m} \frac{(y_k - \mu_y)^2}{\sigma_y^2} \sim \chi^2_m$$ (степеней свободы на одну больше, чем в задаче 7) ### Построение F-статистики $$F = \frac{\dfrac{1}{n}\sum_{k=1}^{n} \dfrac{(x_k - \mu_x)^2}{\sigma_x^2}}{\dfrac{1}{m}\sum_{k=1}^{m} \dfrac{(y_k - \mu_y)^2}{\sigma_y^2}} \sim F_{n,m}$$ Дальше — стандартная процедура: зажатие между квантилями и разрешение относительно $\sigma_y^2 / \sigma_x^2$. ## Асимптотические доверительные интервалы ### Определение $[L(x), R(x)]$ — **асимптотический доверительный интервал**, если: $$\lim_{n \to \infty} P(\theta \in [L(x), R(x)]) \geq 1 - \alpha$$ ### Общая схема построения 1. Находим статистику $g(x, \theta)$, у которой существует **предельное распределение**, не зависящее от $\theta$. 2. Зажимаем статистику между квантилями **предельного** распределения: $$P(q_{\alpha/2} \leq g(x, \theta) \leq q_{1-\alpha/2}) \approx 1 - \alpha$$ 3. Разрешаем неравенство относительно $\theta$. ## Частный случай: ДИ для параметра распределения Бернулли ### Постановка Выборка из распределения Бернулли с параметром $p$. Мат. ожидание = $p$, дисперсия = $p(1-p)$. ### Сходимость $$\frac{\sqrt{n}(\bar{x} - p)}{\sqrt{p(1-p)}} \xrightarrow{d} N(0, 1)$$ ### Проблема В знаменателе $p$ — неизвестно. Если оставить как есть, при разрешении неравенства $p$ окажется и в числителе, и в знаменателе, да ещё под корнем. ### Решение — подстановка состоятельной оценки Подставляем выборочную оценку $\hat{p} = \bar{x}$ (она же — оценка методом моментов и оценка максимального правдоподобия). Сходимость к стандартной гауссовской величине сохраняется. ### Ответ $$\boxed{\;p \in \bar{x} \pm u_{1-\alpha/2}\sqrt{\frac{\bar{x}(1 - \bar{x})}{n}}\;}$$ > ⚠️ **Когда такая подстановка допустима?** Только если оценка **состоятельна**. В асимптотическом ДИ оценки близки к реальному значению, и сходимость сохраняется. ## Применение В: Асимптотический ДИ для дисперсии ### Использование Выборочная дисперсия — асимптотически нормальная оценка: $$\frac{\sqrt{n}(s^{*2} - \sigma^2)}{\sqrt{\hat{\beta}_4 - s^{*4}}} \xrightarrow{d} N(0, 1)$$ где $\hat{\beta}_4 = \overline{(x - \bar{x})^4}$ — четвёртый выборочный центральный момент. ### Ответ $$\boxed{\;\sigma^2 \in s^{*2} \pm \frac{u_{1-\alpha/2}}{\sqrt{n}}\sqrt{\hat{\beta}_4 - s^{*4}}\;}$$ ### Тонкость > ⚠️ **Левая граница может оказаться отрицательной**, что для дисперсии бессмысленно. > > Для мат. ожидания это нормально, для дисперсии — нет. Поэтому такой подход работает только при **очень большом объёме выборки**: при $n \to \infty$ дробь $\dfrac{1}{\sqrt{n}} \to 0$, и левая граница перестаёт быть отрицательной. ## Применение Д: ДИ через порядковые статистики (экзотический рецепт) ### Утверждения Для выборки из непрерывного распределения: $$n \cdot F(x_{(\ell)}) \xrightarrow{d} \Gamma(\ell, 1)$$ $$n \cdot (1 - F(x_{(n+1-s)})) \xrightarrow{d} \Gamma(s, 1)$$ где $\ell$ и $s$ — фиксированные. > Эти соотношения встречались при изучении порядковых статистик. Чисто гипотетически из них можно извлекать асимптотические доверительные интервалы. ### Упражнения для самостоятельного решения - Для равномерного распределения $U[0, \theta]$ построить ДИ для $\theta$ через порядковые статистики (применение Д). - Для распределения Пуассона $\mathrm{Pois}(\lambda)$ построить асимптотический ДИ для $\lambda$ через ОМП (применение Г). ## Ситуация 1. Уголовный суд **Контекст:** сферическая страна в вакууме с **континентальной** системой права (суд опирается на законы; в отличие от **прецедентной** системы, как в Великобритании или США, где суд опирается на предыдущие решения по похожим делам). Происходит уголовное дело, подсудимого обвиняют в убийстве. Вы — судья. - **$H_0$** (по умолчанию): человек **не виновен**. - **$H_1$** (альтернатива): человек **виновен в убийстве** (в конкретном преступлении!). **Тонкий момент.** Альтернатива конкретна. Если по ходу дела выяснится, что подсудимый занимался мошенничеством, но обвинение в убийстве не доказано, — судья скажет «не виновен» **относительно данной альтернативы**. Это другая задача. ## Ситуация 3. Измерение температуры Хотим понять, здоров человек или болен, измеряя температуру. - **$H_0$:** человек не болен (средняя температура $= 36{,}6$). - **$H_1$:** человек болен (средняя температура $\neq 36{,}6$). ### Уточнения альтернативы в зависимости от контекста | Контекст | Альтернатива | |---|---| | Общий случай | средняя $\neq 36{,}6$ | | Инфекционная больница (для инфекций характерна повышенная температура) | средняя $> 36{,}6$ | | Заболевания с пониженной температурой | средняя $< 36{,}6$ | ## Общая схема: $H_0$ и $H_1$ ### Нулевая гипотеза $H_0$ Это **предположение по умолчанию**. Конкретные проявления: - Если изучаем связь явлений: $H_0$ = явления **не связаны**. - Если замеряем показатель: $H_0$ = показатель принимает **типичное** значение. - Если сравниваем две совокупности: $H_0$ = они **одинаковые**. ### Альтернативная гипотеза $H_1$ Это то, что мы **хотим «доказать»** (в кавычках, потому что стат-тесты — это не строгий метод доказательства, а статистический метод валидации данных). - Подозреваем некую **аномалию** — отклонение от нормы. - Подозреваем, что **связь есть**. - Подозреваем, что показатель принимает **аномальные значения**. ### Важное замечание > ⚠️ **$H_0$ и $H_1$ не всегда дополняют друг друга** до полного пространства возможностей. > > Пример из суда: $H_0$ = «не виновен», $H_1$ = «виновен в убийстве». Но возможны и другие сценарии (например, мошенничество), которые не покрываются ни $H_0$, ни $H_1$. > > В курсе будут рассматриваться ситуации, где $H_1$ — это отрицание $H_0$, но это далеко не всегда так. --- # Лекция 7: Проверка статистических гипотез ## 1. Постановка задачи проверки гипотез ### 1.1. Гипотезы $H_0$ и $H_1$ Для каждой ситуации формулируются два предположения: - **Нулевая гипотеза ($H_0$)** — предположение «по умолчанию». Если рассматриваются какие-то явления, то по умолчанию они никак не связаны; если рассматривается некоторый показатель — он принимает типичное значение. - **Альтернативная гипотеза ($H_1$)** — наше «подозрение», то, что мы хотим доказать. > NOTE: Важно > Сумма $H_0$ и $H_1$ **не всегда даёт всё пространство возможностей** — то есть не обязательно $H_0 \cup H_1 = \Omega$. ### 1.2. Определение статистического критерия **Статистический критерий** (statistical test) — это функция, возвращающая одно из двух решений: принять $H_0$ или отвергнуть $H_0$. Формально объявим декларацию функции: $$\delta(X, H_0, H_1, \alpha) \to \{\text{accept } H_0,\ \text{reject } H_0\}$$ где: - $X$ — **выборка в широком смысле**. Это не обязательно простейшая выборка из независимых одинаково распределённых случайных величин; в общем случае это произвольный датафрейм (например, аргументация прокурора и защиты в суде). - $H_0$ — нулевая гипотеза. - $H_1$ — альтернативная гипотеза. - $\alpha$ — **уровень значимости** (significance level). Типичные значения: $0.1,\ 0.05,\ 0.01,\ 0.001$ (хотя можно задавать любые). > WARNING: Критическая ремарка о смысле решения > - **«Принять $H_0$»** не означает доказательства истинности $H_0$. Это означает лишь, что **данные не противоречат нулевой гипотезе относительно заданной альтернативы**. > - **«Отвергнуть $H_0$»** автоматически не доказывает истинности $H_1$. Это лишь говорит, что **данные скорее противоречат нулевой гипотезе и свидетельствуют в пользу альтернативы**. Стат-тест — не «серебряная пуля», а скорее **средство аргументации**. #### Пример (аналогия с уголовным судом) Если подсудимый подозревается в убийстве, и в ходе разбирательства приводятся факты о мошенничестве, судья скажет «невиновен» — потому что рассматривается именно дело об убийстве, а не о мошенничестве. То есть «принять $H_0$» = «$H_0$ не опровергнуто **относительно данной альтернативы**». ## 3. Три типа критических областей Критические области выбираются не произвольно — почти во всех тестах встречается одна из трёх ситуаций. ### 3.1. Правосторонний тест - Справа выделяется вероятностная масса $\alpha$. - Слева выделяется $1 - \alpha$. $$T_0(\alpha) = (-\infty,\ q_{1-\alpha}]$$ где $q_{1-\alpha}$ — квантиль порядка $1 - \alpha$. Называется правосторонним, потому что **критическая область находится справа**. ### 3.2. Левосторонний тест - Слева выделяется вероятностная масса $\alpha$. - Справа $1 - \alpha$. $$T_0(\alpha) = [q_{\alpha},\ +\infty)$$ (или до супремума носителя случайной величины — в общем случае). Критическая область слева. ### 3.3. Двусторонний тест - И слева, и справа выделяется по $\alpha/2$. $$T_0(\alpha) = [q_{\alpha/2},\ q_{1-\alpha/2}]$$ Критическая область — с обеих сторон. > INFO: Замечание > Гипотетически возможны и более экзотические ситуации (например, разбиение на 3 куска), но в практически интересных тестах встречаются только эти три типа. ## 5. Терминология: статистическая значимость Если мы отвергаем $H_0$, говорят, что **результат является статистически значимым**. > Например: «доказана нечестность монетки с уровнем значимости $\alpha = 0.05$» = «отвергнута нулевая гипотеза о честности с $\alpha = 0.05$». Отсюда и название $\alpha$ — **уровень значимости**. ## 7. Связь между $\alpha$ и $\beta$ «Сделаем $\alpha$ маленьким, и будет нам счастье» — **не работает!** ### Пример: спам-классификатор - $H_0$: письмо не является спамом. - $H_1$: письмо является спамом. **Классификатор A** — всё помещает во «Входящие» (всегда выбирает $H_0$): - $\alpha = 0$ (ошибка I рода исключена). - Но $\beta$ велико — спам попадает во «Входящие». **Классификатор B** — всё помещает в «Спам» (всегда выбирает $H_1$): - $\beta = 0$ (ошибка II рода исключена). - Но $\alpha$ велико — нормальные письма попадают в спам. ### Мораль > Как правило, **чем меньше $\alpha$, тем больше $\beta$**. В общем случае аналитическую зависимость $\alpha$ от $\beta$ написать нельзя, но в некоторых хороших ситуациях можно. ### Стандартный подход На практике: 1. Фиксируется **допустимый порог ошибки I рода** ($\alpha$). 2. Среди тестов с заданным $\alpha$ выбирается тот, у которого **$\beta$ минимален** (то есть мощность максимальна). ## 9. Z-тест для одной выборки (тест о математическом ожидании) ### 9.1. Постановка Пусть выборка достаточно большая. Хотим проверить: - $H_0:\ E[X] = \mu_0$ Альтернатива может быть трёх видов (в зависимости от наших подозрений): - $H_1:\ E[X] > \mu_0$ — правосторонний тест - $H_1:\ E[X] < \mu_0$ — левосторонний тест - $H_1:\ E[X] \ne \mu_0$ — двусторонний тест ### 9.2. Статистика критерия Используется та же статистика, что и для построения асимптотического доверительного интервала для матожидания: $$T(X) = \frac{\sqrt{n}\,(\bar{X} - \mu_0)}{S} \xrightarrow{d} \mathcal{N}(0, 1)$$ где $S$ — выборочное стандартное отклонение. ### 9.3. Выбор типа критической области При $H_0$ ($E[X] = \mu_0$) статистика принимает значения **около нуля** (правило 3-х сигм для $\mathcal{N}(0, 1)$: на диапазон $[-3, 3]$ приходится ≈ 99.73% массы). Куда попадает статистика при истинной альтернативе? - **$H_1:\ E[X] > \mu_0$** → $\bar{X} \to E[X] > \mu_0$ → числитель $> 0$ → статистика смещена **вправо** → **критическая область справа** (правосторонний тест). - **$H_1:\ E[X] < \mu_0$** → статистика смещена влево → **левосторонний тест**. - **$H_1:\ E[X] \ne \mu_0$** → статистика может быть как слева, так и справа → **двусторонний тест**. ### 9.4. Доказательство состоятельности (правосторонний случай) Покажем, что $\beta \to 0$ при $n \to \infty$. Вероятность ошибки II рода: $$\beta = P\!\left(\frac{\sqrt{n}\,(\bar{X} - \mu_0)}{S} \le q_{1-\alpha} \,\Big|\, E[X] > \mu_0\right)$$ Прибавим и вычтем истинное мат. ожидание $E[X]$ в числителе: $$\beta = P\!\left(\frac{\sqrt{n}\,(\bar{X} - E[X])}{S} + \frac{\sqrt{n}\,(E[X] - \mu_0)}{S} \le q_{1-\alpha} \,\Big|\, E[X] > \mu_0\right)$$ Перенесём: $$\beta = P\!\left(\frac{\sqrt{n}\,(\bar{X} - E[X])}{S} \le q_{1-\alpha} - \frac{\sqrt{n}\,(E[X] - \mu_0)}{S} \,\Big|\, E[X] > \mu_0\right)$$ По ЦПТ (и её следствиям) первая дробь сходится к $\mathcal{N}(0, 1)$, поэтому при больших $n$: $$\beta \approx \Phi\!\left(q_{1-\alpha} - \frac{\sqrt{n}\,(E[X] - \mu_0)}{S}\right)$$ Анализ аргумента: - $q_{1-\alpha}$ — константа. - $E[X] - \mu_0 > 0$ (по альтернативе). - $S \to \sigma$ (выборочное стандартное отклонение сходится к теоретическому). - $\sqrt{n} \to \infty$. Значит, $\frac{\sqrt{n}(E[X] - \mu_0)}{S} \to +\infty$, и аргумент функции $\Phi$ уходит на $-\infty$. $$\Phi(-\infty) = 0 \Rightarrow \beta \to 0$$ Критерий **состоятелен**. ✅ ### 9.5. Терминология: Z-тест **Z-тест** — это критерий, у которого статистика критерия **точно имеет** или **сходится к** нормальному распределению. Жаргон сложился исторически (от обозначения нормальной величины через $Z$). Вышеописанный тест — **Z-тест для одной выборки**, проверяющий гипотезу о математическом ожидании. ## 11. Как выбирать тип альтернативы — пример с врачами Тип теста (одно- или двусторонний) зависит от того, **что мы хотим доказать**. Пример: измерения температуры пациента. - **Участковый врач-терапевт**: пришёл пациент с жалобой «мне плохо». Терапевт хочет понять — **есть ли вообще отклонение** от нормы (36.6°C). Альтернатива: $E[T] \ne 36.6$ → **двусторонний тест**. - **Врач-инфекционист**: ищет инфекцию, для которой характерна **повышенная** температура. Альтернатива: $E[T] > 36.6$ → **правосторонний тест**. - **Врач, ищущий болезнь с пониженной температурой**: альтернатива $E[T] < 36.6$ → **левосторонний тест**. --- # Лекция 8: Статистические критерии (продолжение) ## 1. Критерий о медиане (одна выборка) ### Постановка Пусть $x_1, x_2, \ldots, x_n$ — выборка из некоторого **непрерывного** распределения. Проверяем гипотезу о теоретической медиане: $$H_0: \text{med} = c$$ Альтернатива $H_1$ настраивается: $\text{med} \neq c$, $\text{med} > c$, либо $\text{med} < c$. ### Идея построения статистики Что может оценивать теоретическую медиану? **Элемент вариационного ряда, стоящий в центре.** Напоминание: вариационный ряд — это упорядоченная (отсортированная) выборка. Средний член вариационного ряда $x_{(n/2)}$, если выборка из непрерывного закона, **асимптотически нормален**: $$\sqrt{n} \cdot p(c) \cdot \frac{x_{(n/2)} - c}{\sqrt{\frac{1}{2} \cdot \frac{1}{2}}} \xrightarrow{d} \mathcal{N}(0, 1)$$ где $p(c)$ — плотность распределения в точке $c$. В знаменателе стоит $\sqrt{p(1-p)}$, и поскольку для медианы $p = 1/2$, получаем $\sqrt{1/2 \cdot 1/2} = 1/2$. ### Тип критической области Логика та же, что и для гипотез о мат. ожидании: - $H_1: \text{med} > c$ — **правосторонняя** - $H_1: \text{med} < c$ — **левосторонняя** - $H_1: \text{med} \neq c$ — **двусторонняя** ## 3. T-тест для одной выборки (дисперсия неизвестна) ### Постановка Та же гипотеза $H_0: \mu_x = \mu_0$, но теперь $\sigma^2_x$ **неизвестна**. ### Статистика критерия Заменяем $\sigma$ на её оценку $S$ (выборочное стандартное отклонение): $$T = \frac{\bar{x} - \mu_0}{S / \sqrt{n}} \sim t(n-1) \quad \text{при } H_0$$ Распределение **Стьюдента** с $n-1$ степенями свободы — следствие **теоремы Фишера**. Этот же факт всплывал при построении доверительного интервала для мат. ожидания нормального закона при неизвестной дисперсии. ### Терминология > **T-тест** — стат. критерий, у которого статистика имеет распределение Стьюдента. Здесь рассмотрен T-тест для одной выборки на мат. ожидание. ### ⚠️ Важная ремарка о применимости Существует рекомендация: если объём выборки маленький (порядка $n \in [10, 20]$), то для проверки гипотезы о мат. ожидании нужно использовать T-тест. **НО:** есть важная посылка, о которой часто забывают: - В крайнем случае T-тест более-менее адекватно работает, **если исходное распределение более-менее симметрично**. - Если от нормальности совсем отказываемся — к результатам теста нужно относиться **очень аккуратно**. ## 5. Парная выборка — сведение к одной выборке ### Что такое парная выборка Есть $n$ наблюдений, для каждого замерены **два показателя**: $$(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$$ При этом априори считаем, что эти два фактора **зависимы** (то есть мы НЕ можем считать их независимыми выборками). ### Гипотеза $$H_0: \mu_x = \mu_y$$ объём выборки достаточно большой. ### Классический приём Рассматриваем новую выборку: $$u_i = x_i - y_i, \quad i = 1, \ldots, n$$ Тогда исходная гипотеза эквивалентна: $$H_0: E[U] = 0$$ Это уже задача о мат. ожидании для **одной выборки** — её и решаем разобранными ранее методами. > **Замечание Ивана Александровича:** «Это классический рецепт». ## 7. Z-тест для двух выборок (мат. ожидания, дисперсии известны) ### Постановка $x_1, \ldots, x_n \sim \mathcal{N}(\mu_x, \sigma^2_x)$, $y_1, \ldots, y_m \sim \mathcal{N}(\mu_y, \sigma^2_y)$, выборки **независимы**, дисперсии **известны**. $$H_0: \mu_x = \mu_y$$ ### Построение статистики - $\bar{x} \sim \mathcal{N}(\mu_x, \sigma^2_x / n)$ - $\bar{y} \sim \mathcal{N}(\mu_y, \sigma^2_y / m)$ - В силу независимости: $\bar{x} - \bar{y} \sim \mathcal{N}\!\left(\mu_x - \mu_y,\; \dfrac{\sigma^2_x}{n} + \dfrac{\sigma^2_y}{m}\right)$ (дисперсии **складываются**) Стандартизуем: $$Z = \frac{\bar{x} - \bar{y}}{\sqrt{\dfrac{\sigma^2_x}{n} + \dfrac{\sigma^2_y}{m}}} \sim \mathcal{N}(0,1) \quad \text{при } H_0$$ (При $H_0$ числитель в среднем ноль.) > Почему нормальное распределение → **Z-тест**? Исторически так сложилось. F-тест — от фамилии Fisher; «Z» же — историческая конвенция. ### Модификация: ЦПТ-вариант (без нормальности) Пусть теперь выборки $x$ и $y$ **независимы и достаточно большого объёма** (без предположения о нормальности). По ЦПТ: $$\frac{\bar{x} - \bar{y}}{\sqrt{\dfrac{\sigma^2_x}{n} + \dfrac{\sigma^2_y}{m}}} \xrightarrow{d} \mathcal{N}(0, 1)$$ Если дисперсии **неизвестны** — подставляем их состоятельные оценки. В пределе по-прежнему получаем $\mathcal{N}(0,1)$. ### Тип критической области - $H_1: \mu_x > \mu_y$: разность $\mu_x - \mu_y > 0$, статистика в среднем положительна → **правосторонняя** - $H_1: \mu_x < \mu_y$: → **левосторонняя** - $H_1: \mu_x \neq \mu_y$: → **двусторонняя** ## 9. Простой рецепт проверки однородности ### Что такое однородность **Однородность** двух выборок означает, что **распределения двух выборок одинаковы**. ### Рецепт (для нормально распределённых выборок) 1. **F-тест** на равенство дисперсий ($H_0: \sigma^2_x = \sigma^2_y$). 2. **Если** $H_0$ принята → **T-тест** на равенство мат. ожиданий. ### Почему «простой» в кавычках - Простой только на бумаге — на практике вычислений много. - **Важная посылка:** рецепт реально проверяет однородность, **только если выборки из нормального закона** (нормальный закон полностью задаётся $\mu$ и $\sigma^2$). ### Устойчивость к нарушению посылок - **F-тест** более-менее устойчив к нарушению предположения о нормальности. - **T-тест** — менее устойчив. ### Применение T-теста: A/B-тестирование Пример приложения T-теста для двух выборок — **A/B-тестирование**: - Часть пользователей видит старую версию сайта (группа A). - Часть пользователей — новую версию (группа B). - Анализируем, как ведут себя пользователи (достигают ли целевого показателя). - T-тест помогает сравнить мат. ожидания целевой метрики между группами. ## 11. Критерий согласия Колмогорова ### Постановка Простая выборка $x_1, \ldots, x_n$. Проверяем гипотезу: $$H_0: F = F_0$$ где $F_0$ — **обязательно непрерывная** функция распределения. Альтернатива (классическая): $H_1: F \neq F_0$. ### Статистика критерия $$D_n = \sqrt{n} \cdot \sup_{x} \left| F_n(x) - F_0(x) \right|$$ где $F_n$ — **эмпирическая функция распределения**. ### Теорема Колмогорова При условии истинности $H_0$: $$P(D_n \le t) \xrightarrow{n \to \infty} K(t)$$ где $K(t)$ — **функция распределения Колмогорова**: $$K(t) = \sum_{j = -\infty}^{+\infty} (-1)^j e^{-2 j^2 t^2}$$ > «Тут меня лучше проверить — мог немного набрать.» В стат-библиотеках есть численная реализация $K(t)$. ### Тип критической области - При $H_0$: $F_n \approx F_0$, супремум близок к 0 → статистика близка к 0. - При нарушении $H_0$: статистика существенно больше 0 (модуль). - → Критическая область **правосторонняя**. ### Замечания и нюансы **1. Размер выборки.** Если выборка объёма уже несколько десятков, асимптотика более-менее адекватная. В качестве критического значения берут квантиль порядка $1 - \alpha$ распределения Колмогорова. **2. Сложные гипотезы.** Можно проверять не равенство конкретной $F_0$, а гипотезу о принадлежности параметрическому семейству $F_\theta$. Но распределение статистики тогда будет более нетривиальным. **3. Проверка нормальности.** Чисто гипотетически критерий Колмогорова можно использовать для проверки согласованности с нормальным законом. **НО лучше использовать специализированные критерии:** - **Тест Шапиро-Уилка**. - **Тест Жака-Бера** (Jarque-Bera): статистика играется с **асимметрией** и **эксцессом** ($A + E$). У стандартного нормального распределения $A = 0$, $E = 0$. ### Терминология: критерий согласия > **Критерий согласия** — тест, проверяющий **согласованность данных с заданным вероятностным распределением**. Критерий Колмогорова — пример критерия согласия. ## 13. Дискретизация распределений ### Зачем Критерии типа $\chi^2$ работают с **дискретными распределениями с конечным множеством значений**. Иногда нужно применить их в других ситуациях. ### Случай 1: Дискретное распределение с бесконечным (счётным) множеством значений Например, пуассоновская случайная величина (значения $0, 1, 2, \ldots$). **Идея:** оставить первые $n$ значений, а **«хвост» объединить в одно значение**. | Было | Стало | |---|---| | $1, 2, 3, \ldots, n, n+1, \ldots$ | $1, 2, 3, \ldots, n, \{> n\}$ | | $p_1, p_2, p_3, \ldots, p_n, p_{n+1}, \ldots$ | $p_1, p_2, p_3, \ldots, p_n, \sum_{k > n} p_k$ | > **Замечание из аудитории:** «А можно ли это делать оптимальным образом? Например, в хвост брать самые невероятные.» > > **Ответ:** Да, идея совершенно верная и разумная. ### Случай 2: Абсолютно непрерывное распределение **Идея:** разбить вещественную ось на **конечное число интервалов** $\Delta_1, \ldots, \Delta_k$. Вероятность попадания в интервал: $$p(\Delta_i) = \int_{\Delta_i} p(x) \, dx$$ Случайная величина теперь принимает $k$ значений (номер интервала). Крайние интервалы могут быть бесконечными (от $-\infty$ или до $+\infty$). ### Итог > Если у нас дискретное распределение со счётным множеством значений или **любое** непрерывное распределение — можем свести задачу к ситуации с дискретным распределением с конечным множеством значений. ## 15. Сводная таблица всех критериев лекции | Критерий | Что проверяет | Распределение статистики | Крит. область | |---|---|---|---| | Критерий о медиане | $\text{med} = c$ (1 выборка) | $\mathcal{N}(0,1)$ асимпт. | по альтернативе | | Z-тест (1 выборка) | $\mu = \mu_0$, $\sigma^2$ известна | $\mathcal{N}(0,1)$ | по альтернативе | | T-тест (1 выборка) | $\mu = \mu_0$, $\sigma^2$ неизвестна | $t(n-1)$ | по альтернативе | | $\chi^2$-тест на дисперсию | $\sigma^2 = \sigma^2_0$ | $\chi^2(n-1)$ | по альтернативе | | Парная выборка | $\mu_x = \mu_y$ (зависимые) | через разность $u_i$ | по альтернативе | | F-тест | $\sigma^2_x = \sigma^2_y$ | $F(n-1, m-1)$ | по альтернативе | | Z-тест (2 выборки) | $\mu_x = \mu_y$, $\sigma^2$ известны | $\mathcal{N}(0,1)$ | по альтернативе | | T-тест (2 выборки) | $\mu_x = \mu_y$, $\sigma^2_x = \sigma^2_y$ неизв. | $t(n+m-2)$ | по альтернативе | | Уэлч | $\mu_x = \mu_y$, дисперсии не равны | (упоминание) | — | | Колмогоров | $F = F_0$ (1 выборка) | Колмогорова $K(t)$ | правосторонняя | | Смирнов | $F_X = F_Y$ (2 выборки) | Колмогорова $K(t)$ | правосторонняя | | Пирсон $\chi^2$ | $P = P_0$ (дискретное) | $\chi^2(n-1)$ | правосторонняя | --- # Лекция 9: Статистические критерии (продолжение) ## 1. Примеры применения базовых критериев ### 1.1. Проверка гипотезы о математическом ожидании (честная монета) **Постановка задачи:** Монету подбросили $4096$ раз, орёл выпал $2000$ раз. Является ли монета честной? **Гипотезы:** - $H_0$: $p = 0{,}5$ (монета честная, $p$ — реальная вероятность успеха) - $H_1$: альтернатива может быть специфицирована тремя способами: - правосторонняя: $p > 0{,}5$ - левосторонняя: $p < 0{,}5$ - двусторонняя: $p \neq 0{,}5$ По сути проверяется, верно ли, что математическое ожидание равняется конкретному значению. **Статистика критерия:** $$Z = \frac{\bar{X} - \mu}{\sqrt{D}} \cdot \sqrt{n}$$ то есть (выборочное среднее минус мат. ожидание), делённое на корень квадратный из дисперсии, умноженное на корень из объёма выборки $n$. **Распределение статистики:** при условии истинности $H_0$ статистика имеет **стандартное нормальное распределение**. **p-value:** напоминание — это вероятность того, что мы получим более экстремальные значения относительно наблюдаемого. - Для правосторонней альтернативы — правосторонний p-value - Для левосторонней альтернативы — левосторонний p-value - Для двусторонней альтернативы — двусторонний p-value **Пример вывода:** при каком уровне значимости мы опровергнем нулевую гипотезу? Иными словами, p-value должен быть меньше уровня значимости. Если уровень значимости больше чем $0{,}067$ — гипотеза будет отвергнута. > **Технический момент:** в коде используется модуль `scipy.stats` (импортируется как подмодуль `stats` из `scipy`). ### 1.2. Проверка гипотезы о дисперсии (сеть магазинов) **Постановка задачи:** Есть сеть магазинов, известно среднее время и стандартное отклонение. Открыли новый магазин, посмотрели на $25$ случайных покупателей. На уровне значимости $1\%$ проверить гипотезу о том, что стандартное отклонение времени в новом магазине **больше**, чем во всей сети. **Гипотезы:** - $H_0$: $\sigma = 5{,}5$ - $H_1$: $\sigma > 5{,}5$ (подозреваем большее отклонение — это идёт в альтернативу) **Статистика:** распределена по $\chi^2$ с $n-1$ степенями свободы (по теореме Фишера). **Тип критерия:** правосторонний (это было показано на теории). **Расчёт p-value:** $$\text{p-value} = 1 - \text{CDF}(\text{stat})$$ **Результат:** получили p-value $\approx 0{,}67$ — гипотеза $H_0$ **принимается**. ### 1.3. F-тест на равенство дисперсий двух выборок **Постановка задачи:** Есть две выборки. Для каждой даны среднее и стандартное отклонение. Проверить равенство дисперсий. **Метод:** F-тест. **Критическая область:** двусторонняя. **Результат:** p-value большой — нулевая гипотеза **принимается**. ### 1.4. T-тест для сравнения математических ожиданий двух выборок Использовали T-тест для двух выборок (рассматривали в одной из прошлых лекций). **Результат:** p-value $\approx 0{,}0004$, при уровне значимости $0{,}05$ — нулевая гипотеза **отвергается**. Тест показал статистически значимый результат: средние не равны. ### 1.5. T-тест для парных выборок **Постановка:** есть парная выборка (условно «до» и «после»). Хотим проверить, верно ли, что математическое ожидание «после» больше, чем «до». **Метод:** альтернативная гипотеза формулируется в терминах разности — фактически в терминах третьей, новой выборки. Используется t-test для парных выборок. **Результат:** нулевая гипотеза **принимается**. ### 1.6. Простой критерий согласия Пирсона (число $\pi$) Рассмотрен пример про распределение цифр в десятичной записи числа $\pi$. **Результат:** статистика $\chi^2$ дала p-value $\approx 0{,}4$ — это больше типичного уровня значимости, гипотеза принимается. ## 3. Критерий однородности $\chi^2$ ### 3.1. Постановка задачи Имеется $K$ **независимых выборок**. Чтобы задача об однородности была содержательной, предполагаем, что величины в каждой из выборок принимают **одинаковые значения**. > **Пример некорректной постановки:** если выборка 1 — это «мальчик/девочка», а выборка 2 — это «средний балл», то задача о проверке однородности вряд ли будет содержательной. Обозначения: - Значения, которые могут принимать величины: от $1$ до $N$ - $p_i$ — вектор вероятностей для $i$-й выборки - $n_i$ — объём $i$-й выборки - $\nu_{ig}$ — количество значений типа $g$ в $i$-й выборке ### 3.2. Гипотезы $$H_0: p_1 = p_2 = \ldots = p_K$$ (назовём это общее значение $p_0$ — это просто обозначение, удобное для формулы) $$H_1: \neg H_0$$ ### 3.3. Статистика критерия Критерий однородности $\chi^2$ — это **модификация** критерия согласия Пирсона. $$\chi^2_{n_1, \ldots, n_K} = \sum_{i=1}^{K} \chi^2_{n_i}$$ где локальный $\chi^2$: $$\chi^2_{n_i} = \sum_{g=1}^{N} \frac{(\nu_{ig} - n_i \cdot p_{0g})^2}{n_i \cdot p_{0g}}$$ > Поскольку в нулевой гипотезе все вероятности равны, в формуле стоит общее $p_0$. ### 3.4. Оценка $p_0$ **Проблема:** конкретное значение $p_0$ нам неизвестно. **Решение:** оцениваем методом максимального правдоподобия: $$\hat{p}_{0g} = \frac{\nu_{1g} + \nu_{2g} + \ldots + \nu_{Kg}}{n}$$ То есть берём суммарное количество элементов типа $g$ по всем выборкам и делим на общий объём $n = n_1 + n_2 + \ldots + n_K$. ### 3.5. Распределение статистики и степени свободы **Шаг 1.** Предположим на секунду, что $p_0$ известно и фиксировано. Тогда: - Локальный $\chi^2_{n_i}$ имеет $N - 1$ степень свободы - Поскольку выборки независимы, степени свободы складываются (по формальному определению $\chi^2$ как суммы квадратов гауссовских случайных величин) - Получаем: $K(N-1)$ степеней свободы **Шаг 2.** Вспоминаем, что $p_0$ на самом деле неизвестно, и мы его оценили. От количества степеней свободы нужно отнять размерность вектора неизвестных параметров. **Сколько неизвестных в векторе $p$?** Не $N$, а $N - 1$ (есть уравнение связи: сумма вероятностей равна $1$). **Итоговое количество степеней свободы:** $$\text{df} = K(N-1) - (N-1) = (K-1)(N-1)$$ Формула, которую несложно запомнить: $$\boxed{\text{df} = (N-1)(K-1)}$$ В пределе: $$\chi^2_{n_1, \ldots, n_K} \xrightarrow{d} \chi^2_{(N-1)(K-1)}$$ **Критическая область:** правосторонняя. ### 3.6. Пример: два потока абитуриентов **Постановка:** два потока абитуриентов получили какие-то результаты вступительных экзаменов. Можно ли считать эти потоки одинаковыми? **Метод:** критерий однородности $\chi^2$. **Степени свободы:** $4$ значения, $2$ выборки $\Rightarrow$ $\text{df} = (4-1)(2-1) = 3$. **Результат:** p-value $\approx 0{,}5$ — нулевая гипотеза **принимается** (потоки можно считать однородными). --- ## 4. Критерий независимости $\chi^2$ ### 4.1. Постановка задачи Хотим проверить, что две случайные величины **независимы**. **Имеется парная выборка:** $(X_1, Y_1), (X_2, Y_2), \ldots, (X_n, Y_n)$. Предположения: - $X$ принимает значения от $1$ до $N$ - $Y$ принимает значения от $1$ до $M$ **Обозначения:** - $\nu_{ig}$ — количество пар, где $X = i$, $Y = g$ - $p_{Xi}$ — вероятность того, что $X = i$ - $p_{Yg}$ — вероятность того, что $Y = g$ - $p_{ig}$ — вероятность того, что $X = i$ и $Y = g$ ### 4.2. Гипотезы В терминах вероятностей условие независимости: $$p_{ig} = p_{Xi} \cdot p_{Yg}$$ **Нулевая гипотеза:** $$H_0: \forall i, g \quad p_{ig} = p_{Xi} \cdot p_{Yg}$$ **Альтернатива:** $$H_1: \neg H_0$$ ### 4.3. Таблица сопряжённости (Contingency Table) Для визуализации критерия строим таблицу: | | $Y=1$ | $Y=2$ | $\ldots$ | $Y=M$ | $\Sigma$ | |---|---|---|---|---|---| | $X=1$ | $\nu_{11}$ | $\nu_{12}$ | $\ldots$ | $\nu_{1M}$ | $\nu_{1*}$ | | $X=2$ | $\nu_{21}$ | $\nu_{22}$ | $\ldots$ | $\nu_{2M}$ | $\nu_{2*}$ | | $\vdots$ | $\vdots$ | $\vdots$ | $\ddots$ | $\vdots$ | $\vdots$ | | $X=N$ | $\nu_{N1}$ | $\nu_{N2}$ | $\ldots$ | $\nu_{NM}$ | $\nu_{N*}$ | | $\Sigma$ | $\nu_{*1}$ | $\nu_{*2}$ | $\ldots$ | $\nu_{*M}$ | $n$ | В ячейках — количество пар с соответствующими значениями. В дополнительном столбце — суммы по строкам ($\nu_{i*}$), в дополнительной строке — суммы по столбцам ($\nu_{*g}$). **Контроль:** сумма по последнему столбцу = сумма по последней строке = объём выборки $n$. ### 4.4. Статистика критерия Записываем $\chi^2$ в общем виде: $$\chi^2 = \sum_{i,g} \frac{(\nu_{ig} - n \cdot p_{ig})^2}{n \cdot p_{ig}}$$ Подставляем $H_0$ ($p_{ig} = p_{Xi} \cdot p_{Yg}$): $$\chi^2 = \sum_{i,g} \frac{(\nu_{ig} - n \cdot p_{Xi} \cdot p_{Yg})^2}{n \cdot p_{Xi} \cdot p_{Yg}}$$ ### 4.5. Оценки вероятностей **Проблема:** $p_{Xi}$ и $p_{Yg}$ нам не даны. **Оценки (по аналогии с предыдущим критерием):** $$\hat{p}_{Xi} = \frac{\nu_{i*}}{n}$$ $$\hat{p}_{Yg} = \frac{\nu_{*g}}{n}$$ То есть берём соответствующие маргинальные суммы из таблицы сопряжённости и делим на $n$. ### 4.6. Степени свободы **Шаг 1.** Если $p_{Xi}$ и $p_{Yg}$ известны: - Количество значений: $M \cdot N$ - Степеней свободы: $MN - 1$ **Шаг 2.** На самом деле $p_{Xi}$ и $p_{Yg}$ неизвестны: - Количество неизвестных в $p_X$: $N - 1$ (с учётом уравнения связи) - Количество неизвестных в $p_Y$: $M - 1$ **Итог:** $$\text{df} = MN - 1 - (N-1) - (M-1) = MN - N - M + 1$$ Раскладываем (выносим $N$ за скобку): $$\text{df} = N(M-1) - (M-1) = (N-1)(M-1)$$ $$\boxed{\text{df} = (N-1)(M-1)}$$ **Критическая область:** правосторонняя (как и во всех модификациях критерия согласия Пирсона). ### 4.7. Зачем нам нужны степени свободы? Степени свободы нужны для того, чтобы: 1. **Посчитать критическую область:** для правосторонней области рассматриваем квантиль уровня $1 - \alpha$ распределения $\chi^2$, а это распределение задаётся именно числом степеней свободы. 2. **Посчитать p-value:** $\text{p-value} = 1 - \text{CDF}(\text{stat})$ — функция распределения тоже зависит от количества степеней свободы. ### 4.8. Пример: вакцина и здоровье (данные о болезни) В коде использована готовая реализация, которая считает таблицу сопряжённости автоматически. **Результат:** - Статистика $\chi^2 \approx 26{,}01$ - p-value очень маленький --- # Лекция 10: Статистические тесты ## 1. Критерий на коэффициент корреляции Пирсона ### Постановка задачи Пусть имеется парная выборка: $$(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$$ При условии: выборка пришла из **двумерного нормального (гауссовского) распределения**. ### Гипотезы - **Нулевая гипотеза $H_0$:** $\mathrm{cov}(X, Y) = 0$, что эквивалентно $\rho_{X,Y} = 0$ (теоретический коэффициент корреляции равен нулю). - **Альтернативная гипотеза $H_1$:** $\rho \neq 0$, $\rho > 0$ или $\rho < 0$ (альтернативу можно специфицировать). ### Статистика критерия $$t = \frac{\sqrt{n - 2} \cdot \hat{\rho}_{\text{Pearson}}}{\sqrt{1 - \hat{\rho}^2_{\text{Pearson}}}}$$ где $\hat{\rho}_{\text{Pearson}}$ — выборочный коэффициент корреляции Пирсона: $$\hat{\rho}_{\text{Pearson}} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}}$$ ### Распределение статистики При условии истинности $H_0$ статистика $t$ имеет **распределение Стьюдента с $n - 2$ степенями свободы**. > **Замечание Ивана Александровича:** формальный вывод этого факта довольно громоздкий, поэтому на лекции даётся только формулировка. ### Важное замечание о связи с независимостью Вспомним общее соотношение: - Из **независимости** $\Rightarrow$ **некоррелированность** (всегда верно). - Обратная импликация в общем случае **неверна**. Однако для **компонент гауссовского вектора** обратная стрелочка работает: некоррелированность $\Leftrightarrow$ независимость. Это один из специальных случаев. **Следствия:** - Если $(X, Y)$ — гауссовский вектор, то критерий проверяет **независимость** (по-честному). - Гипотетически тест Стьюдента можно использовать и для негауссовской выборки, но тогда проверяется только **некоррелированность** (более слабое условие). - Для негауссовских выборок критерий лучше использовать при **достаточно больших $n$**, поскольку при больших $n$ распределение Стьюдента становится близким к стандартному нормальному (вспомните формальное определение распределения Стьюдента). > **Уточнение:** «достаточно большое $n$» относится именно ко второму случаю (негауссовская выборка). Если выборка гауссовская — критерий работает при любом $n \geq 3$. ## 3. Критерий знаков (как частный случай критерия квантилей) ### Постановка Возьмём $N = 1$, $p_1 = \frac{1}{2}$. Тогда получаем критерий знаков. ### Гипотеза Проверяется: $$F(c_0) = \frac{1}{2}$$ То есть верно ли, что **медиана** равна заданной константе $c_0$. ### Статистика критерия Поскольку у $\chi^2$ только одна степень свободы, можно думать о статистике как о квадрате стандартной гауссовской величины. Поэтому используем без квадрата: $$Z = \frac{\nu_1 - \frac{n}{2}}{\sqrt{n \cdot \frac{1}{2} \cdot \frac{1}{2}}} = \frac{\nu_1 - \frac{n}{2}}{\frac{\sqrt{n}}{2}}$$ где $\nu_1$ — количество чисел в выборке, **меньших** потенциальной медианы $c_0$ (то есть попавших в $\Delta_1$). > Не возводим в квадрат, потому что хотим извлечь корень — рассматриваем сразу величину, сходящуюся к стандартному нормальному распределению по ЦПТ. ### Распределение При $H_0$ (по ЦПТ): $$Z \xrightarrow{d} \mathcal{N}(0, 1)$$ ### Альтернативы Поскольку в пределе стандартное гауссовское распределение, альтернативы можно специфицировать: - $c \neq c_0$ (двусторонняя) - $c > c_0$ (правосторонняя) - $c < c_0$ (левосторонняя) > **Историческое замечание:** ранее (в курсе) уже доказывался критерий согласия Пирсона для случая двух значений — и там получалось $p$ и $1 - p$, что как раз согласуется с настоящей формулировкой. ## 5. Ранговые критерии ### Понятие ранга **Ранг элемента выборки** — это его индекс в **вариационном ряде** (отсортированная по возрастанию выборка). ### Проблема повторов Если в выборке есть повторяющиеся значения, ранг можно определить разными способами: **Пример:** выборка $(3, 1, 3, 1, 1, 2)$. Вариационный ряд: $1, 1, 1, 2, 3, 3$. Возможные подходы определения ранга: 1. **Минимальный ранг** — берётся минимальный из возможных рангов для группы повторов. - Ранг тройки = 5, ранг единицы = 1, ранг двойки = 4. 2. **Максимальный ранг.** - Ранг тройки = 6, ранг единицы = 3, ранг двойки = 4. 3. **Средний (среднеарифметический) ранг.** - Ранг тройки = 5.5, ранг единицы = 2, ранг двойки = 4. 4. **Различие между одинаковыми элементами** — присваиваем разным «единичкам» разные ранги в порядке появления: - Получится, например: $(5, 1, 6, 2, 3, 4)$ для исходной $(3, 1, 3, 1, 1, 2)$. > **Практическое замечание:** при использовании рангового стат-теста нужно внимательно смотреть, как авторы/разработчики поступают с дублированными рангами. Дальнейшее изложение предполагает, что **все ранги уникальны**. ## 7. Коэффициент корреляции Спирмена ### Постановка Парная выборка $(X_1, Y_1), \ldots, (X_n, Y_n)$. Сопоставим каждому элементу его ранг **в своей выборке**: - $R_k$ — ранг $X_k$ среди $X_1, \ldots, X_n$ - $S_k$ — ранг $Y_k$ среди $Y_1, \ldots, Y_n$ ### Определение **Коэффициент корреляции Спирмена** — это выборочный коэффициент корреляции Пирсона между рангами: $$\hat{\rho}_{\text{Spearman}} = \hat{\rho}_{\text{Pearson}}(R, S)$$ > **Замечание:** для уникальных рангов существуют упрощённые формулы для подсчёта (см. Ивченко–Медведев, Кобзарь). ### Гипотезы - $H_0$: корреляция равна 0 - $H_1$: корреляция $\neq 0$, $> 0$ или $< 0$ В зависимости от альтернативы выбирается тип критической области (двусторонняя, правосторонняя, левосторонняя). ### Распределение статистики - При **малых** $n$ — табулировано. - При **больших** $n$ при условии $H_0$: $$\text{статистика} \xrightarrow{d} \mathcal{N}(0, 1)$$ ## 9. Критерий инверсий ### Зачем нужен этот критерий До сих пор все рассмотренные тесты предполагали работу с **моделью простейшей выборки** (одной или нескольких). Но это сильное предположение — далеко не все выборки простейшие. Есть тесты, которые проверяют **согласованность данных с моделью простейшей выборки**. ### Что такое модель простейшей выборки Случайные величины **независимы** и **одинаково распределены** (i.i.d.). ### Постановка Пусть имеются $X_1, X_2, \ldots, X_n$ — **непрерывные** случайные величины (это важное предположение). ### Гипотезы **$H_0$:** величины $X_1, \ldots, X_n$: - (а) независимы - (б) одинаково распределены То есть совместная функция распределения есть произведение одномерных и при этом они одинаковые. Иными словами, числа соответствуют модели простейшей выборки. **$H_1$:** $\neg H_0$. ### Определение инверсии Пара $(X_i, X_j)$ при $i < j$ образует **инверсию**, если $X_j < X_i$. Иными словами, в вариационном ряду $X_j$ предшествует $X_i$. ### Статистика - $t_1$ — количество инверсий для $X_1$ (т.е. число пар $X_1, X_j$ при $j > 1$, образующих инверсию). - $t_2$ — количество инверсий для $X_2$. - $\ldots$ - $t_{n-1}$ — количество инверсий для $X_{n-1}$. Статистика теста: $$N = \sum_{i=1}^{n-1} t_i$$ — общее количество инверсий во всей выборке. ### Идея критерия Если $H_0$ верна, то: $$\mathbb{P}(\text{любой перестановки}) = \frac{1}{n!}$$ То есть все возможные расстановки равновероятны. ### Предельные случаи | Ситуация | Количество инверсий $N$ | |---|---| | Выборка отсортирована по возрастанию | 0 | | Выборка отсортирована по убыванию | $\frac{n(n-1)}{2}$ | | Перемешана случайно | около среднего | Если числа полностью отсортированы — индикатор того, что они вряд ли случайны. Если перемешаны — скорее случайны. ### Распределение - При **малых** $n$ — распределение $N$ табулировано. - При **больших** $n$ — нормальная аппроксимация: $$N \approx \mathcal{N}\left(\frac{n(n-1)}{4}, \, \frac{n(n-1)(2n+5)}{72}\right)$$ > **Уточнение:** мат. ожидание $\frac{n(n-1)}{4}$ — это ровно половина максимального количества инверсий. > **Откуда формулы:** во-первых, $t_i$ независимы между собой; во-вторых, формулы можно получить через **производящие функции** (тесно связанные с характеристическими функциями). Подробный вывод см. в Ивченко–Медведев. --- ## Заключительные замечания ### Сводка рассмотренных тестов на лекции | Тест | Что проверяет | Ключевое предположение | |---|---|---| | Критерий Пирсона (на корреляцию) | $\rho_{XY} = 0$ | гауссовский вектор | | Критерий квантилей | $F(q_k) = p_k$ | непрерывное распределение | | Критерий знаков | медиана $= c_0$ | непрерывное распределение | | Манна–Уитни / Уилкоксона | однородность двух выборок | независимость выборок, ловит сдвиг | | Спирмена | независимость в парной выборке | монотонная зависимость | | Кендалла | независимость в парной выборке | монотонная зависимость | | Критерий инверсий | модель простейшей выборки (i.i.d.) | непрерывные случайные величины | --- # Лекция 11: Линейная регрессия. Метод наименьших квадратов. Теорема Гаусса–Маркова ## Введение Сегодня начинается разговор про **линейные модели**, в частности — про **линейную регрессию**. Многие уже сталкивались с линейной регрессией и методом наименьших квадратов в других контекстах. Оказывается, эту, казалось бы, простую модель можно рассмотреть и со **статистической точки зрения**, чем мы и займёмся. ## Вспомогательная матрица $A$ Введём матрицу: $$A = X^T X$$ На что она похожа? Это похоже на «**ковариацию**» между переменными (в кавычках!). Действительно, строчка матрицы $X^T$ — это столбец переменной. Если поделить на $n$, то получится почти выборочная ковариация. Формально это **не совсем** ковариация, но нечто, очень сильно напоминающее её. На интуитивном уровне про матрицу $A$ можно думать как про вариацию между переменными. ### Свойства матрицы $A$ - $A$ — матрица $m \times m$ по построению. - **Предполагаем:** $\text{rank}(A) = m$. Это означает, что переменные **линейно независимы**. В контексте регрессионного анализа это называется **отсутствие мультиколлинеарности**. > $\text{rank}(A) = m$ ⟺ переменные линейно независимы ⟺ отсутствует мультиколлинеарность. Также предполагаем, что **количество наблюдений существенно больше количества переменных**: $n \gg m$. ## Теорема Гаусса–Маркова Это **фундаментальная теорема** в рамках линейных моделей. Традиционно она формулируется для самой оценки наименьших квадратов, но здесь рассмотрим **более общее утверждение**. ### Постановка Рассмотрим линейную функцию от вектора коэффициентов: $$\tau = T c$$ где $T$ — матрица $k \times m$, $k \leq m$, $\text{rank}(T) = k$. > Если взять $T = I$ (единичная матрица), получим теорему Гаусса–Маркова для обычной оценки наименьших квадратов. Введём оценку: $$\hat{\tau} = T \hat{c}$$ ### Зачем нужно $T$? В дальнейшем будут проверяться гипотезы о векторе $c$ при **линейных ограничениях**. Соотношение $Tc = \tau$ как раз задаёт линейное ограничение. В качестве нулевой гипотезы стат-теста будет выступать предположение, что $c$ удовлетворяет каким-то линейным ограничениям. ### Формулировка При выполнении всех предположений (некоррелированность ошибок, нулевое мат. ожидание, гомоскедастичность): **(а)** $\hat{\tau}$ — **несмещённая** оценка для $\tau$: $$\mathbb{E}\hat{\tau} = \tau$$ **(б)** Матрица ковариаций $\text{cov}(\hat{\tau}) = \sigma^2 T A^{-1} T^T$, и $\hat{\tau}$ — **оптимальная** оценка для $\tau$ в классе **линейных по $y$ несмещённых оценок**. ### Доказательство (а): несмещённость $$\mathbb{E}\hat{\tau} = \mathbb{E}[T \hat{c}] = \mathbb{E}[T A^{-1} X^T y]$$ $T$, $A^{-1}$, $X^T$ — константы, выносим за знак мат. ожидания: $$= T A^{-1} X^T \mathbb{E} y = T A^{-1} X^T \mathbb{E}[Xc + \varepsilon] = T A^{-1} X^T X c$$ (поскольку $\mathbb{E}\varepsilon = 0$, а $Xc$ — константа). Учитывая $X^T X = A$: $$= T A^{-1} A c = T c = \tau \quad \blacksquare$$ ### Доказательство (б): матрица ковариаций $$\text{cov}(\hat{\tau}) = \text{cov}(T \hat{c}) = T \cdot \text{cov}(\hat{c}) \cdot T^T$$ > **Замечание (вопрос студента):** в одномерном случае $\mathbb{D}(aX) = a^2 \mathbb{D}X$, но в **многомерном** случае матрица ковариаций $aX$ — это $A \cdot \text{cov}(X) \cdot A^T$. Это **именно матрица ковариаций**, а не дисперсия в квадрате, потому что $\hat{\tau}$ — это случайный **вектор** (многомерная величина). Считаем $\text{cov}(\hat{c})$: $$\text{cov}(\hat{c}) = \text{cov}(A^{-1} X^T y) = A^{-1} X^T \cdot \text{cov}(y) \cdot X A^{-1}$$ > **Симметрия $A^{-1}$:** $A = X^T X$ симметрична ($A^T = (X^T X)^T = X^T X = A$), значит, $A^{-1}$ тоже симметрична. Поэтому $(A^{-1})^T = A^{-1}$. Считаем $\text{cov}(y)$: $$\text{cov}(y) = \text{cov}(Xc + \varepsilon)$$ $Xc$ — константа, **сдвиг на матрицу ковариаций не влияет** (аналогично одномерному случаю, где $\mathbb{D}(X+a) = \mathbb{D}X$): $$\text{cov}(y) = \text{cov}(\varepsilon)$$ Поскольку компоненты $\varepsilon$ некоррелированы и имеют одинаковую дисперсию $\sigma^2$: $$\text{cov}(\varepsilon) = \sigma^2 I$$ Подставляем: $$\text{cov}(\hat{c}) = A^{-1} X^T \cdot \sigma^2 I \cdot X A^{-1} = \sigma^2 A^{-1} \underbrace{X^T X}_{A} A^{-1} = \sigma^2 A^{-1}$$ Итого: $$\boxed{\text{cov}(\hat{\tau}) = \sigma^2 T A^{-1} T^T}$$ Введём обозначение: $$D = T A^{-1} X^T$$ (к этому обозначению вернёмся позже). ### Доказательство (б): оптимальность #### Напоминание: критерий оптимальности Для несмещённых оценок: оценка оптимальна, если у неё **минимальная дисперсия**. В многомерном случае оптимизируется: $$\text{MSE}(\hat{\theta}) = \mathbb{E}\big[(\hat{\theta} - \theta)^T (\hat{\theta} - \theta)\big]$$ Можно показать, что: $$\text{MSE}(\hat{\theta}) = \text{tr}(\text{cov}(\hat{\theta})) + \text{bias}^T \text{bias}$$ где $\text{tr}$ — **след** матрицы (сумма диагональных элементов), а $\text{bias} = \mathbb{E}\hat{\theta} - \theta$. > Это обобщение одномерной формулы $\text{MSE} = \mathbb{D} + \text{bias}^2$. В нашем случае оценка несмещённая, поэтому $\text{bias} = 0$ — нужно минимизировать $\text{tr}(\text{cov}(\hat{\tau}))$. #### Шаг A: произвольная линейная несмещённая оценка Пусть $\hat{L} = L y$ — произвольная линейная по $y$ несмещённая оценка для $\tau$: $$\mathbb{E}[L y] = \tau$$ С другой стороны: $$\mathbb{E}[L y] = L \cdot \mathbb{E}[Xc + \varepsilon] = L X c$$ Поскольку $\tau = T c$, получаем $T c = L X c$ для **любого** $c$. Отсюда: $$\boxed{T = L X}$$ #### Шаг B: переобозначение Прибавим и вычтем $T A^{-1} X^T$: $$L = \underbrace{(L - T A^{-1} X^T)}_{\hat{L}} + T A^{-1} X^T$$ Введём $\hat{L} = L - T A^{-1} X^T$. Тогда: $$L = \hat{L} + T A^{-1} X^T$$ #### Дополнительное соотношение Из $T = L X$ домножим обе части на $X$ справа... нет, у нас уже $T = LX$. Подставим $L = \hat{L} + T A^{-1} X^T$: $$T = \hat{L} X + T A^{-1} \underbrace{X^T X}_{A} = \hat{L} X + T$$ Отсюда: $$\boxed{\hat{L} X = 0}$$ Транспонируя: $X^T \hat{L}^T = 0$. #### Шаг C: матрица ковариаций для $L y$ $$\text{cov}(L y) = L \cdot \text{cov}(y) \cdot L^T = \sigma^2 L L^T$$ Распишем $\sigma^2 L L^T$, подставляя $L = T A^{-1} X^T + \hat{L}$: $$\sigma^2 L L^T = \sigma^2 (T A^{-1} X^T + \hat{L})(T A^{-1} X^T + \hat{L})^T$$ Раскрываем: $$= \sigma^2 \big[ T A^{-1} \underbrace{X^T X}_{A} A^{-1} T^T + T A^{-1} X^T \hat{L}^T + \hat{L} X A^{-1} T^T + \hat{L} \hat{L}^T \big]$$ Используем $\hat{L} X = 0$ и $X^T \hat{L}^T = 0$ — средние два слагаемых обнуляются: $$\text{cov}(L y) = \sigma^2 T A^{-1} T^T + \sigma^2 \hat{L} \hat{L}^T$$ #### Финальный шаг: оптимизация следа Получили: $$\text{cov}(L y) = \underbrace{\sigma^2 T A^{-1} T^T}_{\text{cov}(\hat{\tau}),\ \text{не зависит от выбора } L} + \underbrace{\sigma^2 \hat{L} \hat{L}^T}_{\text{зависит от } \hat{L}}$$ Считаем след: $$\text{tr}(\hat{L} \hat{L}^T) = \sum_i (\hat{L} \hat{L}^T)_{ii} = \sum_i \sum_j \hat{L}_{ij}^2$$ (диагональный элемент $(\hat{L} \hat{L}^T)_{ii}$ — это $i$-я строка, скалярно умноженная на саму себя, то есть сумма квадратов её элементов). Минимум суммы квадратов достигается при $\hat{L}_{ij} = 0$ для всех $i, j$, то есть $\hat{L} = 0$. А это в точности означает, что $L = T A^{-1} X^T$ — то есть, что $L y = \hat{\tau}$. Таким образом, оценка наименьших квадратов **оптимальна** в классе линейных несмещённых оценок. ∎ --- # Лекция 11: Линейная регрессия. Доверительные интервалы и проверка гипотез ## Восстановление контекста Рассматривается линейная модель: $$y = Xc + \varepsilon$$ где: - $c$ — вектор коэффициентов - $X$ — матрица с элементами (матрица плана) - $y$ — вектор значений - $\varepsilon$ — вектор ошибок ### Базовые предположения 1. $\mathbb{E}[\varepsilon] = 0$ — математическое ожидание ошибки равно нулю 2. Матрица ковариаций ошибок: $\text{Cov}(\varepsilon) = \sigma^2 \cdot E$, где $E$ — единичная матрица Это означает, что модель **гомоскедастичная**: матрица ковариаций диагональная, и на диагонали стоит одна и та же дисперсия. ### Что было получено ранее Найдена **оценка наименьших квадратов** (ОНК): $$\hat{c} = A^{-1} X^T y$$ где $A = X^T X$. **Теорема Гаусса—Маркова** (повторение): - $\hat{c}$ — несмещённая оценка - $\hat{c}$ — оптимальная (эффективная) в классе линейных несмещённых оценок Также получена **несмещённая оценка остаточной дисперсии**: $$\hat{\sigma}^2 = \frac{S^2(\hat{c})}{n - m}$$ где $S^2(\hat{c})$ — квадратическая ошибка для ОНК, $n$ — число наблюдений, $m$ — число переменных. > До этого мы научились находить **точечные** оценки для $c$ и для остаточной дисперсии. Теперь будем строить **доверительные интервалы**. ## Теорема о нормальной регрессии **Условия:** выполнены все предположения, плюс ошибка распределена нормально. **Утверждения:** 1. $\hat{c} \sim \mathcal{N}(c, \sigma^2 A^{-1})$ 2. $\dfrac{S^2(\hat{c})}{\sigma^2} \sim \chi^2_{n-m}$ (хи-квадрат с $n - m$ степенями свободы) 3. $\dfrac{S^2(c) - S^2(\hat{c})}{\sigma^2} \sim \chi^2_{m}$ (хи-квадрат с $m$ степенями свободы) 4. Пары $\hat{c}$ и $S^2(\hat{c})$ — **независимы** (несмотря на то, что $S^2(\hat{c})$ зависит от $\hat{c}$) > Эту теорему можно воспринимать как переформулировку **теоремы Фишера** (которая использовалась при построении доверительных интервалов для параметров нормального закона). ## Проверка гипотезы о дисперсии **Гипотеза:** $H_0: \sigma^2 = \sigma_0^2$ **Статистика критерия:** $$T = \frac{S^2(\hat{c})}{\sigma_0^2}$$ При истинности $H_0$: $T \sim \chi^2_{n-m}$. ### Виды альтернатив и критические области | Альтернатива $H_1$ | Тип критерия | Критическая область | |---|---|---| | $\sigma^2 \neq \sigma_0^2$ | Двусторонний | $[0, q_{\alpha/2}] \cup [q_{1-\alpha/2}, +\infty)$ | | $\sigma^2 > \sigma_0^2$ | Правосторонний | $[q_{1-\alpha}, +\infty)$ | | $\sigma^2 < \sigma_0^2$ | Левосторонний | $[0, q_\alpha]$ | > **Замечание о терминологии.** Везде в записи используются **квантили**. В практических таблицах часто используются **критические значения**, которые могут обозначаться как $Q_\alpha$ (то, что в записи через квантили является $q_{1-\alpha}$). Важно понимать смысл и не путать. > **Замечание о носителе.** Распределение $\chi^2$ имеет носитель $[0, +\infty)$ (как сумма квадратов), поэтому отрицательных значений быть не может. ## $t$-тест значимости коэффициента линейной регрессии **Идея:** проверить, действительно ли $i$-я переменная влияет на модель. **Нулевая гипотеза:** $H_0: c_i = 0$ (фактор не влияет) **Альтернативы** (зависят от подозрений): - $c_i \neq 0$ (двусторонняя) - $c_i > 0$ (правосторонняя) - $c_i < 0$ (левосторонняя) **Статистика критерия:** $$T = \frac{\sqrt{n-m} \cdot \hat{c}_i}{\sqrt{S^2(\hat{c}) \cdot (A^{-1})_{ii}}}$$ При $H_0$: $T \sim t_{n-m}$. ### Примеры выбора альтернативы **Пример 1.** Цена недвижимости в зависимости от расстояния до центра. Подозрение: чем меньше расстояние, тем больше цена → **левосторонняя** альтернатива ($c_i < 0$). **Пример 2.** Стоимость авто в зависимости от мощности. Подозрение: чем больше мощность, тем больше цена → **правосторонняя** альтернатива ($c_i > 0$). ## Условные оценки наименьших квадратов Понадобятся для описания $F$-критерия. **Постановка:** вектор $c$ удовлетворяет линейным ограничениям: $$Tc = t_0$$ где: - $T$ — матрица $k \times m$, $k \leq m$ - $\text{rank}(T) = k$ (ограничения линейно независимы) **Определение условной ОНК:** $$\hat{c}_T = \arg\min_{Tc = t_0} S^2(c)$$ Это задача оптимизации квадратичной функции при линейных ограничениях. ### Аналитическая формула $$\hat{c}_T = \hat{c} - A^{-1} T^T D^{-1} (T\hat{c} - t_0)$$ где: $$D = T A^{-1} T^T$$ (матрица $D$ возникала в теореме Гаусса—Маркова). > Матрица $D$ симметрична: $D^T = D$, поэтому $(D^{-1})^T = D^{-1}$. > $D^{-1}$ существует, потому что $\text{rank}(T) = k$. ### Идея вывода Аналогично доказательству обычной ОНК. Показывается: $$S^2(\hat{c}_T + h) > S^2(\hat{c}_T)$$ для любого $h \neq 0$ такого, что $T h = 0$ (приращение в допустимом направлении). **Упражнение:** показать, что $T \hat{c}_T = t_0$ (выполняется в одну строчку). ### Ключевое наблюдение Из результата прошлой лекции: $$S^2(c) - S^2(\hat{c}) = (c - \hat{c})^T A (c - \hat{c})$$ Подставляя $c = \hat{c}_T$: $$S^2(\hat{c}_T) - S^2(\hat{c}) = (\hat{c}_T - \hat{c})^T A (\hat{c}_T - \hat{c})$$ Используя формулу для $\hat{c}_T - \hat{c} = -A^{-1} T^T D^{-1}(T\hat{c} - t_0)$: $$S^2(\hat{c}_T) - S^2(\hat{c}) = (T\hat{c} - t_0)^T D^{-1} \underbrace{T A^{-1} T^T}_{= D} D^{-1} (T\hat{c} - t_0)$$ $$= (T\hat{c} - t_0)^T D^{-1} (T\hat{c} - t_0)$$ > Это **квадратичная форма** от $\hat{c}$. Так как $\hat{c}$ имеет нормальное распределение, и квадратичная форма построена с матрицей ранга $k$, эта величина связана с распределением $\chi^2_k$ — **число степеней свободы равно $k$**. ## $F$-критерий "по умолчанию" (значимость модели в целом) ### Стандартная модель $$y_i = c_0 + x_{i1} c_1 + x_{i2} c_2 + \ldots + x_{im} c_m + \varepsilon_i$$ В библиотеках $c_0$ (свободный член) обычно выделяется отдельно. ### Гипотеза по умолчанию **Нулевая гипотеза:** все коэффициенты, кроме свободного, равны нулю: $$H_0: c_1 = c_2 = \ldots = c_m = 0$$ **Альтернатива:** $H_1$: хотя бы один $c_i \neq 0$ (то есть $\neg H_0$). > Это **проверка значимости модели в целом**. --- ## Коэффициент детерминации $R^2$ **Определение.** Множественный коэффициент корреляции — это коэффициент корреляции между $y$ и $\hat{y}$: $$R = \text{corr}(y, \hat{y})$$ где $\hat{y} = X\hat{c}$. **Коэффициент детерминации:** $$R^2 = R^2(\text{множественный})$$ ### Связь с остаточной дисперсией Имеет место соотношение: $$S^2(\hat{c}) = (1 - R^2) \sum_{i=1}^{n} (y_i - \bar{y})^2$$ > Правая сумма — константа, зависящая от датасета. ### Интерпретация | $R^2$ | Остаточная дисперсия | Качество модели | |---|---|---| | Близко к 1 | Маленькая | Модель адекватная | | Близко к 0 | Большая | Модель не очень адекватная | ### $F$-статистика через $R^2$ Для гипотезы по умолчанию $F$-статистика выражается через коэффициент детерминации: $$F = \frac{R^2 / m}{(1 - R^2) / (n - m - 1)}$$ > **Замечание Ивана Александровича:** возможны небольшие неточности в коэффициентах — нужно перепроверить. --- # Лекция 13. Линейные модели. Однофакторный дисперсионный анализ, метод главных компонент, взвешенный МНК ## Организационная часть - На прошлой лекции была допущена опечатка в формуле статистики, выражающейся через коэффициент детерминации $R^2$. - Для рассматриваемой модели верная формула: $$F = \frac{n-m}{m-1} \cdot \frac{R^2}{1-R^2}$$ - Ранее коэффициент $R^2$ находили вручную для простого случая (двух переменных), затем переходили к более общим случаям. ## 2. Метод главных компонент (PCA) ### 2.1. Мотивация В модели линейной регрессии предполагалось, что $X^T X$ **не вырождена** (отсутствие мультиколлинеарности — линейная независимость переменных). **Две проблемы:** 1. Чисто гипотетически матрица может оказаться вырожденной — переменные линейно зависимы. Одна выражается через другие. 2. При вычислении оценки наименьших квадратов нужно обращать $X^T X$. С численной точки зрения существуют показатели, от которых зависит скорость сходимости алгоритмов обращения. Может оказаться, что матрица обратима формально, но обращается очень медленно — это означает, что переменные **почти линейно зависимы**. > Подробнее об этом — в курсе численных методов на 3-м курсе. ### 2.2. Идея метода Обозначим $A = X^T X$. Эта матрица: - напоминает ковариационную матрицу; - **неотрицательно определена**. Из неотрицательной определённости: - собственные числа неотрицательны: $\lambda_i \geq 0$; - собственные векторы можно выбрать **ортонормированными** ($n$ линейно независимых). ### 2.3. Спектральное разложение $$\Lambda = U^T A U$$ где: - $\Lambda = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_n)$ — диагональная матрица собственных чисел, отсортированных по убыванию ($\lambda_1 \geq \lambda_2 \geq \ldots \geq 0$); - $U = [u_1 \, u_2 \, \ldots \, u_n]$ — ортонормированные собственные векторы. Поскольку $U$ ортогональная, $U^{-1} = U^T$, поэтому: $$A = U \Lambda U^T$$ ### 2.4. Введение новых переменных Вводим новые переменные: $$W = X U$$ Посчитаем $W^T W$: $$W^T W = (XU)^T (XU) = U^T X^T X U = U^T A U = U^T (U \Lambda U^T) U = (U^T U) \Lambda (U^T U) = \Lambda$$ (использовали $U^T U = I$, поскольку $U$ ортогональна). **Получили:** $$W^T W = \Lambda$$ — это **диагональная матрица**. ### 2.5. Свойства новых переменных Поскольку $W^T W$ диагональна: - **новые переменные линейно независимы (некоррелированы)** — недиагональные элементы нулевые; - **новые переменные отсортированы по убыванию дисперсии** — на диагонали матрицы ковариаций стоят дисперсии. В матричной форме: $$\begin{pmatrix} w_1 & w_2 & \ldots & w_m \end{pmatrix} = \begin{pmatrix} x_1 & x_2 & \ldots & x_n \end{pmatrix} \cdot U$$ Каждый $w_k$ получается умножением старых переменных на $k$-й столбец матрицы $U$: - $w_1$ — самая большая дисперсия; - $w_2$ — поменьше; - и т.д. ### 2.6. Снижение размерности **Идея:** дисперсия — мера разброса от матожидания. Если у переменной маленькая дисперсия, она почти не изменяется, фактически ведёт себя как константа — особой роли в модели не играет. **Алгоритм:** оставляем только переменные с большой дисперсией; остальные отбрасываем. #### Критерии остановки 1. **Порог по отдельной дисперсии:** оставляем $w_i$, для которых $\lambda_i > \tau$ (порог). 2. **Кумулятивный порог:** суммируем $\lambda_i$ по убыванию, пока сумма не достигнет заданного порога. ### 2.7. Что получили С помощью PCA борются с: - **некоррелированностью** (точнее, с проблемой мультиколлинеарности — делаем переменные некоррелированными); - **большим количеством переменных** — снижаем размерность. ## 4. Замечание о проверке предположений модели В стандартной линейной регрессии предполагали: - ошибки распределены нормально; - ошибки не коррелированы; - гомоскедастичность (одинаковые дисперсии). Для проверки этих предположений существуют **специально предназначенные стат-тесты**: - тесты на гомоскедастичность; - тесты на отсутствие корреляции ошибок; - тесты на нормальность распределения. > В рамках курса подробно не разбираем; кому интересно — можно изучить самостоятельно. $$\sum_{i=1}^{n} x_i \geq \tilde{C} + \frac{n}{2}$$ ### 5.4. Распределение тестовой статистики При условии $H_0$: $$\sum_{i=1}^{n} x_i \sim \mathcal{N}(0, n)$$ При условии $H_1$: $$\sum_{i=1}^{n} x_i \sim \mathcal{N}(n, n)$$ ### 5.5. Условие на вероятность ошибки первого рода $$P\left(\sum x_i \geq \tilde{C} + \frac{n}{2} \mid H_0\right) = 1 - \Phi\left(\frac{\tilde{C} + n/2}{\sqrt{n}}\right) = \alpha$$ где $\Phi$ — функция распределения стандартного нормального закона. Дальше остаётся разрешить уравнение относительно $\tilde{C}$. ### 5.6. Геометрическая интерпретация Имеем две гауссианы: 1. **Гауссиана №1** — плотность $\mathcal{N}(0, n)$ (при $H_0$) 2. **Гауссиана №2** — плотность $\mathcal{N}(n, n)$ (при $H_1$) Отметим на оси константу (обозначим её через две волны $\tilde{\tilde{C}}$). **Вероятность ошибки первого рода ($\alpha$):** - Это ситуация: опровергаем $H_0$, но она верна - На графике: площадь под первой гауссианой **справа** от черты **Вероятность ошибки второго рода ($\beta$):** - Это ситуация: принимаем $H_0$, но верна $H_1$ - $P(\sum x_i < \tilde{\tilde{C}} \mid H_1)$ - На графике: площадь под второй гауссианой **слева** от черты ### 5.7. Анализ trade-off Если параметр $\tilde{\tilde{C}}$ варьировать: - **Двигаем вправо:** $\alpha$ уменьшается, $\beta$ увеличивается - **Двигаем влево:** $\alpha$ увеличивается, $\beta$ уменьшается Лемма Неймана-Пирсона утверждает: если в критерии отношения правдоподобия для простых гипотез подобрать константу так, чтобы $\alpha$ в точности равнялась заданной величине, то этот критерий **оптимален** в плане минимизации $\beta$. --- ## 6. Общий критерий отношения правдоподобия ### 6.1. Постановка (сложные параметрические гипотезы) Пусть имеется параметрическая гипотеза: $$H_0: \theta \in \Theta_0 \quad \text{vs} \quad H_1: \theta \in \Theta \setminus \Theta_0$$ То есть $\Theta_0$ — некоторое подмножество параметров, а альтернатива — его дополнение. ### 6.2. Статистика $$\Lambda_n = \frac{\sup_{\theta \in \Theta_0} L(X, \theta)}{\sup_{\theta \in \Theta} L(X, \theta)}$$ > Здесь, в отличие от случая простых гипотез, нужна **оптимизация**: > - **Числитель:** условная оптимизация ($\theta \in \Theta_0$) > - **Знаменатель:** безусловная оптимизация по всему $\Theta$ ### 6.3. Асимптотическое распределение **Предположение:** оценки максимального правдоподобия асимптотически нормальные (это выполняется в рамках условий регулярности). Тогда: $$-2 \ln \Lambda_n \xrightarrow{d} \chi^2_{m - r}$$ где: - $m$ — размерность $\Theta$ (всего пространства параметров) - $r$ — размерность $\Theta_0$ ### 6.4. Почему именно $-2 \ln \Lambda_n$? (объяснение «на пальцах») - **Минус:** в классическом критерии отношения правдоподобия было «наоборот» — наверху правдоподобие при $H_1$, внизу при $H_0$. Минус условно «переворачивает» дробь. - **Логарифм:** упрощает работу с произведениями - **Двойка:** $2 \ln x = \ln x^2$, а логарифм произведения это сумма. Получается похоже на сумму квадратов — отсюда и $\chi^2$-распределение. --- ## 7. Применение: проверка значимости логистической регрессии ### 7.1. Постановка Возвращаемся к модели логистической регрессии: $$y_i \sim \text{Bern}\left(\frac{1}{1 + e^{-(c_0 + c_1 x_{i1} + \ldots + c_m x_{im})}}\right)$$ **Что значит проверить значимость модели?** Хотим выяснить, действительно ли переменные $x$ влияют на $y$. ### 7.2. Гипотезы **Нулевая гипотеза** (по умолчанию: переменные не влияют): $$H_0: c_1 = c_2 = \ldots = c_m = 0$$ В этом случае остаётся только свободный коэффициент $c_0$, поэтому **размерность $\Theta_0$ равна 1**. **Альтернативная гипотеза** (формально): $$H_1: \exists k \text{ такое, что } c_k \neq 0$$ ### 7.3. Размерности - $\dim \Theta = m + 1$ (модель описывается $m + 1$ параметром: $c_0, c_1, \ldots, c_m$) - $\dim \Theta_0 = 1$ (остался только $c_0$) ### 7.4. Отношение правдоподобия $$\Lambda_n = \frac{\sup_{\theta \in \Theta_0} L(X, \theta)}{\sup_{\theta \in \Theta} L(X, \theta)}$$ По сути спрашиваем: действительно ли наша выборка — просто бернуллиевские величины, или же зависит от $X$? > **Замечание про размерности.** Вся $\Theta$ — это все возможные значения $(c_0, c_1, \ldots, c_m)$, их $m + 1$ штука, поэтому размерность $m + 1$. В $\Theta_0$ все $c_i$ при $i \geq 1$ занулены, остался только $c_0$ — размерность 1. ### 7.5. Аналогично для регрессии Пуассона Нулевая гипотеза: все коэффициенты, кроме $c_0$, равны нулю. Альтернатива — отрицание $H_0$. --- ## 8. Построение критерия Известно: $$-2 \ln \Lambda_n \xrightarrow{d} \chi^2_{m - r}$$ **Решающее правило:** Если $\Lambda_n > C$, то принимаем $H_0$, иначе $H_1$. В терминах $-2 \ln \Lambda_n$ (знак неравенства меняется): $$\text{если } -2 \ln \Lambda_n < \tilde{C}, \text{ то } H_0, \text{ иначе } H_1$$ В качестве пороговой константы $\tilde{C}$ берём **квантиль $\chi^2$-распределения** с $m - r$ степенями свободы.