# Лекция 1. Введение в математическую статистику

## Что изучает математическая статистика

В этом семестре изучается **математическая статистика**. Чтобы понять её предмет, полезно сравнить с теорией вероятностей.

**Теория вероятностей** (грубо говоря): есть некоторая модель, задаётся распределение базовых параметров, и на основе этого находятся числовые характеристики или распределения функций этих параметров.

**Математическая статистика** имеет другую глобальную задачу. Допустим, есть совокупность всех студентов, и по тем или иным причинам нельзя обследовать каждый объект из этого набора. В контексте статистики такой полный набор называется **генеральной совокупностью**. Чтобы сделать вывод о генеральной совокупности, берут конечный поднабор из неё, который называется **выборкой**, и на основе выборки делают более-менее содержательные выводы о всей генеральной совокупности.

## Иллюстрирующие примеры

### Пример 1. Подбрасывание монеты роботом

Робот кидает монетку, мы видим результат: последовательность нулей и единиц. Какие задачи можно решать?

1. **Точечная оценка вероятности орла** — оценить вероятность орла в виде числа. Резонной оценкой является:
$$\hat{p} = \frac{\text{количество орлов}}{\text{общее количество бросков}}$$

В статистике под словом «резонная» понимается «разумная». Можно оценивать в виде числа.

2. **Интервальная оценка** — указать интервал, в котором, скорее всего, лежит реальная вероятность орла. Иногда интервал нагляднее одного числа.

3. **Проверка гипотезы о честности монеты** — честно ли робот кидает монетку? Интуитивно: если доля орлов больше некоторого числа $\delta$, то монетка нечестная. Но как выбрать порог $\delta$? Кто-то скажет 0.51, кто-то 0.01, кто-то 0.1, 0.5 — всё это берётся «с потолка». **Методы статистики позволяют формально и обоснованно выбрать этот порог**.

> Также в статистике есть показатель **p-value (пэ-вэлю)**, который мы будем обсуждать. В терминах p-value тоже можно переписать критерий «if».

### Пример 2. Клинические испытания вакцины/лекарства

Проводятся клинические испытания нового лекарства. Есть набор людей, для каждого из которых известны два атрибута:
- болен / здоров
- получил вакцину / не получил вакцину

Методы математической статистики позволяют **привести аргумент в пользу того, что вакцина действительно положительно влияет на здоровье человека**.

### Пример 3. Цена квартиры

От чего может зависеть цена квартиры?
- размер (площадь)
- ситуация на рынке
- регион (region)
- расстояние до центра (distance)
- возможно, какие-то другие факторы

Методы статистики позволяют сказать, действительно ли указанные факторы влияют на цену, или это ошибочные предположения.

## Важное замечание: статистика — не серебряная пуля

Статистика **не доказывает** формальные утверждения так, как это делается в чистой фундаментальной математике.

**Пример из медицины.** Допустим, фармацевт провёл клиническое испытание, получил хорошие результаты, провёл статистический тест, p-value получилось меньше нужного значения. Он отправляет статью в журнал — и редактор её отклоняет (reject). Почему? Потому что был грубо нарушен **протокол**, принятый в медицинском сообществе. Нельзя в медицине «просто провести стат-тест и сказать, что вакцина эффективна».

**Вывод:** в каждой предметной области есть свои протоколы применения статистических методов. Курс посвящён именно самим статистическим методам, но нужно понимать, что в каждой предметной области есть своя специфика.

## Репрезентативность выборки

**Вопрос:** какое свойство выборки позволяет сделать содержательные выводы о всей генеральной совокупности?

**Ответ:** репрезентативность.

> **Важно:** к утверждению «чем больше объём выборки, тем она репрезентативнее» нужно подходить очень осторожно.

### Пример нерепрезентативной выборки

Социологический опрос жителей России. Анкета размещена только в интернете, заполнили сотни тысяч человек. Является ли выборка репрезентативной?

**Нет**, потому что есть люди, которые по тем или иным причинам не любят заполнять анкеты в интернете. Тем самым проигнорирован существенный кластер людей.

### Виды выборок (на примере социологии)

- **Чисто случайная выборка** — объекты берутся случайно из генеральной совокупности.
- **Стратифицированная выборка** — есть кластеры (страты), которые заранее известны. В рамках каждого класса случайно выбираются люди, потом всё объединяется в одну выборку. Например, делим людей на группы по возрасту, профессии и т.п., и из каждой группы случайно выбираем некоторое количество людей.

Это сильно зависит от **дизайна исследования** и **предметной области**.

> **Главный вывод:** утверждение «чем больше объём выборки, тем она репрезентативнее» **далеко не всегда правда**.

# Эмпирическая функция распределения

## Определение

Введём вспомогательную величину:
$$\nu_n(t) = \sum_{i=1}^{n} \mathbb{I}\{X_i \leq t\}$$

— это **количество элементов выборки, не превосходящих $t$**.

**Эмпирическая функция распределения**:
$$\hat{F}_n(t) = \frac{\nu_n(t)}{n}$$

— это **доля (отношение) количества элементов выборки, не превосходящих $t$, к общему объёму выборки $n$**.

> **Терминология:** $n$ называется **объём выборки** (или размер выборки).

## График

График $\hat{F}_n(t)$ — это ступенчатая функция. Высота скачка зависит от количества элементов выборки в данной точке.

> **Замечание.** В разных учебниках функция распределения может быть непрерывна слева либо непрерывна справа. Здесь рассматривается непрерывная справа версия (знак $\leq$).

## Эмпирическая ФР как случайная величина

Сама выборка — случайные величины, поэтому $\hat{F}_n(t)$ — это **функция от выборки**, то есть **тоже случайная величина**. В разных экспериментах будет получаться своя $\hat{F}_n$. Значит, можно говорить о её распределении и числовых характеристиках.

## Свойства эмпирической ФР

### Распределение индикатора

Индикатор $\mathbb{I}\{X_i \leq t\}$ принимает значения $0$ или $1$. Это **распределение Бернулли** с параметром:
$$p = P(X_i \leq t) = F(t)$$

Это и есть теоретическая функция распределения.

### Распределение $\nu_n(t)$

$\nu_n(t)$ — сумма $n$ бернуллиевских величин, значит:
$$\nu_n(t) \sim \text{Bin}(n, F(t))$$

Отсюда:
$$\mathbb{E}\,\nu_n(t) = n F(t)$$
$$\text{Var}\,\nu_n(t) = n F(t)(1 - F(t))$$

### Несмещённость

$$\mathbb{E}\,\hat{F}_n(t) = \frac{\mathbb{E}\,\nu_n(t)}{n} = \frac{n F(t)}{n} = F(t)$$

В среднем эмпирическая функция распределения совпадает с теоретической.

> **Определение.** Свойство **несмещённости**: математическое ожидание оценки равняется самому оцениваемому параметру.
>
> **Практический смысл:** отсутствует систематическая ошибка. Можно получить оценку больше или меньше истинного значения, но в среднем — попадаешь в цель.

### Состоятельность (закон больших чисел)

$\hat{F}_n(t)$ — усреднённая сумма независимых одинаково распределённых случайных величин. По **закону больших чисел**:
$$\hat{F}_n(t) \xrightarrow{P} F(t)$$

> **Определение.** Свойство **состоятельности**: оценка сходится по вероятности к параметру при $n \to \infty$.
>
> **Практический смысл:** оценка вообще «разумная» — при увеличении объёма выборки она становится всё ближе к реальному значению оцениваемого параметра.

### Асимптотическая нормальность (ЦПТ)

По **центральной предельной теореме**:
$$\frac{\nu_n(t) - n F(t)}{\sqrt{n F(t)(1 - F(t))}} \xrightarrow{d} \mathcal{N}(0, 1)$$

Или, после преобразований (вынося $n$ из числителя):
$$\sqrt{n} \cdot \frac{\hat{F}_n(t) - F(t)}{\sqrt{F(t)(1 - F(t))}} \xrightarrow{d} \mathcal{N}(0, 1)$$

> **Определение.** Свойство **асимптотической нормальности**: домноженная на $\sqrt{n}$ и нормированная разность между оценкой и оцениваемым параметром сходится по распределению к стандартной гауссовской величине.

# Дополнительные теоремы для эмпирической ФР

## Теорема Гливенко–Кантелли

**Условия:** простейшая выборка, $F$ — теоретическая ФР, $\hat{F}_n$ — эмпирическая ФР.

**Утверждение:**
$$P\left(\sup_{t \in \mathbb{R}}\left|\hat{F}_n(t) - F(t)\right| \xrightarrow[n \to \infty]{} 0\right) = 1$$

То есть **с вероятностью 1** супремум модуля разности между эмпирической и теоретической ФР стремится к нулю.

## Теорема Колмогорова

**Условия:** простейшая выборка, теоретическая ФР $F$ должна быть **непрерывной**.

> **Важно:** теорема Колмогорова работает только для непрерывных распределений; для дискретных она не имеет места быть.

**Обозначение:**
$$D_n = \sqrt{n} \cdot \sup_{t \in \mathbb{R}} \left|\hat{F}_n(t) - F(t)\right|$$

**Утверждение:** $D_n$ имеет предельное распределение, задаваемое функцией распределения Колмогорова:
$$P(D_n \leq x) \xrightarrow[n \to \infty]{} K(x)$$

где аналитический вид:
$$K(x) = \sum_{j=-\infty}^{\infty} (-1)^j \, e^{-2 j^2 x^2}$$

Эта функция табулирована и реализована во многих статистических пакетах и библиотеках. Она используется для построения **критерия Колмогорова**.

## Теорема Смирнова

**Условия:** есть две независимые выборки:
- $X_1, \ldots, X_n \sim F$ (непрерывное распределение)
- $Y_1, \ldots, Y_m$ — выборка того же распределения

$\hat{F}_n^X$, $\hat{F}_m^Y$ — соответствующие эмпирические ФР.

> **Замечание о независимости выборок:** если объединить обе выборки в одну, всё должно быть независимо. Например, функции от $X_i$ и от $Y_j$ независимы.

**Обозначение:**
$$D_{m,n} = \sqrt{\frac{mn}{m+n}} \cdot \sup_{t \in \mathbb{R}}\left|\hat{F}_n^X(t) - \hat{F}_m^Y(t)\right|$$

**Утверждение:** при $m, n \to \infty$:
$$P(D_{m,n} \leq x) \to K(x)$$

— **то же самое распределение Колмогорова** $K(x)$.

> Поэтому в статистических пакетах два соответствующих критерия (Колмогорова и Смирнова) часто **объединены в одну функцию**.

# Эмпирическое распределение

Если зафиксировать конкретную реализацию $x_1, \ldots, x_n$, то $\hat{F}_n$ — это функция, которая:
- монотонно возрастает,
- непрерывна справа,
- стремится к 1 на $+\infty$, к 0 на $-\infty$,

то есть удовлетворяет всем свойствам функции распределения. Значит, **она задаёт некоторое распределение** — называемое **эмпирическим распределением**.

## Описание эмпирического распределения

Случайная величина $Y$ принимает значения $x_1, \ldots, x_n$ со следующими вероятностями:

$$P(Y = x) = \frac{\#\{i : x_i = x\}}{n}$$

— количество элементов выборки, равных $x$, делённое на $n$.

## Скачки эмпирической ФР

Если упорядочить элементы выборки и обозначить точку $x_k$ ($x_k$, скажем, лежит между $x_{k-1}$ и $x_{k+1}$), то **величина скачка** в точке $x_k$ равна:
$$p_k = \frac{\#\{i : x_i = x_k\}}{n}$$

- Для **дискретного** распределения: при росте $n$ величины скачков сходятся к реальным вероятностям $p_k$.
- Для **непрерывного** распределения: скачки уходят в 0.

# Свойства начальных выборочных моментов

Выборка — случайная, поэтому моменты — тоже случайные величины. Можно говорить об их распределении.

## Несмещённость

$$\mathbb{E}\,\hat{\alpha}_k = \mathbb{E}\left(\frac{1}{n}\sum_{i=1}^{n} X_i^k\right) = \frac{1}{n}\sum_{i=1}^{n}\mathbb{E}\,X_i^k = \frac{n \cdot \alpha_k}{n} = \alpha_k$$

Начальный выборочный момент — **несмещённая оценка** теоретического начального момента.

## Состоятельность (закон больших чисел)

$\hat{\alpha}_k$ — усреднённая сумма независимых одинаково распределённых случайных величин $X_i^k$. По закону больших чисел:
$$\hat{\alpha}_k \xrightarrow{P} \alpha_k$$

Оценка **состоятельная**.

## Асимптотическая нормальность (ЦПТ)

По центральной предельной теореме:
$$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\text{Var}(X_1^k)}} \xrightarrow{d} \mathcal{N}(0, 1)$$

или, расписав дисперсию:
$$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\mathbb{E}\,X_1^{2k} - (\mathbb{E}\,X_1^k)^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$

То есть:
$$\sqrt{n} \cdot \frac{\hat{\alpha}_k - \alpha_k}{\sqrt{\alpha_{2k} - \alpha_k^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$

# Лекция 2: Описательная статистика. Выборочные моменты, квантили и асимптотические свойства

## Дельта-метод

### Зачем нужен

Для асимптотической нормальности **начальных** выборочных моментов и эмпирической функции распределения мы напрямую применяли ЦПТ. Но для **центральных** моментов это не работает: слагаемые вида $(X_j - \overline{X})^k$ **не являются независимыми**, потому что везде присутствует $\overline{X}$. Поэтому ЦПТ напрямую не применима — нужен **дельта-метод**.

### Одномерная версия дельта-метода

**Постановка**. Пусть случайные величины $\xi_n$ удовлетворяют:
$$\sqrt{n}(\xi_n - a) \xrightarrow{d} \mathcal{N}(0, \sigma^2)$$

Пусть $\varphi: \mathbb{R} \to \mathbb{R}$ — достаточно гладкая функция (столько раз дифференцируемая, сколько потребуется).

**Вопрос**: к чему сходится $\sqrt{n}(\varphi(\xi_n) - \varphi(a))$?

### Обоснование одномерного дельта-метода

**Шаг 0**: $\xi_n - a \xrightarrow{P} 0$.

Действительно, рассмотрим:
$$\mathbb{P}(|\xi_n - a| < \varepsilon) = \mathbb{P}(\sqrt{n}|\xi_n - a| < \sqrt{n}\varepsilon)$$

Поскольку $\sqrt{n}(\xi_n - a) \xrightarrow{d} \mathcal{N}(0,\sigma^2)$, имеем:
$$\mathbb{P}(\sqrt{n}|\xi_n - a| < \sqrt{n}\varepsilon) \to \Phi_{0,\sigma^2}(+\infty) - \Phi_{0,\sigma^2}(-\infty) = 1 - 0 = 1$$

Значит, $\xi_n \xrightarrow{P} a$.

**Шаг 1**. Раскладываем по формуле Тейлора с остатком в форме Лагранжа:
$$\varphi(\xi_n) - \varphi(a) = \varphi'(a)(\xi_n - a) + \frac{\varphi''(\tilde{\xi}_n)}{2}(\xi_n - a)^2$$

где $\tilde{\xi}_n$ — между $a$ и $\xi_n$.

**Шаг 2**. Домножим на $\sqrt{n}$:
$$\sqrt{n}(\varphi(\xi_n) - \varphi(a)) = \varphi'(a) \cdot \sqrt{n}(\xi_n - a) + \frac{\varphi''(\tilde{\xi}_n)}{2}\sqrt{n}(\xi_n - a)^2$$

- Первое слагаемое: $\varphi'(a) \cdot \sqrt{n}(\xi_n-a) \xrightarrow{d} \mathcal{N}(0, (\varphi'(a))^2 \sigma^2)$
- Второе слагаемое: $\sqrt{n}(\xi_n - a)^2 = \underbrace{\sqrt{n}(\xi_n - a)}_{\to \mathcal{N}(0,\sigma^2)} \cdot \underbrace{(\xi_n - a)}_{\xrightarrow{P} 0} \xrightarrow{P} 0$, причём $\tilde{\xi}_n \xrightarrow{P} a$, $\varphi''(\tilde{\xi}_n)$ — ограничено.

В итоге всё второе слагаемое сходится к нулю по вероятности.

### Результат (одномерный дельта-метод)

$$\boxed{\sqrt{n}(\varphi(\xi_n) - \varphi(a)) \xrightarrow{d} \mathcal{N}(0,\, (\varphi'(a))^2 \sigma^2)}$$

### Многомерная версия дельта-метода

**Постановка**: $\xi_n$ — теперь случайный вектор, и
$$\sqrt{n}(\xi_n - a) \xrightarrow{d} \mathcal{N}(0, \Sigma)$$

где $\Sigma$ — матрица ковариаций. Пусть $\varphi: \mathbb{R}^d \to \mathbb{R}$ — гладкая (непрерывно дифференцируемая) функция $d$ переменных.

**Утверждение**:
$$\sqrt{n}(\varphi(\xi_n) - \varphi(a)) \xrightarrow{d} \mathcal{N}(0,\, \nabla\varphi(a)^\top \Sigma\, \nabla\varphi(a))$$

где $\nabla\varphi(a)$ — градиент (строчка из частных производных). Размерность согласуется: строчка × матрица × столбец = число.

**Замечание**: матрица ковариаций — это аналог дисперсии в многомерном случае.

### Многомерная ЦПТ (для удобства использования)

Пусть $X_1, \ldots, X_n$ — независимые одинаково распределённые случайные **векторы**, $\mathbb{E}X_1 = a$, $\mathbb{D}X_1 = \Sigma$. Пусть $S_n = \sum_{k=1}^n X_k$. Тогда:
$$\frac{S_n - na}{\sqrt{n}} \xrightarrow{d} \mathcal{N}(0, \Sigma)$$

В удобной для статистики форме:
$$\sqrt{n}\left(\frac{S_n}{n} - a\right) \xrightarrow{d} \mathcal{N}(0, \Sigma)$$

## Асимптотическая нормальность выборочной дисперсии

### Применение теоремы

Выборочная дисперсия:
$$S^{*2} = \overline{X^2} - \overline{X}^2 = \varphi(\overline{X}, \overline{X^2})$$

где $\varphi(x_1, x_2) = x_2 - x_1^2$.

**Градиент**:
$$\nabla\varphi(x_1, x_2) = (-2x_1,\, 1)$$

В точке $a = (\mathbb{E}X_1, \mathbb{E}X_1^2)$:
$$\nabla\varphi(a) = (-2\mathbb{E}X_1,\, 1)$$

### Применяем дельта-метод

$$\sqrt{n}(S^{*2} - \mathbb{D}X_1) \xrightarrow{d} \mathcal{N}(0,\, \sigma^2)$$

где
$$\sigma^2 = (-2\mathbb{E}X_1,\, 1) \cdot \begin{pmatrix} \mathbb{D}X_1 & \mathrm{cov}(X_1, X_1^2) \\ \mathrm{cov}(X_1, X_1^2) & \mathbb{D}X_1^2 \end{pmatrix} \cdot \begin{pmatrix} -2\mathbb{E}X_1 \\ 1 \end{pmatrix}$$

### Упрощение (упражнение)

После раскрытия:
$$\sigma^2 = \mathbb{E}(X - \mathbb{E}X)^4 - (\mathbb{D}X)^2 = \mu_4 - \beta_2^2$$

где $\mu_4$ — четвёртый центральный момент.

### Стандартизованный результат

$$\frac{\sqrt{n}(S^{*2} - \mathbb{D}X)}{\sqrt{\hat{\beta}_4 - (S^{*2})^2}} \xrightarrow{d} \mathcal{N}(0, 1)$$

где $\hat{\beta}_4$ — четвёртый выборочный центральный момент.

**Вывод**: выборочная дисперсия — **асимптотически нормальная** оценка.

## Порядковые статистики и выборочные квантили

### Вариационный ряд

Пусть $X_1, \ldots, X_n$ — исходная выборка. **Сортируем по возрастанию** и получаем:
$$X_{(1)} \leq X_{(2)} \leq \ldots \leq X_{(n)}$$

Это и есть **вариационный ряд**. Элементы $X_{(k)}$ называются **порядковыми статистиками**.

**Замечание**: некоторые авторы под вариационным рядом понимают **статистический ряд** — где сначала берётся `unique`, затем для каждого уникального значения считается количество вхождений $\nu_i$:
$$(x_1, \nu_1), (x_2, \nu_2), \ldots, (x_m, \nu_m)$$

после чего массив сортируется по $x$. Здесь $\nu_i$ — случайные величины (функции от выборки).

### Теоретический квантиль (повторение)

**Квантиль порядка $\alpha$** $u_\alpha$ — это число, такое что:
$$\mathbb{P}(X \geq u_\alpha) \geq 1 - \alpha \quad \text{и} \quad \mathbb{P}(X \leq u_\alpha) \geq \alpha$$

В **непрерывном случае** квантиль определяется однозначно:
$$F(u_\alpha) = \alpha$$

**Геометрическая интерпретация**: квантиль $u_\alpha$ делит вероятностную массу под графиком плотности на части $\alpha$ (слева) и $1 - \alpha$ (справа).

### Выборочные квантили

Обозначение: $\hat{u}_\alpha$.

**Граничные случаи**:
- $\hat{u}_0 = X_{(1)} = \min X_i$ — минимум
- $\hat{u}_1 = X_{(n)} = \max X_i$ — максимум

**Содержательный случай** $\alpha \in (0, 1)$. Существует номер $k \in \{1, \ldots, n\}$, такой что:
$$\frac{k-1}{n} < \alpha \leq \frac{k}{n}$$

Тогда:
$$\hat{u}_\alpha = X_{(k)} = X_{(\lceil n\alpha \rceil)}$$

(элемент вариационного ряда с номером $\lceil n\alpha \rceil$).

### Связанные термины

**Квартили** (от лат. *quartus* — четвёртый): делят выборку на четыре равные (в смысле эмпирической вероятностной массы) части.
- Нулевой квартиль = $\min$
- Первый квартиль (нижний) = $\hat{u}_{1/4}$
- Второй квартиль = **медиана** = $\hat{u}_{1/2}$
- Третий квартиль (верхний) = $\hat{u}_{3/4}$
- Четвёртый квартиль = $\max$

**Перцентили**: например, 74-й перцентиль = $\hat{u}_{0.74}$.

**Дециль**: разбиение на десять частей.

### Выборочная медиана

Часто определяется специальным образом в зависимости от чётности $n$:

- Если $n = 2m+1$ (нечётно): $\widehat{\mathrm{med}} = X_{(m+1)}$ — центральный элемент.
- Если $n = 2m$ (чётно): $\widehat{\mathrm{med}} = \dfrac{X_{(m)} + X_{(m+1)}}{2}$ — среднее арифметическое двух центральных элементов вариационного ряда.

При программировании необходимо смотреть, какое именно определение используется в конкретной библиотеке.

## Асимптотические результаты для порядковых статистик

### Теорема об асимптотике среднего члена вариационного ряда

**Условия**: $X_1, \ldots, X_n$ — выборка из непрерывного закона с теоретической плотностью $f$. Пусть $p \in (0, 1)$ — фиксированное число.

**Утверждение**:
$$\sqrt{n} \cdot f(u_p) \cdot \frac{X_{(\lceil np \rceil)} - u_p}{\sqrt{p(1-p)}} \xrightarrow{d} \mathcal{N}(0, 1)$$

при $n \to \infty$.

**Замечания**:
- $u_p$ — теоретический квантиль порядка $p$.
- Выборочный квантиль порядка $p$ — **асимптотически нормальная** оценка теоретического квантиля.
- Структура напоминает дисперсию распределения Бернулли $p(1-p)$.
- При $p = 1/2$ получаем результат для **выборочной медианы**.
- На русском языке эта теорема плохо гуглится — на английском лучше.

### Теорема об асимптотике крайних членов вариационного ряда (более экзотическая)

**Условия**: те же — выборка из непрерывного закона.

**Утверждение**: Для фиксированных $\ell, s$:
- $n \cdot F(X_{(\ell)})$ сходится по распределению к $\Gamma$-распределению с параметрами $(\ell, 1)$.
- $n \cdot (1 - F(X_{(n - s + 1)}))$ сходится по распределению к $\Gamma$-распределению с параметрами $(s, 1)$.

При этом эти предельные распределения **независимы**.

---

## Заключительные замечания

### Что обсудили в курсе

- **Описательные статистики**: эмпирическая функция распределения, гистограмма, выборочные характеристики.
- **Хорошие свойства** выборочных характеристик: состоятельность, несмещённость (для исправленных версий), асимптотическая нормальность.

### Важная оговорка: модель простейшей выборки

Все эти результаты получены в рамках модели **простейшей выборки** (i.i.d.), а это **сильное предположение**.

### Проблема робастности

Если ослабить предположения модели (например, отказаться от полной независимости/одинаковой распределённости, допустить выбросы), оценки могут вести себя по-разному:

- **Выборочное среднее** — **неробастная** оценка: при наличии выбросов оно сильно искажается.
- **Медиана** — более **устойчивая** оценка к выбросам.

Это нетривиальная тема, на эту тему написано немалое количество **нетонких** книг. Конкретные подходы к борьбе с нарушением условий зависят от конкретной задачи и предметной области.

### Где почитать про распределение порядковых статистик

Ивченко, Медведев — «Введение в математическую статистику» (упоминалась в списке литературы курса).

---

# Лекция 3: Точечное оценивание параметров. Метод моментов

## Общая постановка задачи

Пусть имеется **модель простейшей выборки**. С теоретической точки зрения это набор независимых одинаково распределённых случайных величин, распределение которых задаётся функцией распределения.

При этом будем предполагать, что функция распределения параметризуется неким параметром $\theta$:

$$F(x; \theta), \quad \theta \in \Theta \subseteq \mathbb{R}^d$$

где $\Theta$ — множество допустимых значений параметра, а $\theta$ может быть $d$-мерным вектором.

**Мотивация:** часто есть основания предполагать, что выборка пришла из какого-то класса распределений. Например:
- В биологии сами данные или их логарифмы аппроксимируются нормальным законом.
- Для потоков событий нередко используется распределение Пуассона.

**Цель:** оценить неизвестный параметр $\theta$ в виде $\hat{\theta}$, где $\hat{\theta}$ — это какая-то функция от выборки.

> Напоминание: функция от выборки кратко называется **статистикой**.

Нам бы какая оценка не годится — хотелось, чтобы она удовлетворяла каким-то хорошим свойствам.

## Связь свойств: разложение MSE

### Распишем MSE

$$\text{MSE}(\hat{\theta}) = \mathbb{E}\left[(\hat{\theta} - \theta)^T(\hat{\theta} - \theta)\right]$$

Применим приём "плюс-минус $\mathbb{E}\hat{\theta}$":

$$\hat{\theta} - \theta = (\hat{\theta} - \mathbb{E}\hat{\theta}) + (\mathbb{E}\hat{\theta} - \theta)$$

Раскрывая скобки и используя линейность математического ожидания, получим **четыре слагаемых**:

1. $\mathbb{E}\left[(\hat{\theta} - \mathbb{E}\hat{\theta})^T(\hat{\theta} - \mathbb{E}\hat{\theta})\right]$
2. $\mathbb{E}\left[(\mathbb{E}\hat{\theta} - \theta)^T(\mathbb{E}\hat{\theta} - \theta)\right]$
3. $\mathbb{E}\left[(\hat{\theta} - \mathbb{E}\hat{\theta})^T(\mathbb{E}\hat{\theta} - \theta)\right]$
4. $\mathbb{E}\left[(\mathbb{E}\hat{\theta} - \theta)^T(\hat{\theta} - \mathbb{E}\hat{\theta})\right]$

### Анализ слагаемых

**Слагаемые 3 и 4 равны нулю.** Рассуждение:

- $\theta$ — константа.
- $\mathbb{E}\hat{\theta}$ — это число (не случайная величина), значит тоже константа.
- Следовательно, $\mathbb{E}\hat{\theta} - \theta$ — константа, которую можно вынести из-под знака математического ожидания.
- Остаётся $\mathbb{E}[\hat{\theta} - \mathbb{E}\hat{\theta}] = \mathbb{E}\hat{\theta} - \mathbb{E}\hat{\theta} = 0$.

> Транспонирование константы — это тоже константа (транспонированная), не важно, строчка или вектор.

**Слагаемое 2** — это уже константа, поэтому $\mathbb{E}$ снимается. Оно равно квадрату нормы смещения:

$$\|\text{bias}(\hat{\theta})\|^2 = \|\mathbb{E}\hat{\theta} - \theta\|^2$$

**Слагаемое 1** — расписав покомпонентно:

$$\sum_{i=1}^{d} \mathbb{E}\left[(\hat{\theta}_i - \mathbb{E}\hat{\theta}_i)^2\right] = \sum_{i=1}^{d} \text{Var}(\hat{\theta}_i) = \text{tr}(\Sigma_{\hat{\theta}})$$

(на диагонали матрицы ковариации стоят как раз дисперсии).

### Итоговая формула

$$\boxed{\text{MSE}(\hat{\theta}) = \text{tr}(\Sigma_{\hat{\theta}}) + \|\text{bias}(\hat{\theta})\|^2}$$

### Соображение №1: эффективность через след матрицы ковариации

Если оценка **несмещённая**, то $\text{bias} = 0$, и тогда:

$$\text{MSE}(\hat{\theta}) = \text{tr}(\Sigma_{\hat{\theta}})$$

То есть для несмещённых оценок оптимизация MSE — это то же самое, что оптимизация следа матрицы ковариации. Это объясняет, почему в некоторых книгах эффективность определяется именно через минимизацию следа матрицы ковариации.

> **Спойлер:** если оценка несмещённая (и выполняются некоторые условия, о которых будет сказано позже), то можно указать **нетривиальную нижнюю границу** для дисперсии оценки. Тривиальная граница — это, понятно, $0$.

## Связь свойств: асимптотическая нормальность ⟹ состоятельность

### Утверждение

Если $\hat{\theta}$ — асимптотически нормальная оценка, то она состоятельна.

### Формальное доказательство

По определению асимптотической нормальности:

$$\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} \mathcal{N}(0, \sigma^2)$$

Распишем вероятность:

$$P(|\hat{\theta} - \theta| < \varepsilon) = P(|\sqrt{n}(\hat{\theta} - \theta)| < \varepsilon\sqrt{n})$$

В силу асимптотической нормальности:

$$P(|\sqrt{n}(\hat{\theta} - \theta)| < \varepsilon\sqrt{n}) \to F_{\mathcal{N}(0,\sigma^2)}(\varepsilon\sqrt{n}) - F_{\mathcal{N}(0,\sigma^2)}(-\varepsilon\sqrt{n})$$

При $n \to \infty$:
- $F_{\mathcal{N}(0,\sigma^2)}(+\infty) = 1$
- $F_{\mathcal{N}(0,\sigma^2)}(-\infty) = 0$

Значит, выражение стремится к $1 - 0 = 1$. То есть оценка действительно состоятельна. ∎

### Неформально про асимптотическую несмещённость

Из

$$\sqrt{n}(\hat{\theta} - \theta) \approx \mathcal{N}(0, \sigma^2)$$

неформально получаем:

$$\hat{\theta} - \theta \approx \mathcal{N}\left(0, \frac{\sigma^2}{n}\right)$$

При $n \to \infty$ это распределение "сжимается" в точку $0$. Это неформальное рассуждение.

> ⚠️ **Важное замечание:** обратное неверно! Из состоятельности **не следует** даже асимптотическая несмещённость. Существует экзотический контрпример (его рассмотрим в следующий раз).

## Примеры применения метода моментов

### Пример 1. Распределение Бернулли

Робот много раз кидает монетку, на входе последовательность нулей и единичек. Оценить вероятность $p$ выпадения единички.

Берём дефолтную функцию $g(x) = x$. Математическое ожидание распределения Бернулли:

$$\mathbb{E}[X] = p$$

Переходим к эмпирическому аналогу:

$$\overline{X} = \hat{p}$$

Здесь всё разрешилось тривиально. Получили:

$$\boxed{\hat{p} = \overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i}$$

То есть оценка вероятности успеха — это просто выборочное среднее (количество успехов / общее количество экспериментов).

**Свойства:** про выборочное среднее знаем, что это состоятельная, несмещённая, асимптотически нормальная оценка. Забегая вперёд — даже эффективная.

### Пример 3. Нормальное распределение $\mathcal{N}(\mu, b)$

Здесь $b$ — дисперсия. Два неизвестных параметра, поэтому нужны два уравнения.

Берём:
- $g_1(x) = x$,
- $g_2(x) = x^2$.

Теоретические соотношения:

$$\mathbb{E}[X] = \mu$$

$$\mathbb{E}[X^2] = \text{Var}(X) + (\mathbb{E}[X])^2 = b + \mu^2$$

Эмпирические аналоги:

$$\overline{X} = \hat{\mu}$$

$$\overline{X^2} = \hat{b} + \hat{\mu}^2$$

Отсюда:

$$\boxed{\hat{\mu} = \overline{X}, \qquad \hat{b} = \overline{X^2} - (\overline{X})^2}$$

А $\overline{X^2} - (\overline{X})^2$ — это **выборочная дисперсия** $S^{*2}$.

**Свойства:**
- $\hat{\mu} = \overline{X}$ — несмещённая оценка.
- $\hat{b} = S^{*2}$ — смещённая оценка (но асимптотически несмещённая).
- Обе оценки состоятельные и асимптотически нормальные.

> Это иллюстрирует, что в общем случае про смещённость метода моментов ничего конкретного сказать нельзя — здесь одна оценка несмещённая, другая смещённая.

### Пример 5 (демонстрационный). Равномерное распределение $U[-\theta, \theta]$

Здесь интересный случай: функция $g(x) = x$ **не подходит**, потому что:

$$\mathbb{E}[X] = 0$$

— математическое ожидание не зависит от $\theta$, поэтому уравнение бессмысленно.

Берём $g(x) = x^2$:

$$\mathbb{E}[X^2] = \frac{\theta^2}{3}$$

Эмпирический аналог даёт явное выражение для оценки $\hat{\theta}$.

> На демонстрации в Google Colab было показано: при объёме выборки 10 разброс оценки большой, а при объёме 10000 разброс существенно меньше, и распределение оценки концентрируется около реального параметра. Это иллюстрирует состоятельность и асимптотическую нормальность.

---

# Лекция 4: Метод максимального правдоподобия и информация Фишера

## 1. Контрпример: асимптотическая нормальность ⇏ асимптотическая несмещённость

### Напоминание из прошлой лекции

В прошлый раз были рассмотрены свойства оценок:
- состоятельность,
- эффективность,
- асимптотическая нормальность,
- несмещённость.

Было показано: **если оценка асимптотически нормальная, то она состоятельна**.

Сегодня покажем (обещанный контрпример), что **из асимптотической нормальности в общем случае НЕ следует асимптотическая несмещённость** (хотя обычно эта импликация имеет место). Пример экзотический, но формально корректный.

### Построение контрпримера

Пусть выборка $X_1, \ldots, X_n$ из нормального распределения $\mathcal{N}(0, \sigma^2)$.

Выборочное среднее $\bar{X}$ — состоятельная, несмещённая, асимптотически нормальная оценка для $0$ (поскольку матожидание здесь равно $0$).

**Модифицируем оценку.** Положим:

$$\hat{\theta} = \begin{cases} \bar{X}, & \text{с вероятностью } 1 - \tfrac{1}{n} \\ n, & \text{с вероятностью } \tfrac{1}{n} \end{cases}$$

### Доказательство асимптотической нормальности $\hat{\theta}$

Рассмотрим функцию распределения $\sqrt{n}\,\hat{\theta}$ в точке $t$:

$$P(\sqrt{n}\,\hat{\theta} \le t) = P\left(\sqrt{n}\,\hat{\theta} \le t \mid \text{случилось событие с вер. } 1-\tfrac{1}{n}\right)\cdot\left(1 - \tfrac{1}{n}\right) + P\left(\sqrt{n}\,\hat{\theta} \le t \mid \text{случилось событие с вер. } \tfrac{1}{n}\right)\cdot \tfrac{1}{n}$$

Это эквивалентно:

$$P(\sqrt{n}\,\bar{X} \le t)\cdot\left(1 - \tfrac{1}{n}\right) + P\left(\sqrt{n}\cdot n \le t\right)\cdot \tfrac{1}{n}$$

При $n \to \infty$:
- $\left(1 - \tfrac{1}{n}\right) \to 1$,
- $\tfrac{1}{n} \to 0$,
- $P(\sqrt{n}\,\bar{X} \le t) \to \Phi_{0,\sigma^2}(t)$ (т.к. выборочное среднее — асимптотически нормальная оценка),
- второе слагаемое (ограниченная вероятность $\times \tfrac{1}{n}$) стремится к $0$.

Итог: $\sqrt{n}\,\hat{\theta} \xrightarrow{d} \mathcal{N}(0, \sigma^2)$.

То есть **$\hat{\theta}$ — асимптотически нормальная оценка**, а значит и **состоятельная**.

### Проверка асимптотической несмещённости

$$\mathbb{E}[\hat{\theta}] = \mathbb{E}[\bar{X}]\cdot\left(1 - \tfrac{1}{n}\right) + n \cdot \tfrac{1}{n} = 0 + 1 = 1$$

Таким образом, $\mathbb{E}[\hat{\theta}] = 1 \ne 0$ для любого $n$, **асимптотической несмещённости нет**.

> NOTE: Вывод
> Контрпример показывает: из асимптотической нормальности **не следует** асимптотическая несмещённость, хотя состоятельность из неё следует. Контринтуитивно, но формально верно.

## 3. Алгоритм поиска оценки максимального правдоподобия

### Пункт 0. Посмотреть и подумать

Возможно, удастся найти ответ, внимательно посмотрев на функцию правдоподобия — без вычислений (см. примеры с равномерным распределением и распределением Лапласа ниже).

### Пункт 1. Логарифмирование

Используется свойство: производная логарифма функции

$$(\ln f(x))' = \frac{f'(x)}{f(x)}$$

Логарифм — строго монотонная функция, поэтому **точка максимума не меняется**. Удобно работать с $\ln L$ потому, что произведение превращается в сумму.

### Пункт 2. Исследование на максимум

1. Рассмотреть $\ln L(X, \theta)$.
2. Вычислить производную $\dfrac{\partial \ln L}{\partial \theta}$.
3. Приравнять к нулю.
4. Проверить достаточные условия максимума.

## 5. Информация Фишера

### Условия регулярности

Информация Фишера определяется в рамках условий регулярности (для одномерного случая, $\theta \in \mathbb{R}$).

> WARNING: Замечание о терминологии
> В разных книжках условия регулярности могут немного отличаться. То, что ниже — один из стандартных вариантов.

**Условие 1.** Если $\theta_1 \ne \theta_2$, то распределение при $\theta_1$ не равно распределению при $\theta_2$ (идентифицируемость).

**Условие 2.** Носитель распределения **не зависит от $\theta$**.
- Множество значений случайной величины не зависит от параметра.
- *Пример: равномерное распределение $U[\theta_1, \theta_2]$ — НЕ регулярно, т.к. носитель зависит от параметров.*

**Условие 3.** Функция $p(x, \theta)$ дифференцируема по $\theta$ столько раз, сколько нужно.

**Условие 4.** Внесение дифференцирования по $\theta$ под знак интеграла — законная операция:

$$\frac{\partial}{\partial \theta}\int \ldots\, dx = \int \frac{\partial}{\partial \theta}\ldots\, dx$$

(не всегда верно в общем случае, но мы работаем там, где верно).

**Условие 5.** $\mathbb{E}[V^2(X, \theta)] < \infty$ (вводится далее).

### Вклад выборки

> DEFINITION: Вклад выборки
> $$V(X, \theta) = \frac{\partial \ln L(X, \theta)}{\partial \theta}$$
> — логарифмическая производная функции правдоподобия.

#### Интуиция термина «вклад выборки»

Аналитически найти точку максимума $L$ удаётся не всегда — иногда задача решается только численно. Один из простейших численных методов — **градиентный спуск**:

$$x_{k+1} = x_k - \alpha \cdot f'(x_k)$$

Здесь:
- если мы правее минимума — $f'(x_k) > 0$ и сдвиг идёт влево (правильно);
- если мы левее минимума — $f'(x_k) < 0$ и сдвиг идёт вправо (правильно);
- чем больше $|f'|$, тем больше шаг — тем быстрее сходимость.

В многомерном случае вместо производной — **градиент** (вектор частных производных).

**Применяя к функции правдоподобия:** чем больше по модулю $V(X, \theta)$, тем быстрее численный метод сойдётся к оценке. Поэтому $V$ называется «вкладом выборки» — чем больше вклад, тем лучше (быстрее находится оценка).

**Проблема:** $V(X, \theta)$ — случайная величина (зависит от $X$). Хотим унифицировать в виде числовой характеристики.

### Матожидание вклада выборки

Рассмотрим тождество:

$$1 = \int L(X, \theta)\, dX$$

(плотность интегрируется в $1$).

Дифференцируем по $\theta$:

$$0 = \frac{\partial}{\partial \theta}\int L(X, \theta)\, dX = \int \frac{\partial L(X, \theta)}{\partial \theta}\, dX$$

Воспользуемся **трюком**: умножим и разделим на $L$:

$$0 = \int \frac{\partial L / \partial \theta}{L}\cdot L\, dX = \int \frac{\partial \ln L}{\partial \theta}\cdot L\, dX = \int V(X, \theta)\cdot L(X, \theta)\, dX$$

Это есть матожидание $V$:

$$\boxed{\mathbb{E}[V(X, \theta)] = 0}$$

В среднем вклад выборки равен нулю. Не очень информативно — рассмотрим другую характеристику.

### Определение информации Фишера

Мера разброса относительно нуля — **дисперсия**.

> DEFINITION: Информация Фишера
> $$I(\theta) = \mathrm{Var}[V(X, \theta)] = \mathrm{Var}\left[\frac{\partial \ln L(X, \theta)}{\partial \theta}\right]$$

### Свойство 1. Аддитивность по выборке

$$V(X, \theta) = \frac{\partial \ln L}{\partial \theta} = \sum_{k=1}^{n}\frac{\partial \ln p(X_k, \theta)}{\partial \theta}$$

(логарифм произведения = сумма логарифмов).

Так как $X_k$ независимы, слагаемые независимы. Дисперсия суммы независимых = сумма дисперсий:

$$I(\theta) = \sum_{k=1}^{n}\mathrm{Var}\left[\frac{\partial \ln p(X_k, \theta)}{\partial \theta}\right]$$

Все слагаемые одинаково распределены, поэтому:

$$\boxed{I(\theta) = n\cdot i(\theta)}$$

где $i(\theta)$ — **информация Фишера для одного наблюдения**:

$$i(\theta) = \mathrm{Var}\left[\frac{\partial \ln p(X, \theta)}{\partial \theta}\right]$$

### Свойство 2. Информация Фишера через матожидание квадрата

Поскольку $\mathbb{E}\left[\dfrac{\partial \ln p(X, \theta)}{\partial \theta}\right] = 0$, а дисперсия при нулевом матожидании совпадает с матожиданием квадрата:

$$i(\theta) = \mathbb{E}\left[\left(\frac{\partial \ln p(X, \theta)}{\partial \theta}\right)^2\right]$$

### Свойство 3. Альтернативная формула через вторую производную

Продифференцируем тождество $\int \dfrac{\partial \ln p}{\partial \theta}\cdot p\, dx = 0$ ещё раз по $\theta$ (для одного наблюдения, индекс $k$ опускаем — все $X_k$ одинаково распределены):

$$0 = \frac{\partial}{\partial \theta}\int \frac{\partial \ln p(X, \theta)}{\partial \theta}\cdot p(X, \theta)\, dX$$

Вносим производную под интеграл и применяем правило произведения:

$$0 = \int \frac{\partial^2 \ln p}{\partial \theta^2}\cdot p\, dX + \int \frac{\partial \ln p}{\partial \theta}\cdot \frac{\partial p}{\partial \theta}\, dX$$

Во втором интеграле умножим и разделим на $p$:

$$\int \frac{\partial \ln p}{\partial \theta}\cdot \frac{\partial p / \partial \theta}{p}\cdot p\, dX = \int \left(\frac{\partial \ln p}{\partial \theta}\right)^2\cdot p\, dX = \mathbb{E}\left[\left(\frac{\partial \ln p}{\partial \theta}\right)^2\right]$$

Получаем:

$$0 = \mathbb{E}\left[\frac{\partial^2 \ln p}{\partial \theta^2}\right] + \mathbb{E}\left[\left(\frac{\partial \ln p}{\partial \theta}\right)^2\right]$$

Второе слагаемое равно $i(\theta)$, откуда:

> IMPORTANT: Альтернативная формула для информации Фишера
> $$\boxed{i(\theta) = -\mathbb{E}\left[\frac{\partial^2 \ln p(X, \theta)}{\partial \theta^2}\right]}$$
>
> Часто удобнее для вычислений, чем определение через дисперсию.

### Замечание о записи

В выкладках для одного наблюдения индекс $k$ можно опустить — поскольку все $X_k$ одинаково распределены, можно считать $k = 1$ или просто писать $X$ без индекса.

---

# Лекция 5: Информация Фишера, неравенство Рао–Крамера и доверительные интервалы

## 1. Информация Фишера: напоминание определений

В прошлый раз была введена **информация Фишера**.

Информация Фишера для всей выборки определяется как дисперсия логарифмической функции правдоподобия:

$$I_n(\theta) = D\left(\frac{\partial \ln L(x, \theta)}{\partial \theta}\right)$$

Для одного наблюдения:

$$i(\theta) = D\left(\frac{\partial \ln p(x, \theta)}{\partial \theta}\right)$$

В силу того, что математическое ожидание этой величины равно нулю, дисперсия совпадает с математическим ожиданием квадрата:

$$i(\theta) = E\left[\left(\frac{\partial \ln p(x, \theta)}{\partial \theta}\right)^2\right]$$

**Альтернативная формула** (через вторую производную):

$$i(\theta) = -E\left[\frac{\partial^2 \ln p(x, \theta)}{\partial \theta^2}\right]$$

## 3. Пример 2. Равномерное распределение

Здесь нужно быть внимательным. **Информация Фишера не определена**, так как **не выполняются условия регулярности**.

> **Необходимое условие регулярности:** множество значений случайной величины не должно зависеть от параметра.

Для равномерного распределения множество значений зависит от параметра — поэтому модель **нерегулярна** и информация Фишера для неё не определяется.

## 5. Пример 3. Нормальное распределение $N(\mu, b)$

Здесь $b = \sigma^2$ — дисперсия. Плотность:

$$p(x, \mu, b) = \frac{1}{\sqrt{2\pi b}} \exp\left(-\frac{(x - \mu)^2}{2b}\right)$$

**Логарифм плотности:**

$$\ln p(x, \mu, b) = -\frac{1}{2} \ln(2\pi) - \frac{1}{2} \ln b - \frac{(x-\mu)^2}{2b}$$

### Первые производные

По $\mu$ (первые два слагаемых обнуляются):

$$\frac{\partial \ln p}{\partial \mu} = \frac{x - \mu}{b}$$

По $b$:

$$\frac{\partial \ln p}{\partial b} = -\frac{1}{2b} + \frac{(x-\mu)^2}{2b^2}$$

### Вторые производные

По $\mu$ дважды:

$$\frac{\partial^2 \ln p}{\partial \mu^2} = -\frac{1}{b}$$

Смешанная (по $\mu$ и $b$):

$$\frac{\partial^2 \ln p}{\partial \mu \, \partial b} = -\frac{x - \mu}{b^2}$$

По $b$ дважды:

$$\frac{\partial^2 \ln p}{\partial b^2} = \frac{1}{2b^2} - \frac{(x-\mu)^2}{b^3}$$

### Информационная матрица

Берём $-E[\cdot]$ от каждой второй производной.

- $-E\left[-\dfrac{1}{b}\right] = \dfrac{1}{b}$
- Смешанная: $-E\left[-\dfrac{x - \mu}{b^2}\right] = \dfrac{1}{b^2} \cdot E[x - \mu] = 0$ (т. к. $E[x] = \mu$)
- По $b$ дважды: $-E\left[\dfrac{1}{2b^2} - \dfrac{(x-\mu)^2}{b^3}\right] = -\dfrac{1}{2b^2} + \dfrac{E[(x-\mu)^2]}{b^3} = -\dfrac{1}{2b^2} + \dfrac{b}{b^3} = \dfrac{1}{2b^2}$

> Здесь использовано, что $E[(x-\mu)^2] = D(x) = b$.

**Итог — информационная матрица для нормального распределения:**

$$\boxed{I(\mu, b) = \begin{pmatrix} \dfrac{1}{b} & 0 \\ 0 & \dfrac{1}{2b^2} \end{pmatrix}}$$

## 7. Замечания к неравенству Рао–Крамера

### Замечание 1. Связь с MSE

Вспомним:

$$\mathrm{MSE} = D(T) + (\text{смещение})^2$$

Если оценка **несмещённая**, то $\mathrm{MSE} = D(T)$. Значит, при выполнении условий регулярности и несмещённости оценки можно дать нижнюю границу не только для дисперсии, но и для MSE.

> **Если в регулярной модели несмещённая оценка достигает нижней границы Рао–Крамера, то она оптимальная.**

То есть в несмещённой ситуации в регулярной модели оценка оптимальна тогда и только тогда, когда её дисперсия достигает нижней границы Рао–Крамера.

### Замечание 2. Многомерная формулировка

Пусть $\tau(\theta)$ — функция из $\mathbb{R}^d \to \mathbb{R}$, и $T(x)$ — несмещённая оценка для $\tau(\theta)$. Тогда:

$$D(T(x)) \geq \frac{1}{n} \cdot \nabla \tau(\theta)^\top \cdot I^{-1}(\theta) \cdot \nabla \tau(\theta)$$

## 9. Асимптотическая нормальность ОМП

### Формулировка теоремы

**Условия:**
- $\left|\dfrac{\partial^3 \ln p(x, \theta)}{\partial \theta^3}\right| \leq M(x)$, причём $E[M(x)] < \infty$;
- модель регулярна.

**Утверждение:**

$$\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} N\left(0, \, i^{-1}(\theta)\right)$$

Здесь $\hat{\theta}$ — **оценка максимального правдоподобия**.

### Интерпретация

Неформально: при больших $n$

$$\hat{\theta} \approx N\left(\theta, \, \frac{1}{n \cdot i(\theta)}\right)$$

То есть **асимптотическая дисперсия ОМП совпадает с нижней границей Рао–Крамера**. Поэтому можно говорить, что оценки максимального правдоподобия **асимптотически эффективны**.

## 11. Общая схема построения доверительного интервала

**Шаг 1.** Найти функцию $g(x, \theta)$ — статистику, аналитически зависящую от выборки и параметра, такую что **распределение $g(x, \theta)$ не зависит от $\theta$**.

**Шаг 2.** Записать вероятность

$$P(L \leq g(x, \theta) \leq R) = 1 - \alpha$$

**Шаг 3.** На графике плотности отсечь:
- слева вероятностную массу $\alpha/2$;
- справа вероятностную массу $\alpha/2$;
- посередине останется $1 - \alpha$.

Тогда:

$$L = q_{\alpha/2}, \quad R = q_{1 - \alpha/2}$$

— квантили распределения статистики $g$.

**Шаг 4.** Разрешить неравенство относительно $\theta$ — получится доверительный интервал.

## 13. Три важных вспомогательных распределения

Перед тем как переходить к следующим задачам, нужно ввести три распределения, играющих ключевую роль в статистике.

### A. Распределение хи-квадрат $\chi^2_n$

Пусть $x_1, x_2, \dots, x_n$ — независимые случайные величины, каждая со стандартным нормальным распределением $N(0, 1)$. Тогда

$$\sum_{k=1}^{n} x_k^2 \sim \chi^2_n$$

Параметр $n$ — **число степеней свободы** (это просто количество независимых слагаемых).

> **Связь с гамма-распределением:** $\chi^2_n$ — это гамма-распределение с параметрами $\left(\dfrac{n}{2}, \dfrac{1}{2}\right)$. То есть класс распределений $\chi^2$ содержится в классе гамма-распределений.

### B. Распределение Стьюдента $t_n$

Пусть $x_0, x_1, \dots, x_n$ — независимые $N(0, 1)$. Рассмотрим:

$$T_n = \frac{x_0}{\sqrt{\dfrac{1}{n} \sum\limits_{k=1}^{n} x_k^2}}$$

Тогда $T_n$ имеет **распределение Стьюдента** ($t$-распределение) с $n$ степенями свободы: $T_n \sim t_n$.

Под корнем стоит **усреднённый $\chi^2$**.

#### Свойства распределения Стьюдента

1. **Симметрично относительно нуля.** Числитель — стандартное гауссовское (симметрично), знаменатель — неотрицательная константа.
2. **При больших $n$ близко к нормальному.** По закону больших чисел знаменатель $\to 1$, и остаётся гауссовская величина. То есть при больших $n$: $t_n \approx N(0, 1)$.

### C. Распределение Фишера $F_{n, m}$

Пусть $\chi^2_n$ имеет распределение хи-квадрат с $n$ степенями свободы, а $\chi^2_m$ — независимая случайная величина с распределением хи-квадрат с $m$ степенями свободы. Тогда

$$F_{n, m} = \frac{\chi^2_n / n}{\chi^2_m / m}$$

имеет **распределение Фишера** с параметрами $n$ и $m$.

### Где используются эти распределения

- **Нормальное** — при построении доверительного интервала для матожидания, если дисперсия известна (или, забегая вперёд, при больших объёмах выборки — по ЦПТ).
- **$\chi^2$** — при построении доверительного интервала для дисперсии.
- **Стьюдент** — при построении доверительного интервала для матожидания, если дисперсия неизвестна.
- **Фишер** — при построении доверительного интервала для отношения дисперсий.

## 15. Теорема Фишера

Перед следующей задачей понадобится ключевая теорема. В разных источниках в неё включают разные пункты, приведём основные.

**Условия:** выборка $x_1, \dots, x_n$ из гауссовского закона $N(\mu, \sigma^2)$.

### Пункт 1

$$\frac{n \cdot S^2}{\sigma^2} = \frac{(n-1) \cdot S^{*2}}{\sigma^2} \sim \chi^2_{n-1}$$

где
- $S^2 = \dfrac{1}{n} \sum\limits_{k=1}^{n}(x_k - \bar{x})^2$ — **смещённая** выборочная дисперсия;
- $S^{*2} = \dfrac{1}{n-1} \sum\limits_{k=1}^{n}(x_k - \bar{x})^2$ — **несмещённая** выборочная дисперсия.

> **Неформально, почему $n - 1$.** В каждом слагаемом $(x_k - \bar{x})^2$ участвует выборочное среднее $\bar{x}$, которое «портит» независимость слагаемых. За счёт этой связи число степеней свободы уменьшается на единицу.

### Пункт 2

$\bar{x}$ и $S^2$ **независимы** (а также $\bar{x}$ и $S^{*2}$ независимы).

> Это не очевидное наблюдение: в обеих статистиках на первый взгляд участвует $\bar{x}$ — казалось бы, они должны быть зависимы. Однако для выборок из нормального закона эти статистики **независимы**. Это нетривиальное свойство именно гауссовского распределения.

Эти два пункта потребуются для решения следующих задач.

## 17. Доверительный интервал для матожидания при неизвестной дисперсии

**Условия:** выборка из $N(\mu, \sigma^2)$, дисперсия **неизвестна**, строим интервал для $\mu$.

Здесь нельзя использовать рецепт со стандартным нормальным, поскольку в нём фигурирует $\sigma$.

### Подбираем статистику

Рассмотрим:

$$T = \sqrt{n - 1} \cdot \frac{\bar{x} - \mu}{S} = \sqrt{n} \cdot \frac{\bar{x} - \mu}{S^*}$$

> **Почему $S$, а не $S^2$?** Физически $\bar{x} - \mu$ — это «метры», а $S^2$ — это «метры в квадрате». Математически: при нормировании мы делим на **стандартное отклонение**, а не на дисперсию.

### Распределение этой статистики

Перепишем:

$$T = \frac{\sqrt{n} \cdot (\bar{x} - \mu) / \sigma}{\sqrt{S^{*2} / \sigma^2}}$$

- В числителе: $\sqrt{n} \cdot \dfrac{\bar{x} - \mu}{\sigma} \sim N(0, 1)$ — стандартная гауссовская величина.
- В знаменателе под корнем: $\dfrac{S^{*2}}{\sigma^2}$ связано с $\chi^2_{n-1}$ по теореме Фишера, причём поделенным на число степеней свободы.
- По теореме Фишера числитель и знаменатель **независимы**.

По определению распределения Стьюдента (отношение нормального к корню из «усреднённого $\chi^2$») получаем:

$$T \sim t_{n-1}$$

### Доверительный интервал

Распределение Стьюдента **симметрично относительно нуля**, поэтому:

$$-q_{1 - \alpha/2} \leq \sqrt{n} \cdot \frac{\bar{x} - \mu}{S^*} \leq q_{1 - \alpha/2}$$

где $q$ — квантили распределения $t_{n-1}$.

Разрешая относительно $\mu$:

$$\boxed{\mu \in \bar{x} \pm \frac{S^* \cdot q_{1 - \alpha/2}}{\sqrt{n}}}$$

где $q_{1 - \alpha/2}$ — квантиль распределения Стьюдента $t_{n-1}$.

> Это **доверительный интервал для матожидания нормального закона при неизвестной дисперсии** — в нём как раз и используется распределение Стьюдента.

---

# Лекция 6: Доверительные интервалы и введение в проверку статистических гипотез

## Повторение: определение доверительного интервала

**Формальное определение.** Доверительный интервал $[L(x), R(x)]$ задаётся условием:

$$P(\theta \in [L(x), R(x)]) \geq 1 - \alpha$$

где $1 - \alpha$ — **уровень доверия**.

**Содержательная интерпретация.** Если уровень доверия 95% и мы рассматриваем 100 выборок, для каждой считаем доверительный интервал, то хотя бы в 95 случаях из 100 реальное значение параметра окажется в построенном доверительном интервале.

**Что было раньше:** на прошлой лекции рассматривались доверительные интервалы для параметров нормального закона:
- для мат. ожидания при известной дисперсии
- для мат. ожидания при неизвестной дисперсии
- для дисперсии при известном мат. ожидании
- для дисперсии при неизвестном мат. ожидании

## Задача 6: Доверительный интервал для разности мат. ожиданий (равные неизвестные дисперсии)

### Постановка

Те же две независимые гауссовские выборки, но теперь:
- дисперсии **неизвестны**
- известно, что $\sigma_x^2 = \sigma_y^2 = \sigma^2$

Цель та же: построить доверительный интервал для $\tau = \mu_y - \mu_x$.

### Идея

В предыдущей задаче мы получили стандартную гауссовскую величину. Сейчас её знаменатель содержит неизвестное $\sigma^2$. Идея — построить статистику с распределением Стьюдента.

**Напоминание определения t-распределения:** в числителе — стандартная гауссовская величина, в знаменателе — корень квадратный из $\chi^2$, делённого на число степеней свободы; числитель и знаменатель независимы.

### Применение теоремы Фишера

По теореме Фишера:

$$\frac{n s_x^{*2}}{\sigma^2} \sim \chi^2_{n-1}, \qquad \frac{m s_y^{*2}}{\sigma^2} \sim \chi^2_{m-1}$$

где $s^{*2}$ — смещённая выборочная дисперсия.

Поскольку $x$ и $y$ независимы, при сложении степени свободы складываются:

$$\frac{n s_x^{*2} + m s_y^{*2}}{\sigma^2} \sim \chi^2_{n + m - 2}$$

При этом числитель (выборочные средние) и знаменатель (выборочные дисперсии) **независимы** — также по теореме Фишера.

### Построение статистики

$$T = \frac{\dfrac{\bar{y} - \bar{x} - \tau}{\sqrt{\sigma^2/m + \sigma^2/n}}}{\sqrt{\dfrac{1}{n+m-2}\!\left(\dfrac{n s_x^{*2}}{\sigma^2} + \dfrac{m s_y^{*2}}{\sigma^2}\right)}} \sim t_{n+m-2}$$

**Ключевой момент:** $\sigma^2$ в числителе и знаменателе **сокращаются**.

После упрощения:

$$T = \frac{(\bar{y} - \bar{x} - \tau)\sqrt{(n+m-2)\, mn}}{\sqrt{(m+n)(n s_x^{*2} + m s_y^{*2})}} \sim t_{n+m-2}$$

### Зажатие между квантилями

$$P\!\left(-t_{1-\alpha/2} \leq T \leq t_{1-\alpha/2}\right) = 1 - \alpha$$

> Это работает потому, что распределение Стьюдента **симметрично** относительно нуля.

### Ответ

$$\boxed{\;\tau \in \bar{y} - \bar{x} \pm t_{1-\alpha/2}\sqrt{\frac{(n s_x^{*2} + m s_y^{*2})(m+n)}{mn(n+m-2)}}\;}$$

> 💡 **Замечание Ивана Александровича.** Это самая громоздкая задача на сегодня — дальше будет проще.

> ⚠️ **Если дисперсии неравны и неизвестны** — задача формально неразрешима в таком виде (в общем случае точного решения нет — это так называемая проблема Беренса–Фишера).

## Задача 8: Доверительный интервал для отношения дисперсий (мат. ожидания известны)

### Постановка

То же, но $\mu_x$ и $\mu_y$ **известны**.

### Идея

Формально можно использовать прежнюю статистику, но при малом объёме выборки лучше иметь больше степеней свободы.

Используем тот факт, что:

$$\sum_{k=1}^{n} \frac{(x_k - \mu_x)^2}{\sigma_x^2} \sim \chi^2_n, \qquad \sum_{k=1}^{m} \frac{(y_k - \mu_y)^2}{\sigma_y^2} \sim \chi^2_m$$

(степеней свободы на одну больше, чем в задаче 7)

### Построение F-статистики

$$F = \frac{\dfrac{1}{n}\sum_{k=1}^{n} \dfrac{(x_k - \mu_x)^2}{\sigma_x^2}}{\dfrac{1}{m}\sum_{k=1}^{m} \dfrac{(y_k - \mu_y)^2}{\sigma_y^2}} \sim F_{n,m}$$

Дальше — стандартная процедура: зажатие между квантилями и разрешение относительно $\sigma_y^2 / \sigma_x^2$.

## Асимптотические доверительные интервалы

### Определение

$[L(x), R(x)]$ — **асимптотический доверительный интервал**, если:

$$\lim_{n \to \infty} P(\theta \in [L(x), R(x)]) \geq 1 - \alpha$$

### Общая схема построения

1. Находим статистику $g(x, \theta)$, у которой существует **предельное распределение**, не зависящее от $\theta$.
2. Зажимаем статистику между квантилями **предельного** распределения:

$$P(q_{\alpha/2} \leq g(x, \theta) \leq q_{1-\alpha/2}) \approx 1 - \alpha$$

3. Разрешаем неравенство относительно $\theta$.

## Частный случай: ДИ для параметра распределения Бернулли

### Постановка

Выборка из распределения Бернулли с параметром $p$. Мат. ожидание = $p$, дисперсия = $p(1-p)$.

### Сходимость

$$\frac{\sqrt{n}(\bar{x} - p)}{\sqrt{p(1-p)}} \xrightarrow{d} N(0, 1)$$

### Проблема

В знаменателе $p$ — неизвестно. Если оставить как есть, при разрешении неравенства $p$ окажется и в числителе, и в знаменателе, да ещё под корнем.

### Решение — подстановка состоятельной оценки

Подставляем выборочную оценку $\hat{p} = \bar{x}$ (она же — оценка методом моментов и оценка максимального правдоподобия). Сходимость к стандартной гауссовской величине сохраняется.

### Ответ

$$\boxed{\;p \in \bar{x} \pm u_{1-\alpha/2}\sqrt{\frac{\bar{x}(1 - \bar{x})}{n}}\;}$$

> ⚠️ **Когда такая подстановка допустима?** Только если оценка **состоятельна**. В асимптотическом ДИ оценки близки к реальному значению, и сходимость сохраняется.

## Применение В: Асимптотический ДИ для дисперсии

### Использование

Выборочная дисперсия — асимптотически нормальная оценка:

$$\frac{\sqrt{n}(s^{*2} - \sigma^2)}{\sqrt{\hat{\beta}_4 - s^{*4}}} \xrightarrow{d} N(0, 1)$$

где $\hat{\beta}_4 = \overline{(x - \bar{x})^4}$ — четвёртый выборочный центральный момент.

### Ответ

$$\boxed{\;\sigma^2 \in s^{*2} \pm \frac{u_{1-\alpha/2}}{\sqrt{n}}\sqrt{\hat{\beta}_4 - s^{*4}}\;}$$

### Тонкость

> ⚠️ **Левая граница может оказаться отрицательной**, что для дисперсии бессмысленно.
>
> Для мат. ожидания это нормально, для дисперсии — нет. Поэтому такой подход работает только при **очень большом объёме выборки**: при $n \to \infty$ дробь $\dfrac{1}{\sqrt{n}} \to 0$, и левая граница перестаёт быть отрицательной.

## Применение Д: ДИ через порядковые статистики (экзотический рецепт)

### Утверждения

Для выборки из непрерывного распределения:

$$n \cdot F(x_{(\ell)}) \xrightarrow{d} \Gamma(\ell, 1)$$

$$n \cdot (1 - F(x_{(n+1-s)})) \xrightarrow{d} \Gamma(s, 1)$$

где $\ell$ и $s$ — фиксированные.

> Эти соотношения встречались при изучении порядковых статистик. Чисто гипотетически из них можно извлекать асимптотические доверительные интервалы.

### Упражнения для самостоятельного решения

- Для равномерного распределения $U[0, \theta]$ построить ДИ для $\theta$ через порядковые статистики (применение Д).
- Для распределения Пуассона $\mathrm{Pois}(\lambda)$ построить асимптотический ДИ для $\lambda$ через ОМП (применение Г).

## Ситуация 1. Уголовный суд

**Контекст:** сферическая страна в вакууме с **континентальной** системой права (суд опирается на законы; в отличие от **прецедентной** системы, как в Великобритании или США, где суд опирается на предыдущие решения по похожим делам).

Происходит уголовное дело, подсудимого обвиняют в убийстве. Вы — судья.

- **$H_0$** (по умолчанию): человек **не виновен**.
- **$H_1$** (альтернатива): человек **виновен в убийстве** (в конкретном преступлении!).

**Тонкий момент.** Альтернатива конкретна. Если по ходу дела выяснится, что подсудимый занимался мошенничеством, но обвинение в убийстве не доказано, — судья скажет «не виновен» **относительно данной альтернативы**. Это другая задача.

## Ситуация 3. Измерение температуры

Хотим понять, здоров человек или болен, измеряя температуру.

- **$H_0$:** человек не болен (средняя температура $= 36{,}6$).
- **$H_1$:** человек болен (средняя температура $\neq 36{,}6$).

### Уточнения альтернативы в зависимости от контекста

| Контекст | Альтернатива |
|---|---|
| Общий случай | средняя $\neq 36{,}6$ |
| Инфекционная больница (для инфекций характерна повышенная температура) | средняя $> 36{,}6$ |
| Заболевания с пониженной температурой | средняя $< 36{,}6$ |

## Общая схема: $H_0$ и $H_1$

### Нулевая гипотеза $H_0$

Это **предположение по умолчанию**. Конкретные проявления:
- Если изучаем связь явлений: $H_0$ = явления **не связаны**.
- Если замеряем показатель: $H_0$ = показатель принимает **типичное** значение.
- Если сравниваем две совокупности: $H_0$ = они **одинаковые**.

### Альтернативная гипотеза $H_1$

Это то, что мы **хотим «доказать»** (в кавычках, потому что стат-тесты — это не строгий метод доказательства, а статистический метод валидации данных).

- Подозреваем некую **аномалию** — отклонение от нормы.
- Подозреваем, что **связь есть**.
- Подозреваем, что показатель принимает **аномальные значения**.

### Важное замечание

> ⚠️ **$H_0$ и $H_1$ не всегда дополняют друг друга** до полного пространства возможностей.
>
> Пример из суда: $H_0$ = «не виновен», $H_1$ = «виновен в убийстве». Но возможны и другие сценарии (например, мошенничество), которые не покрываются ни $H_0$, ни $H_1$.
>
> В курсе будут рассматриваться ситуации, где $H_1$ — это отрицание $H_0$, но это далеко не всегда так.

---
# Лекция 7: Проверка статистических гипотез

## 1. Постановка задачи проверки гипотез

### 1.1. Гипотезы $H_0$ и $H_1$

Для каждой ситуации формулируются два предположения:

- **Нулевая гипотеза ($H_0$)** — предположение «по умолчанию». Если рассматриваются какие-то явления, то по умолчанию они никак не связаны; если рассматривается некоторый показатель — он принимает типичное значение.
- **Альтернативная гипотеза ($H_1$)** — наше «подозрение», то, что мы хотим доказать.

> NOTE: Важно
> Сумма $H_0$ и $H_1$ **не всегда даёт всё пространство возможностей** — то есть не обязательно $H_0 \cup H_1 = \Omega$.

### 1.2. Определение статистического критерия

**Статистический критерий** (statistical test) — это функция, возвращающая одно из двух решений: принять $H_0$ или отвергнуть $H_0$.

Формально объявим декларацию функции:

$$\delta(X, H_0, H_1, \alpha) \to \{\text{accept } H_0,\ \text{reject } H_0\}$$

где:
- $X$ — **выборка в широком смысле**. Это не обязательно простейшая выборка из независимых одинаково распределённых случайных величин; в общем случае это произвольный датафрейм (например, аргументация прокурора и защиты в суде).
- $H_0$ — нулевая гипотеза.
- $H_1$ — альтернативная гипотеза.
- $\alpha$ — **уровень значимости** (significance level). Типичные значения: $0.1,\ 0.05,\ 0.01,\ 0.001$ (хотя можно задавать любые).

> WARNING: Критическая ремарка о смысле решения
> - **«Принять $H_0$»** не означает доказательства истинности $H_0$. Это означает лишь, что **данные не противоречат нулевой гипотезе относительно заданной альтернативы**.
> - **«Отвергнуть $H_0$»** автоматически не доказывает истинности $H_1$. Это лишь говорит, что **данные скорее противоречат нулевой гипотезе и свидетельствуют в пользу альтернативы**.

Стат-тест — не «серебряная пуля», а скорее **средство аргументации**.

#### Пример (аналогия с уголовным судом)

Если подсудимый подозревается в убийстве, и в ходе разбирательства приводятся факты о мошенничестве, судья скажет «невиновен» — потому что рассматривается именно дело об убийстве, а не о мошенничестве. То есть «принять $H_0$» = «$H_0$ не опровергнуто **относительно данной альтернативы**».

## 3. Три типа критических областей

Критические области выбираются не произвольно — почти во всех тестах встречается одна из трёх ситуаций.

### 3.1. Правосторонний тест

- Справа выделяется вероятностная масса $\alpha$.
- Слева выделяется $1 - \alpha$.

$$T_0(\alpha) = (-\infty,\ q_{1-\alpha}]$$

где $q_{1-\alpha}$ — квантиль порядка $1 - \alpha$.

Называется правосторонним, потому что **критическая область находится справа**.

### 3.2. Левосторонний тест

- Слева выделяется вероятностная масса $\alpha$.
- Справа $1 - \alpha$.

$$T_0(\alpha) = [q_{\alpha},\ +\infty)$$

(или до супремума носителя случайной величины — в общем случае). Критическая область слева.

### 3.3. Двусторонний тест

- И слева, и справа выделяется по $\alpha/2$.

$$T_0(\alpha) = [q_{\alpha/2},\ q_{1-\alpha/2}]$$

Критическая область — с обеих сторон.

> INFO: Замечание
> Гипотетически возможны и более экзотические ситуации (например, разбиение на 3 куска), но в практически интересных тестах встречаются только эти три типа.

## 5. Терминология: статистическая значимость

Если мы отвергаем $H_0$, говорят, что **результат является статистически значимым**.

> Например: «доказана нечестность монетки с уровнем значимости $\alpha = 0.05$» = «отвергнута нулевая гипотеза о честности с $\alpha = 0.05$».

Отсюда и название $\alpha$ — **уровень значимости**.

## 7. Связь между $\alpha$ и $\beta$

«Сделаем $\alpha$ маленьким, и будет нам счастье» — **не работает!**

### Пример: спам-классификатор

- $H_0$: письмо не является спамом.
- $H_1$: письмо является спамом.

**Классификатор A** — всё помещает во «Входящие» (всегда выбирает $H_0$):
- $\alpha = 0$ (ошибка I рода исключена).
- Но $\beta$ велико — спам попадает во «Входящие».

**Классификатор B** — всё помещает в «Спам» (всегда выбирает $H_1$):
- $\beta = 0$ (ошибка II рода исключена).
- Но $\alpha$ велико — нормальные письма попадают в спам.

### Мораль

> Как правило, **чем меньше $\alpha$, тем больше $\beta$**. В общем случае аналитическую зависимость $\alpha$ от $\beta$ написать нельзя, но в некоторых хороших ситуациях можно.

### Стандартный подход

На практике:
1. Фиксируется **допустимый порог ошибки I рода** ($\alpha$).
2. Среди тестов с заданным $\alpha$ выбирается тот, у которого **$\beta$ минимален** (то есть мощность максимальна).

## 9. Z-тест для одной выборки (тест о математическом ожидании)

### 9.1. Постановка

Пусть выборка достаточно большая. Хотим проверить:

- $H_0:\ E[X] = \mu_0$

Альтернатива может быть трёх видов (в зависимости от наших подозрений):
- $H_1:\ E[X] > \mu_0$ — правосторонний тест
- $H_1:\ E[X] < \mu_0$ — левосторонний тест
- $H_1:\ E[X] \ne \mu_0$ — двусторонний тест

### 9.2. Статистика критерия

Используется та же статистика, что и для построения асимптотического доверительного интервала для матожидания:

$$T(X) = \frac{\sqrt{n}\,(\bar{X} - \mu_0)}{S} \xrightarrow{d} \mathcal{N}(0, 1)$$

где $S$ — выборочное стандартное отклонение.

### 9.3. Выбор типа критической области

При $H_0$ ($E[X] = \mu_0$) статистика принимает значения **около нуля** (правило 3-х сигм для $\mathcal{N}(0, 1)$: на диапазон $[-3, 3]$ приходится ≈ 99.73% массы).

Куда попадает статистика при истинной альтернативе?

- **$H_1:\ E[X] > \mu_0$** → $\bar{X} \to E[X] > \mu_0$ → числитель $> 0$ → статистика смещена **вправо** → **критическая область справа** (правосторонний тест).
- **$H_1:\ E[X] < \mu_0$** → статистика смещена влево → **левосторонний тест**.
- **$H_1:\ E[X] \ne \mu_0$** → статистика может быть как слева, так и справа → **двусторонний тест**.

### 9.4. Доказательство состоятельности (правосторонний случай)

Покажем, что $\beta \to 0$ при $n \to \infty$.

Вероятность ошибки II рода:

$$\beta = P\!\left(\frac{\sqrt{n}\,(\bar{X} - \mu_0)}{S} \le q_{1-\alpha} \,\Big|\, E[X] > \mu_0\right)$$

Прибавим и вычтем истинное мат. ожидание $E[X]$ в числителе:

$$\beta = P\!\left(\frac{\sqrt{n}\,(\bar{X} - E[X])}{S} + \frac{\sqrt{n}\,(E[X] - \mu_0)}{S} \le q_{1-\alpha} \,\Big|\, E[X] > \mu_0\right)$$

Перенесём:

$$\beta = P\!\left(\frac{\sqrt{n}\,(\bar{X} - E[X])}{S} \le q_{1-\alpha} - \frac{\sqrt{n}\,(E[X] - \mu_0)}{S} \,\Big|\, E[X] > \mu_0\right)$$

По ЦПТ (и её следствиям) первая дробь сходится к $\mathcal{N}(0, 1)$, поэтому при больших $n$:

$$\beta \approx \Phi\!\left(q_{1-\alpha} - \frac{\sqrt{n}\,(E[X] - \mu_0)}{S}\right)$$

Анализ аргумента:
- $q_{1-\alpha}$ — константа.
- $E[X] - \mu_0 > 0$ (по альтернативе).
- $S \to \sigma$ (выборочное стандартное отклонение сходится к теоретическому).
- $\sqrt{n} \to \infty$.

Значит, $\frac{\sqrt{n}(E[X] - \mu_0)}{S} \to +\infty$, и аргумент функции $\Phi$ уходит на $-\infty$.

$$\Phi(-\infty) = 0 \Rightarrow \beta \to 0$$

Критерий **состоятелен**. ✅

### 9.5. Терминология: Z-тест

**Z-тест** — это критерий, у которого статистика критерия **точно имеет** или **сходится к** нормальному распределению. Жаргон сложился исторически (от обозначения нормальной величины через $Z$).

Вышеописанный тест — **Z-тест для одной выборки**, проверяющий гипотезу о математическом ожидании.

## 11. Как выбирать тип альтернативы — пример с врачами

Тип теста (одно- или двусторонний) зависит от того, **что мы хотим доказать**.

Пример: измерения температуры пациента.

- **Участковый врач-терапевт**: пришёл пациент с жалобой «мне плохо». Терапевт хочет понять — **есть ли вообще отклонение** от нормы (36.6°C). Альтернатива: $E[T] \ne 36.6$ → **двусторонний тест**.

- **Врач-инфекционист**: ищет инфекцию, для которой характерна **повышенная** температура. Альтернатива: $E[T] > 36.6$ → **правосторонний тест**.

- **Врач, ищущий болезнь с пониженной температурой**: альтернатива $E[T] < 36.6$ → **левосторонний тест**.

---

# Лекция 8: Статистические критерии (продолжение)

## 1. Критерий о медиане (одна выборка)

### Постановка
Пусть $x_1, x_2, \ldots, x_n$ — выборка из некоторого **непрерывного** распределения. Проверяем гипотезу о теоретической медиане:

$$H_0: \text{med} = c$$

Альтернатива $H_1$ настраивается: $\text{med} \neq c$, $\text{med} > c$, либо $\text{med} < c$.

### Идея построения статистики
Что может оценивать теоретическую медиану? **Элемент вариационного ряда, стоящий в центре.**

Напоминание: вариационный ряд — это упорядоченная (отсортированная) выборка.

Средний член вариационного ряда $x_{(n/2)}$, если выборка из непрерывного закона, **асимптотически нормален**:

$$\sqrt{n} \cdot p(c) \cdot \frac{x_{(n/2)} - c}{\sqrt{\frac{1}{2} \cdot \frac{1}{2}}} \xrightarrow{d} \mathcal{N}(0, 1)$$

где $p(c)$ — плотность распределения в точке $c$. В знаменателе стоит $\sqrt{p(1-p)}$, и поскольку для медианы $p = 1/2$, получаем $\sqrt{1/2 \cdot 1/2} = 1/2$.

### Тип критической области
Логика та же, что и для гипотез о мат. ожидании:
- $H_1: \text{med} > c$ — **правосторонняя**
- $H_1: \text{med} < c$ — **левосторонняя**
- $H_1: \text{med} \neq c$ — **двусторонняя**

## 3. T-тест для одной выборки (дисперсия неизвестна)

### Постановка
Та же гипотеза $H_0: \mu_x = \mu_0$, но теперь $\sigma^2_x$ **неизвестна**.

### Статистика критерия
Заменяем $\sigma$ на её оценку $S$ (выборочное стандартное отклонение):

$$T = \frac{\bar{x} - \mu_0}{S / \sqrt{n}} \sim t(n-1) \quad \text{при } H_0$$

Распределение **Стьюдента** с $n-1$ степенями свободы — следствие **теоремы Фишера**. Этот же факт всплывал при построении доверительного интервала для мат. ожидания нормального закона при неизвестной дисперсии.

### Терминология
> **T-тест** — стат. критерий, у которого статистика имеет распределение Стьюдента.

Здесь рассмотрен T-тест для одной выборки на мат. ожидание.

### ⚠️ Важная ремарка о применимости
Существует рекомендация: если объём выборки маленький (порядка $n \in [10, 20]$), то для проверки гипотезы о мат. ожидании нужно использовать T-тест.

**НО:** есть важная посылка, о которой часто забывают:
- В крайнем случае T-тест более-менее адекватно работает, **если исходное распределение более-менее симметрично**.
- Если от нормальности совсем отказываемся — к результатам теста нужно относиться **очень аккуратно**.

## 5. Парная выборка — сведение к одной выборке

### Что такое парная выборка
Есть $n$ наблюдений, для каждого замерены **два показателя**:

$$(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$$

При этом априори считаем, что эти два фактора **зависимы** (то есть мы НЕ можем считать их независимыми выборками).

### Гипотеза
$$H_0: \mu_x = \mu_y$$

объём выборки достаточно большой.

### Классический приём
Рассматриваем новую выборку:

$$u_i = x_i - y_i, \quad i = 1, \ldots, n$$

Тогда исходная гипотеза эквивалентна:

$$H_0: E[U] = 0$$

Это уже задача о мат. ожидании для **одной выборки** — её и решаем разобранными ранее методами.

> **Замечание Ивана Александровича:** «Это классический рецепт».

## 7. Z-тест для двух выборок (мат. ожидания, дисперсии известны)

### Постановка
$x_1, \ldots, x_n \sim \mathcal{N}(\mu_x, \sigma^2_x)$, $y_1, \ldots, y_m \sim \mathcal{N}(\mu_y, \sigma^2_y)$, выборки **независимы**, дисперсии **известны**.

$$H_0: \mu_x = \mu_y$$

### Построение статистики
- $\bar{x} \sim \mathcal{N}(\mu_x, \sigma^2_x / n)$
- $\bar{y} \sim \mathcal{N}(\mu_y, \sigma^2_y / m)$
- В силу независимости: $\bar{x} - \bar{y} \sim \mathcal{N}\!\left(\mu_x - \mu_y,\; \dfrac{\sigma^2_x}{n} + \dfrac{\sigma^2_y}{m}\right)$ (дисперсии **складываются**)

Стандартизуем:

$$Z = \frac{\bar{x} - \bar{y}}{\sqrt{\dfrac{\sigma^2_x}{n} + \dfrac{\sigma^2_y}{m}}} \sim \mathcal{N}(0,1) \quad \text{при } H_0$$

(При $H_0$ числитель в среднем ноль.)

> Почему нормальное распределение → **Z-тест**? Исторически так сложилось. F-тест — от фамилии Fisher; «Z» же — историческая конвенция.

### Модификация: ЦПТ-вариант (без нормальности)
Пусть теперь выборки $x$ и $y$ **независимы и достаточно большого объёма** (без предположения о нормальности). По ЦПТ:

$$\frac{\bar{x} - \bar{y}}{\sqrt{\dfrac{\sigma^2_x}{n} + \dfrac{\sigma^2_y}{m}}} \xrightarrow{d} \mathcal{N}(0, 1)$$

Если дисперсии **неизвестны** — подставляем их состоятельные оценки. В пределе по-прежнему получаем $\mathcal{N}(0,1)$.

### Тип критической области
- $H_1: \mu_x > \mu_y$: разность $\mu_x - \mu_y > 0$, статистика в среднем положительна → **правосторонняя**
- $H_1: \mu_x < \mu_y$: → **левосторонняя**
- $H_1: \mu_x \neq \mu_y$: → **двусторонняя**

## 9. Простой рецепт проверки однородности

### Что такое однородность
**Однородность** двух выборок означает, что **распределения двух выборок одинаковы**.

### Рецепт (для нормально распределённых выборок)
1. **F-тест** на равенство дисперсий ($H_0: \sigma^2_x = \sigma^2_y$).
2. **Если** $H_0$ принята → **T-тест** на равенство мат. ожиданий.

### Почему «простой» в кавычках
- Простой только на бумаге — на практике вычислений много.
- **Важная посылка:** рецепт реально проверяет однородность, **только если выборки из нормального закона** (нормальный закон полностью задаётся $\mu$ и $\sigma^2$).

### Устойчивость к нарушению посылок
- **F-тест** более-менее устойчив к нарушению предположения о нормальности.
- **T-тест** — менее устойчив.

### Применение T-теста: A/B-тестирование
Пример приложения T-теста для двух выборок — **A/B-тестирование**:
- Часть пользователей видит старую версию сайта (группа A).
- Часть пользователей — новую версию (группа B).
- Анализируем, как ведут себя пользователи (достигают ли целевого показателя).
- T-тест помогает сравнить мат. ожидания целевой метрики между группами.

## 11. Критерий согласия Колмогорова

### Постановка
Простая выборка $x_1, \ldots, x_n$. Проверяем гипотезу:

$$H_0: F = F_0$$

где $F_0$ — **обязательно непрерывная** функция распределения.

Альтернатива (классическая): $H_1: F \neq F_0$.

### Статистика критерия

$$D_n = \sqrt{n} \cdot \sup_{x} \left| F_n(x) - F_0(x) \right|$$

где $F_n$ — **эмпирическая функция распределения**.

### Теорема Колмогорова
При условии истинности $H_0$:

$$P(D_n \le t) \xrightarrow{n \to \infty} K(t)$$

где $K(t)$ — **функция распределения Колмогорова**:

$$K(t) = \sum_{j = -\infty}^{+\infty} (-1)^j e^{-2 j^2 t^2}$$

> «Тут меня лучше проверить — мог немного набрать.»

В стат-библиотеках есть численная реализация $K(t)$.

### Тип критической области
- При $H_0$: $F_n \approx F_0$, супремум близок к 0 → статистика близка к 0.
- При нарушении $H_0$: статистика существенно больше 0 (модуль).
- → Критическая область **правосторонняя**.

### Замечания и нюансы

**1. Размер выборки.** Если выборка объёма уже несколько десятков, асимптотика более-менее адекватная. В качестве критического значения берут квантиль порядка $1 - \alpha$ распределения Колмогорова.

**2. Сложные гипотезы.** Можно проверять не равенство конкретной $F_0$, а гипотезу о принадлежности параметрическому семейству $F_\theta$. Но распределение статистики тогда будет более нетривиальным.

**3. Проверка нормальности.** Чисто гипотетически критерий Колмогорова можно использовать для проверки согласованности с нормальным законом. **НО лучше использовать специализированные критерии:**
- **Тест Шапиро-Уилка**.
- **Тест Жака-Бера** (Jarque-Bera): статистика играется с **асимметрией** и **эксцессом** ($A + E$). У стандартного нормального распределения $A = 0$, $E = 0$.

### Терминология: критерий согласия
> **Критерий согласия** — тест, проверяющий **согласованность данных с заданным вероятностным распределением**.

Критерий Колмогорова — пример критерия согласия.

## 13. Дискретизация распределений

### Зачем
Критерии типа $\chi^2$ работают с **дискретными распределениями с конечным множеством значений**. Иногда нужно применить их в других ситуациях.

### Случай 1: Дискретное распределение с бесконечным (счётным) множеством значений

Например, пуассоновская случайная величина (значения $0, 1, 2, \ldots$).

**Идея:** оставить первые $n$ значений, а **«хвост» объединить в одно значение**.

| Было | Стало |
|---|---|
| $1, 2, 3, \ldots, n, n+1, \ldots$ | $1, 2, 3, \ldots, n, \{> n\}$ |
| $p_1, p_2, p_3, \ldots, p_n, p_{n+1}, \ldots$ | $p_1, p_2, p_3, \ldots, p_n, \sum_{k > n} p_k$ |

> **Замечание из аудитории:** «А можно ли это делать оптимальным образом? Например, в хвост брать самые невероятные.»
>
> **Ответ:** Да, идея совершенно верная и разумная.

### Случай 2: Абсолютно непрерывное распределение

**Идея:** разбить вещественную ось на **конечное число интервалов** $\Delta_1, \ldots, \Delta_k$.

Вероятность попадания в интервал:
$$p(\Delta_i) = \int_{\Delta_i} p(x) \, dx$$

Случайная величина теперь принимает $k$ значений (номер интервала). Крайние интервалы могут быть бесконечными (от $-\infty$ или до $+\infty$).

### Итог
> Если у нас дискретное распределение со счётным множеством значений или **любое** непрерывное распределение — можем свести задачу к ситуации с дискретным распределением с конечным множеством значений.

## 15. Сводная таблица всех критериев лекции

| Критерий | Что проверяет | Распределение статистики | Крит. область |
|---|---|---|---|
| Критерий о медиане | $\text{med} = c$ (1 выборка) | $\mathcal{N}(0,1)$ асимпт. | по альтернативе |
| Z-тест (1 выборка) | $\mu = \mu_0$, $\sigma^2$ известна | $\mathcal{N}(0,1)$ | по альтернативе |
| T-тест (1 выборка) | $\mu = \mu_0$, $\sigma^2$ неизвестна | $t(n-1)$ | по альтернативе |
| $\chi^2$-тест на дисперсию | $\sigma^2 = \sigma^2_0$ | $\chi^2(n-1)$ | по альтернативе |
| Парная выборка | $\mu_x = \mu_y$ (зависимые) | через разность $u_i$ | по альтернативе |
| F-тест | $\sigma^2_x = \sigma^2_y$ | $F(n-1, m-1)$ | по альтернативе |
| Z-тест (2 выборки) | $\mu_x = \mu_y$, $\sigma^2$ известны | $\mathcal{N}(0,1)$ | по альтернативе |
| T-тест (2 выборки) | $\mu_x = \mu_y$, $\sigma^2_x = \sigma^2_y$ неизв. | $t(n+m-2)$ | по альтернативе |
| Уэлч | $\mu_x = \mu_y$, дисперсии не равны | (упоминание) | — |
| Колмогоров | $F = F_0$ (1 выборка) | Колмогорова $K(t)$ | правосторонняя |
| Смирнов | $F_X = F_Y$ (2 выборки) | Колмогорова $K(t)$ | правосторонняя |
| Пирсон $\chi^2$ | $P = P_0$ (дискретное) | $\chi^2(n-1)$ | правосторонняя |

---

# Лекция 9: Статистические критерии (продолжение)

## 1. Примеры применения базовых критериев

### 1.1. Проверка гипотезы о математическом ожидании (честная монета)

**Постановка задачи:** Монету подбросили $4096$ раз, орёл выпал $2000$ раз. Является ли монета честной?

**Гипотезы:**
- $H_0$: $p = 0{,}5$ (монета честная, $p$ — реальная вероятность успеха)
- $H_1$: альтернатива может быть специфицирована тремя способами:
  - правосторонняя: $p > 0{,}5$
  - левосторонняя: $p < 0{,}5$
  - двусторонняя: $p \neq 0{,}5$

По сути проверяется, верно ли, что математическое ожидание равняется конкретному значению.

**Статистика критерия:**

$$Z = \frac{\bar{X} - \mu}{\sqrt{D}} \cdot \sqrt{n}$$

то есть (выборочное среднее минус мат. ожидание), делённое на корень квадратный из дисперсии, умноженное на корень из объёма выборки $n$.

**Распределение статистики:** при условии истинности $H_0$ статистика имеет **стандартное нормальное распределение**.

**p-value:** напоминание — это вероятность того, что мы получим более экстремальные значения относительно наблюдаемого.
- Для правосторонней альтернативы — правосторонний p-value
- Для левосторонней альтернативы — левосторонний p-value
- Для двусторонней альтернативы — двусторонний p-value

**Пример вывода:** при каком уровне значимости мы опровергнем нулевую гипотезу? Иными словами, p-value должен быть меньше уровня значимости. Если уровень значимости больше чем $0{,}067$ — гипотеза будет отвергнута.

> **Технический момент:** в коде используется модуль `scipy.stats` (импортируется как подмодуль `stats` из `scipy`).

### 1.2. Проверка гипотезы о дисперсии (сеть магазинов)

**Постановка задачи:** Есть сеть магазинов, известно среднее время и стандартное отклонение. Открыли новый магазин, посмотрели на $25$ случайных покупателей. На уровне значимости $1\%$ проверить гипотезу о том, что стандартное отклонение времени в новом магазине **больше**, чем во всей сети.

**Гипотезы:**
- $H_0$: $\sigma = 5{,}5$
- $H_1$: $\sigma > 5{,}5$ (подозреваем большее отклонение — это идёт в альтернативу)

**Статистика:** распределена по $\chi^2$ с $n-1$ степенями свободы (по теореме Фишера).

**Тип критерия:** правосторонний (это было показано на теории).

**Расчёт p-value:**

$$\text{p-value} = 1 - \text{CDF}(\text{stat})$$

**Результат:** получили p-value $\approx 0{,}67$ — гипотеза $H_0$ **принимается**.

### 1.3. F-тест на равенство дисперсий двух выборок

**Постановка задачи:** Есть две выборки. Для каждой даны среднее и стандартное отклонение. Проверить равенство дисперсий.

**Метод:** F-тест.

**Критическая область:** двусторонняя.

**Результат:** p-value большой — нулевая гипотеза **принимается**.

### 1.4. T-тест для сравнения математических ожиданий двух выборок

Использовали T-тест для двух выборок (рассматривали в одной из прошлых лекций).

**Результат:** p-value $\approx 0{,}0004$, при уровне значимости $0{,}05$ — нулевая гипотеза **отвергается**. Тест показал статистически значимый результат: средние не равны.

### 1.5. T-тест для парных выборок

**Постановка:** есть парная выборка (условно «до» и «после»). Хотим проверить, верно ли, что математическое ожидание «после» больше, чем «до».

**Метод:** альтернативная гипотеза формулируется в терминах разности — фактически в терминах третьей, новой выборки. Используется t-test для парных выборок.

**Результат:** нулевая гипотеза **принимается**.

### 1.6. Простой критерий согласия Пирсона (число $\pi$)

Рассмотрен пример про распределение цифр в десятичной записи числа $\pi$.

**Результат:** статистика $\chi^2$ дала p-value $\approx 0{,}4$ — это больше типичного уровня значимости, гипотеза принимается.

## 3. Критерий однородности $\chi^2$

### 3.1. Постановка задачи

Имеется $K$ **независимых выборок**. Чтобы задача об однородности была содержательной, предполагаем, что величины в каждой из выборок принимают **одинаковые значения**.

> **Пример некорректной постановки:** если выборка 1 — это «мальчик/девочка», а выборка 2 — это «средний балл», то задача о проверке однородности вряд ли будет содержательной.

Обозначения:
- Значения, которые могут принимать величины: от $1$ до $N$
- $p_i$ — вектор вероятностей для $i$-й выборки
- $n_i$ — объём $i$-й выборки
- $\nu_{ig}$ — количество значений типа $g$ в $i$-й выборке

### 3.2. Гипотезы

$$H_0: p_1 = p_2 = \ldots = p_K$$

(назовём это общее значение $p_0$ — это просто обозначение, удобное для формулы)

$$H_1: \neg H_0$$

### 3.3. Статистика критерия

Критерий однородности $\chi^2$ — это **модификация** критерия согласия Пирсона.

$$\chi^2_{n_1, \ldots, n_K} = \sum_{i=1}^{K} \chi^2_{n_i}$$

где локальный $\chi^2$:

$$\chi^2_{n_i} = \sum_{g=1}^{N} \frac{(\nu_{ig} - n_i \cdot p_{0g})^2}{n_i \cdot p_{0g}}$$

> Поскольку в нулевой гипотезе все вероятности равны, в формуле стоит общее $p_0$.

### 3.4. Оценка $p_0$

**Проблема:** конкретное значение $p_0$ нам неизвестно.

**Решение:** оцениваем методом максимального правдоподобия:

$$\hat{p}_{0g} = \frac{\nu_{1g} + \nu_{2g} + \ldots + \nu_{Kg}}{n}$$

То есть берём суммарное количество элементов типа $g$ по всем выборкам и делим на общий объём $n = n_1 + n_2 + \ldots + n_K$.

### 3.5. Распределение статистики и степени свободы

**Шаг 1.** Предположим на секунду, что $p_0$ известно и фиксировано. Тогда:
- Локальный $\chi^2_{n_i}$ имеет $N - 1$ степень свободы
- Поскольку выборки независимы, степени свободы складываются (по формальному определению $\chi^2$ как суммы квадратов гауссовских случайных величин)
- Получаем: $K(N-1)$ степеней свободы

**Шаг 2.** Вспоминаем, что $p_0$ на самом деле неизвестно, и мы его оценили. От количества степеней свободы нужно отнять размерность вектора неизвестных параметров.

**Сколько неизвестных в векторе $p$?** Не $N$, а $N - 1$ (есть уравнение связи: сумма вероятностей равна $1$).

**Итоговое количество степеней свободы:**

$$\text{df} = K(N-1) - (N-1) = (K-1)(N-1)$$

Формула, которую несложно запомнить:

$$\boxed{\text{df} = (N-1)(K-1)}$$

В пределе:

$$\chi^2_{n_1, \ldots, n_K} \xrightarrow{d} \chi^2_{(N-1)(K-1)}$$

**Критическая область:** правосторонняя.

### 3.6. Пример: два потока абитуриентов

**Постановка:** два потока абитуриентов получили какие-то результаты вступительных экзаменов. Можно ли считать эти потоки одинаковыми?

**Метод:** критерий однородности $\chi^2$.

**Степени свободы:** $4$ значения, $2$ выборки $\Rightarrow$ $\text{df} = (4-1)(2-1) = 3$.

**Результат:** p-value $\approx 0{,}5$ — нулевая гипотеза **принимается** (потоки можно считать однородными).

---

## 4. Критерий независимости $\chi^2$

### 4.1. Постановка задачи

Хотим проверить, что две случайные величины **независимы**.

**Имеется парная выборка:** $(X_1, Y_1), (X_2, Y_2), \ldots, (X_n, Y_n)$.

Предположения:
- $X$ принимает значения от $1$ до $N$
- $Y$ принимает значения от $1$ до $M$

**Обозначения:**
- $\nu_{ig}$ — количество пар, где $X = i$, $Y = g$
- $p_{Xi}$ — вероятность того, что $X = i$
- $p_{Yg}$ — вероятность того, что $Y = g$
- $p_{ig}$ — вероятность того, что $X = i$ и $Y = g$

### 4.2. Гипотезы

В терминах вероятностей условие независимости:

$$p_{ig} = p_{Xi} \cdot p_{Yg}$$

**Нулевая гипотеза:**

$$H_0: \forall i, g \quad p_{ig} = p_{Xi} \cdot p_{Yg}$$

**Альтернатива:**

$$H_1: \neg H_0$$

### 4.3. Таблица сопряжённости (Contingency Table)

Для визуализации критерия строим таблицу:

|  | $Y=1$ | $Y=2$ | $\ldots$ | $Y=M$ | $\Sigma$ |
|---|---|---|---|---|---|
| $X=1$ | $\nu_{11}$ | $\nu_{12}$ | $\ldots$ | $\nu_{1M}$ | $\nu_{1*}$ |
| $X=2$ | $\nu_{21}$ | $\nu_{22}$ | $\ldots$ | $\nu_{2M}$ | $\nu_{2*}$ |
| $\vdots$ | $\vdots$ | $\vdots$ | $\ddots$ | $\vdots$ | $\vdots$ |
| $X=N$ | $\nu_{N1}$ | $\nu_{N2}$ | $\ldots$ | $\nu_{NM}$ | $\nu_{N*}$ |
| $\Sigma$ | $\nu_{*1}$ | $\nu_{*2}$ | $\ldots$ | $\nu_{*M}$ | $n$ |

В ячейках — количество пар с соответствующими значениями. В дополнительном столбце — суммы по строкам ($\nu_{i*}$), в дополнительной строке — суммы по столбцам ($\nu_{*g}$).

**Контроль:** сумма по последнему столбцу = сумма по последней строке = объём выборки $n$.

### 4.4. Статистика критерия

Записываем $\chi^2$ в общем виде:

$$\chi^2 = \sum_{i,g} \frac{(\nu_{ig} - n \cdot p_{ig})^2}{n \cdot p_{ig}}$$

Подставляем $H_0$ ($p_{ig} = p_{Xi} \cdot p_{Yg}$):

$$\chi^2 = \sum_{i,g} \frac{(\nu_{ig} - n \cdot p_{Xi} \cdot p_{Yg})^2}{n \cdot p_{Xi} \cdot p_{Yg}}$$

### 4.5. Оценки вероятностей

**Проблема:** $p_{Xi}$ и $p_{Yg}$ нам не даны.

**Оценки (по аналогии с предыдущим критерием):**

$$\hat{p}_{Xi} = \frac{\nu_{i*}}{n}$$

$$\hat{p}_{Yg} = \frac{\nu_{*g}}{n}$$

То есть берём соответствующие маргинальные суммы из таблицы сопряжённости и делим на $n$.

### 4.6. Степени свободы

**Шаг 1.** Если $p_{Xi}$ и $p_{Yg}$ известны:
- Количество значений: $M \cdot N$
- Степеней свободы: $MN - 1$

**Шаг 2.** На самом деле $p_{Xi}$ и $p_{Yg}$ неизвестны:
- Количество неизвестных в $p_X$: $N - 1$ (с учётом уравнения связи)
- Количество неизвестных в $p_Y$: $M - 1$

**Итог:**

$$\text{df} = MN - 1 - (N-1) - (M-1) = MN - N - M + 1$$

Раскладываем (выносим $N$ за скобку):

$$\text{df} = N(M-1) - (M-1) = (N-1)(M-1)$$

$$\boxed{\text{df} = (N-1)(M-1)}$$

**Критическая область:** правосторонняя (как и во всех модификациях критерия согласия Пирсона).

### 4.7. Зачем нам нужны степени свободы?

Степени свободы нужны для того, чтобы:
1. **Посчитать критическую область:** для правосторонней области рассматриваем квантиль уровня $1 - \alpha$ распределения $\chi^2$, а это распределение задаётся именно числом степеней свободы.
2. **Посчитать p-value:** $\text{p-value} = 1 - \text{CDF}(\text{stat})$ — функция распределения тоже зависит от количества степеней свободы.

### 4.8. Пример: вакцина и здоровье (данные о болезни)

В коде использована готовая реализация, которая считает таблицу сопряжённости автоматически.

**Результат:**
- Статистика $\chi^2 \approx 26{,}01$
- p-value очень маленький

---

# Лекция 10: Статистические тесты

## 1. Критерий на коэффициент корреляции Пирсона

### Постановка задачи

Пусть имеется парная выборка:
$$(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$$

При условии: выборка пришла из **двумерного нормального (гауссовского) распределения**.

### Гипотезы

- **Нулевая гипотеза $H_0$:** $\mathrm{cov}(X, Y) = 0$, что эквивалентно $\rho_{X,Y} = 0$ (теоретический коэффициент корреляции равен нулю).
- **Альтернативная гипотеза $H_1$:** $\rho \neq 0$, $\rho > 0$ или $\rho < 0$ (альтернативу можно специфицировать).

### Статистика критерия

$$t = \frac{\sqrt{n - 2} \cdot \hat{\rho}_{\text{Pearson}}}{\sqrt{1 - \hat{\rho}^2_{\text{Pearson}}}}$$

где $\hat{\rho}_{\text{Pearson}}$ — выборочный коэффициент корреляции Пирсона:

$$\hat{\rho}_{\text{Pearson}} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}}$$

### Распределение статистики

При условии истинности $H_0$ статистика $t$ имеет **распределение Стьюдента с $n - 2$ степенями свободы**.

> **Замечание Ивана Александровича:** формальный вывод этого факта довольно громоздкий, поэтому на лекции даётся только формулировка.

### Важное замечание о связи с независимостью

Вспомним общее соотношение:
- Из **независимости** $\Rightarrow$ **некоррелированность** (всегда верно).
- Обратная импликация в общем случае **неверна**.

Однако для **компонент гауссовского вектора** обратная стрелочка работает: некоррелированность $\Leftrightarrow$ независимость. Это один из специальных случаев.

**Следствия:**
- Если $(X, Y)$ — гауссовский вектор, то критерий проверяет **независимость** (по-честному).
- Гипотетически тест Стьюдента можно использовать и для негауссовской выборки, но тогда проверяется только **некоррелированность** (более слабое условие).
- Для негауссовских выборок критерий лучше использовать при **достаточно больших $n$**, поскольку при больших $n$ распределение Стьюдента становится близким к стандартному нормальному (вспомните формальное определение распределения Стьюдента).

> **Уточнение:** «достаточно большое $n$» относится именно ко второму случаю (негауссовская выборка). Если выборка гауссовская — критерий работает при любом $n \geq 3$.

## 3. Критерий знаков (как частный случай критерия квантилей)

### Постановка

Возьмём $N = 1$, $p_1 = \frac{1}{2}$. Тогда получаем критерий знаков.

### Гипотеза

Проверяется:
$$F(c_0) = \frac{1}{2}$$

То есть верно ли, что **медиана** равна заданной константе $c_0$.

### Статистика критерия

Поскольку у $\chi^2$ только одна степень свободы, можно думать о статистике как о квадрате стандартной гауссовской величины. Поэтому используем без квадрата:

$$Z = \frac{\nu_1 - \frac{n}{2}}{\sqrt{n \cdot \frac{1}{2} \cdot \frac{1}{2}}} = \frac{\nu_1 - \frac{n}{2}}{\frac{\sqrt{n}}{2}}$$

где $\nu_1$ — количество чисел в выборке, **меньших** потенциальной медианы $c_0$ (то есть попавших в $\Delta_1$).

> Не возводим в квадрат, потому что хотим извлечь корень — рассматриваем сразу величину, сходящуюся к стандартному нормальному распределению по ЦПТ.

### Распределение

При $H_0$ (по ЦПТ):
$$Z \xrightarrow{d} \mathcal{N}(0, 1)$$

### Альтернативы

Поскольку в пределе стандартное гауссовское распределение, альтернативы можно специфицировать:
- $c \neq c_0$ (двусторонняя)
- $c > c_0$ (правосторонняя)
- $c < c_0$ (левосторонняя)

> **Историческое замечание:** ранее (в курсе) уже доказывался критерий согласия Пирсона для случая двух значений — и там получалось $p$ и $1 - p$, что как раз согласуется с настоящей формулировкой.

## 5. Ранговые критерии

### Понятие ранга

**Ранг элемента выборки** — это его индекс в **вариационном ряде** (отсортированная по возрастанию выборка).

### Проблема повторов

Если в выборке есть повторяющиеся значения, ранг можно определить разными способами:

**Пример:** выборка $(3, 1, 3, 1, 1, 2)$.

Вариационный ряд: $1, 1, 1, 2, 3, 3$.

Возможные подходы определения ранга:
1. **Минимальный ранг** — берётся минимальный из возможных рангов для группы повторов.
   - Ранг тройки = 5, ранг единицы = 1, ранг двойки = 4.
2. **Максимальный ранг.**
   - Ранг тройки = 6, ранг единицы = 3, ранг двойки = 4.
3. **Средний (среднеарифметический) ранг.**
   - Ранг тройки = 5.5, ранг единицы = 2, ранг двойки = 4.
4. **Различие между одинаковыми элементами** — присваиваем разным «единичкам» разные ранги в порядке появления:
   - Получится, например: $(5, 1, 6, 2, 3, 4)$ для исходной $(3, 1, 3, 1, 1, 2)$.

> **Практическое замечание:** при использовании рангового стат-теста нужно внимательно смотреть, как авторы/разработчики поступают с дублированными рангами. Дальнейшее изложение предполагает, что **все ранги уникальны**.

## 7. Коэффициент корреляции Спирмена

### Постановка

Парная выборка $(X_1, Y_1), \ldots, (X_n, Y_n)$.

Сопоставим каждому элементу его ранг **в своей выборке**:
- $R_k$ — ранг $X_k$ среди $X_1, \ldots, X_n$
- $S_k$ — ранг $Y_k$ среди $Y_1, \ldots, Y_n$

### Определение

**Коэффициент корреляции Спирмена** — это выборочный коэффициент корреляции Пирсона между рангами:

$$\hat{\rho}_{\text{Spearman}} = \hat{\rho}_{\text{Pearson}}(R, S)$$

> **Замечание:** для уникальных рангов существуют упрощённые формулы для подсчёта (см. Ивченко–Медведев, Кобзарь).

### Гипотезы

- $H_0$: корреляция равна 0
- $H_1$: корреляция $\neq 0$, $> 0$ или $< 0$

В зависимости от альтернативы выбирается тип критической области (двусторонняя, правосторонняя, левосторонняя).

### Распределение статистики

- При **малых** $n$ — табулировано.
- При **больших** $n$ при условии $H_0$:
  $$\text{статистика} \xrightarrow{d} \mathcal{N}(0, 1)$$

## 9. Критерий инверсий

### Зачем нужен этот критерий

До сих пор все рассмотренные тесты предполагали работу с **моделью простейшей выборки** (одной или нескольких). Но это сильное предположение — далеко не все выборки простейшие. Есть тесты, которые проверяют **согласованность данных с моделью простейшей выборки**.

### Что такое модель простейшей выборки

Случайные величины **независимы** и **одинаково распределены** (i.i.d.).

### Постановка

Пусть имеются $X_1, X_2, \ldots, X_n$ — **непрерывные** случайные величины (это важное предположение).

### Гипотезы

**$H_0$:** величины $X_1, \ldots, X_n$:
- (а) независимы
- (б) одинаково распределены

То есть совместная функция распределения есть произведение одномерных и при этом они одинаковые. Иными словами, числа соответствуют модели простейшей выборки.

**$H_1$:** $\neg H_0$.

### Определение инверсии

Пара $(X_i, X_j)$ при $i < j$ образует **инверсию**, если $X_j < X_i$.

Иными словами, в вариационном ряду $X_j$ предшествует $X_i$.

### Статистика

- $t_1$ — количество инверсий для $X_1$ (т.е. число пар $X_1, X_j$ при $j > 1$, образующих инверсию).
- $t_2$ — количество инверсий для $X_2$.
- $\ldots$
- $t_{n-1}$ — количество инверсий для $X_{n-1}$.

Статистика теста:
$$N = \sum_{i=1}^{n-1} t_i$$

— общее количество инверсий во всей выборке.

### Идея критерия

Если $H_0$ верна, то:
$$\mathbb{P}(\text{любой перестановки}) = \frac{1}{n!}$$

То есть все возможные расстановки равновероятны.

### Предельные случаи

| Ситуация | Количество инверсий $N$ |
|---|---|
| Выборка отсортирована по возрастанию | 0 |
| Выборка отсортирована по убыванию | $\frac{n(n-1)}{2}$ |
| Перемешана случайно | около среднего |

Если числа полностью отсортированы — индикатор того, что они вряд ли случайны. Если перемешаны — скорее случайны.

### Распределение

- При **малых** $n$ — распределение $N$ табулировано.
- При **больших** $n$ — нормальная аппроксимация:
  $$N \approx \mathcal{N}\left(\frac{n(n-1)}{4}, \, \frac{n(n-1)(2n+5)}{72}\right)$$

  > **Уточнение:** мат. ожидание $\frac{n(n-1)}{4}$ — это ровно половина максимального количества инверсий.

  > **Откуда формулы:** во-первых, $t_i$ независимы между собой; во-вторых, формулы можно получить через **производящие функции** (тесно связанные с характеристическими функциями). Подробный вывод см. в Ивченко–Медведев.

---

## Заключительные замечания

### Сводка рассмотренных тестов на лекции

| Тест | Что проверяет | Ключевое предположение |
|---|---|---|
| Критерий Пирсона (на корреляцию) | $\rho_{XY} = 0$ | гауссовский вектор |
| Критерий квантилей | $F(q_k) = p_k$ | непрерывное распределение |
| Критерий знаков | медиана $= c_0$ | непрерывное распределение |
| Манна–Уитни / Уилкоксона | однородность двух выборок | независимость выборок, ловит сдвиг |
| Спирмена | независимость в парной выборке | монотонная зависимость |
| Кендалла | независимость в парной выборке | монотонная зависимость |
| Критерий инверсий | модель простейшей выборки (i.i.d.) | непрерывные случайные величины |

---

# Лекция 11: Линейная регрессия. Метод наименьших квадратов. Теорема Гаусса–Маркова

## Введение

Сегодня начинается разговор про **линейные модели**, в частности — про **линейную регрессию**. Многие уже сталкивались с линейной регрессией и методом наименьших квадратов в других контекстах. Оказывается, эту, казалось бы, простую модель можно рассмотреть и со **статистической точки зрения**, чем мы и займёмся.

## Вспомогательная матрица $A$

Введём матрицу:

$$A = X^T X$$

На что она похожа? Это похоже на «**ковариацию**» между переменными (в кавычках!).

Действительно, строчка матрицы $X^T$ — это столбец переменной. Если поделить на $n$, то получится почти выборочная ковариация. Формально это **не совсем** ковариация, но нечто, очень сильно напоминающее её. На интуитивном уровне про матрицу $A$ можно думать как про вариацию между переменными.

### Свойства матрицы $A$

- $A$ — матрица $m \times m$ по построению.
- **Предполагаем:** $\text{rank}(A) = m$.

Это означает, что переменные **линейно независимы**. В контексте регрессионного анализа это называется **отсутствие мультиколлинеарности**.

> $\text{rank}(A) = m$ ⟺ переменные линейно независимы ⟺ отсутствует мультиколлинеарность.

Также предполагаем, что **количество наблюдений существенно больше количества переменных**: $n \gg m$.

## Теорема Гаусса–Маркова

Это **фундаментальная теорема** в рамках линейных моделей. Традиционно она формулируется для самой оценки наименьших квадратов, но здесь рассмотрим **более общее утверждение**.

### Постановка

Рассмотрим линейную функцию от вектора коэффициентов:

$$\tau = T c$$

где $T$ — матрица $k \times m$, $k \leq m$, $\text{rank}(T) = k$.

> Если взять $T = I$ (единичная матрица), получим теорему Гаусса–Маркова для обычной оценки наименьших квадратов.

Введём оценку:

$$\hat{\tau} = T \hat{c}$$

### Зачем нужно $T$?

В дальнейшем будут проверяться гипотезы о векторе $c$ при **линейных ограничениях**. Соотношение $Tc = \tau$ как раз задаёт линейное ограничение. В качестве нулевой гипотезы стат-теста будет выступать предположение, что $c$ удовлетворяет каким-то линейным ограничениям.

### Формулировка

При выполнении всех предположений (некоррелированность ошибок, нулевое мат. ожидание, гомоскедастичность):

**(а)** $\hat{\tau}$ — **несмещённая** оценка для $\tau$:
$$\mathbb{E}\hat{\tau} = \tau$$

**(б)** Матрица ковариаций $\text{cov}(\hat{\tau}) = \sigma^2 T A^{-1} T^T$, и $\hat{\tau}$ — **оптимальная** оценка для $\tau$ в классе **линейных по $y$ несмещённых оценок**.

### Доказательство (а): несмещённость

$$\mathbb{E}\hat{\tau} = \mathbb{E}[T \hat{c}] = \mathbb{E}[T A^{-1} X^T y]$$

$T$, $A^{-1}$, $X^T$ — константы, выносим за знак мат. ожидания:

$$= T A^{-1} X^T \mathbb{E} y = T A^{-1} X^T \mathbb{E}[Xc + \varepsilon] = T A^{-1} X^T X c$$

(поскольку $\mathbb{E}\varepsilon = 0$, а $Xc$ — константа). Учитывая $X^T X = A$:

$$= T A^{-1} A c = T c = \tau \quad \blacksquare$$

### Доказательство (б): матрица ковариаций

$$\text{cov}(\hat{\tau}) = \text{cov}(T \hat{c}) = T \cdot \text{cov}(\hat{c}) \cdot T^T$$

> **Замечание (вопрос студента):** в одномерном случае $\mathbb{D}(aX) = a^2 \mathbb{D}X$, но в **многомерном** случае матрица ковариаций $aX$ — это $A \cdot \text{cov}(X) \cdot A^T$. Это **именно матрица ковариаций**, а не дисперсия в квадрате, потому что $\hat{\tau}$ — это случайный **вектор** (многомерная величина).

Считаем $\text{cov}(\hat{c})$:

$$\text{cov}(\hat{c}) = \text{cov}(A^{-1} X^T y) = A^{-1} X^T \cdot \text{cov}(y) \cdot X A^{-1}$$

> **Симметрия $A^{-1}$:** $A = X^T X$ симметрична ($A^T = (X^T X)^T = X^T X = A$), значит, $A^{-1}$ тоже симметрична. Поэтому $(A^{-1})^T = A^{-1}$.

Считаем $\text{cov}(y)$:

$$\text{cov}(y) = \text{cov}(Xc + \varepsilon)$$

$Xc$ — константа, **сдвиг на матрицу ковариаций не влияет** (аналогично одномерному случаю, где $\mathbb{D}(X+a) = \mathbb{D}X$):

$$\text{cov}(y) = \text{cov}(\varepsilon)$$

Поскольку компоненты $\varepsilon$ некоррелированы и имеют одинаковую дисперсию $\sigma^2$:

$$\text{cov}(\varepsilon) = \sigma^2 I$$

Подставляем:

$$\text{cov}(\hat{c}) = A^{-1} X^T \cdot \sigma^2 I \cdot X A^{-1} = \sigma^2 A^{-1} \underbrace{X^T X}_{A} A^{-1} = \sigma^2 A^{-1}$$

Итого:

$$\boxed{\text{cov}(\hat{\tau}) = \sigma^2 T A^{-1} T^T}$$

Введём обозначение:

$$D = T A^{-1} X^T$$

(к этому обозначению вернёмся позже).

### Доказательство (б): оптимальность

#### Напоминание: критерий оптимальности

Для несмещённых оценок: оценка оптимальна, если у неё **минимальная дисперсия**. В многомерном случае оптимизируется:

$$\text{MSE}(\hat{\theta}) = \mathbb{E}\big[(\hat{\theta} - \theta)^T (\hat{\theta} - \theta)\big]$$

Можно показать, что:

$$\text{MSE}(\hat{\theta}) = \text{tr}(\text{cov}(\hat{\theta})) + \text{bias}^T \text{bias}$$

где $\text{tr}$ — **след** матрицы (сумма диагональных элементов), а $\text{bias} = \mathbb{E}\hat{\theta} - \theta$.

> Это обобщение одномерной формулы $\text{MSE} = \mathbb{D} + \text{bias}^2$.

В нашем случае оценка несмещённая, поэтому $\text{bias} = 0$ — нужно минимизировать $\text{tr}(\text{cov}(\hat{\tau}))$.

#### Шаг A: произвольная линейная несмещённая оценка

Пусть $\hat{L} = L y$ — произвольная линейная по $y$ несмещённая оценка для $\tau$:

$$\mathbb{E}[L y] = \tau$$

С другой стороны:

$$\mathbb{E}[L y] = L \cdot \mathbb{E}[Xc + \varepsilon] = L X c$$

Поскольку $\tau = T c$, получаем $T c = L X c$ для **любого** $c$. Отсюда:

$$\boxed{T = L X}$$

#### Шаг B: переобозначение

Прибавим и вычтем $T A^{-1} X^T$:

$$L = \underbrace{(L - T A^{-1} X^T)}_{\hat{L}} + T A^{-1} X^T$$

Введём $\hat{L} = L - T A^{-1} X^T$. Тогда:

$$L = \hat{L} + T A^{-1} X^T$$

#### Дополнительное соотношение

Из $T = L X$ домножим обе части на $X$ справа... нет, у нас уже $T = LX$. Подставим $L = \hat{L} + T A^{-1} X^T$:

$$T = \hat{L} X + T A^{-1} \underbrace{X^T X}_{A} = \hat{L} X + T$$

Отсюда:

$$\boxed{\hat{L} X = 0}$$

Транспонируя: $X^T \hat{L}^T = 0$.

#### Шаг C: матрица ковариаций для $L y$

$$\text{cov}(L y) = L \cdot \text{cov}(y) \cdot L^T = \sigma^2 L L^T$$

Распишем $\sigma^2 L L^T$, подставляя $L = T A^{-1} X^T + \hat{L}$:

$$\sigma^2 L L^T = \sigma^2 (T A^{-1} X^T + \hat{L})(T A^{-1} X^T + \hat{L})^T$$

Раскрываем:

$$= \sigma^2 \big[ T A^{-1} \underbrace{X^T X}_{A} A^{-1} T^T + T A^{-1} X^T \hat{L}^T + \hat{L} X A^{-1} T^T + \hat{L} \hat{L}^T \big]$$

Используем $\hat{L} X = 0$ и $X^T \hat{L}^T = 0$ — средние два слагаемых обнуляются:

$$\text{cov}(L y) = \sigma^2 T A^{-1} T^T + \sigma^2 \hat{L} \hat{L}^T$$

#### Финальный шаг: оптимизация следа

Получили:

$$\text{cov}(L y) = \underbrace{\sigma^2 T A^{-1} T^T}_{\text{cov}(\hat{\tau}),\ \text{не зависит от выбора } L} + \underbrace{\sigma^2 \hat{L} \hat{L}^T}_{\text{зависит от } \hat{L}}$$

Считаем след:

$$\text{tr}(\hat{L} \hat{L}^T) = \sum_i (\hat{L} \hat{L}^T)_{ii} = \sum_i \sum_j \hat{L}_{ij}^2$$

(диагональный элемент $(\hat{L} \hat{L}^T)_{ii}$ — это $i$-я строка, скалярно умноженная на саму себя, то есть сумма квадратов её элементов).

Минимум суммы квадратов достигается при $\hat{L}_{ij} = 0$ для всех $i, j$, то есть $\hat{L} = 0$. А это в точности означает, что $L = T A^{-1} X^T$ — то есть, что $L y = \hat{\tau}$.

Таким образом, оценка наименьших квадратов **оптимальна** в классе линейных несмещённых оценок. ∎

---

# Лекция 11: Линейная регрессия. Доверительные интервалы и проверка гипотез

## Восстановление контекста

Рассматривается линейная модель:

$$y = Xc + \varepsilon$$

где:
- $c$ — вектор коэффициентов
- $X$ — матрица с элементами (матрица плана)
- $y$ — вектор значений
- $\varepsilon$ — вектор ошибок

### Базовые предположения

1. $\mathbb{E}[\varepsilon] = 0$ — математическое ожидание ошибки равно нулю
2. Матрица ковариаций ошибок: $\text{Cov}(\varepsilon) = \sigma^2 \cdot E$, где $E$ — единичная матрица

Это означает, что модель **гомоскедастичная**: матрица ковариаций диагональная, и на диагонали стоит одна и та же дисперсия.

### Что было получено ранее

Найдена **оценка наименьших квадратов** (ОНК):

$$\hat{c} = A^{-1} X^T y$$

где $A = X^T X$.

**Теорема Гаусса—Маркова** (повторение):
- $\hat{c}$ — несмещённая оценка
- $\hat{c}$ — оптимальная (эффективная) в классе линейных несмещённых оценок

Также получена **несмещённая оценка остаточной дисперсии**:

$$\hat{\sigma}^2 = \frac{S^2(\hat{c})}{n - m}$$

где $S^2(\hat{c})$ — квадратическая ошибка для ОНК, $n$ — число наблюдений, $m$ — число переменных.

> До этого мы научились находить **точечные** оценки для $c$ и для остаточной дисперсии. Теперь будем строить **доверительные интервалы**.

## Теорема о нормальной регрессии

**Условия:** выполнены все предположения, плюс ошибка распределена нормально.

**Утверждения:**

1. $\hat{c} \sim \mathcal{N}(c, \sigma^2 A^{-1})$

2. $\dfrac{S^2(\hat{c})}{\sigma^2} \sim \chi^2_{n-m}$ (хи-квадрат с $n - m$ степенями свободы)

3. $\dfrac{S^2(c) - S^2(\hat{c})}{\sigma^2} \sim \chi^2_{m}$ (хи-квадрат с $m$ степенями свободы)

4. Пары $\hat{c}$ и $S^2(\hat{c})$ — **независимы** (несмотря на то, что $S^2(\hat{c})$ зависит от $\hat{c}$)

> Эту теорему можно воспринимать как переформулировку **теоремы Фишера** (которая использовалась при построении доверительных интервалов для параметров нормального закона).

## Проверка гипотезы о дисперсии

**Гипотеза:** $H_0: \sigma^2 = \sigma_0^2$

**Статистика критерия:**

$$T = \frac{S^2(\hat{c})}{\sigma_0^2}$$

При истинности $H_0$: $T \sim \chi^2_{n-m}$.

### Виды альтернатив и критические области

| Альтернатива $H_1$ | Тип критерия | Критическая область |
|---|---|---|
| $\sigma^2 \neq \sigma_0^2$ | Двусторонний | $[0, q_{\alpha/2}] \cup [q_{1-\alpha/2}, +\infty)$ |
| $\sigma^2 > \sigma_0^2$ | Правосторонний | $[q_{1-\alpha}, +\infty)$ |
| $\sigma^2 < \sigma_0^2$ | Левосторонний | $[0, q_\alpha]$ |

> **Замечание о терминологии.** Везде в записи используются **квантили**. В практических таблицах часто используются **критические значения**, которые могут обозначаться как $Q_\alpha$ (то, что в записи через квантили является $q_{1-\alpha}$). Важно понимать смысл и не путать.

> **Замечание о носителе.** Распределение $\chi^2$ имеет носитель $[0, +\infty)$ (как сумма квадратов), поэтому отрицательных значений быть не может.

## $t$-тест значимости коэффициента линейной регрессии

**Идея:** проверить, действительно ли $i$-я переменная влияет на модель.

**Нулевая гипотеза:** $H_0: c_i = 0$ (фактор не влияет)

**Альтернативы** (зависят от подозрений):
- $c_i \neq 0$ (двусторонняя)
- $c_i > 0$ (правосторонняя)
- $c_i < 0$ (левосторонняя)

**Статистика критерия:**

$$T = \frac{\sqrt{n-m} \cdot \hat{c}_i}{\sqrt{S^2(\hat{c}) \cdot (A^{-1})_{ii}}}$$

При $H_0$: $T \sim t_{n-m}$.

### Примеры выбора альтернативы

**Пример 1.** Цена недвижимости в зависимости от расстояния до центра.
Подозрение: чем меньше расстояние, тем больше цена → **левосторонняя** альтернатива ($c_i < 0$).

**Пример 2.** Стоимость авто в зависимости от мощности.
Подозрение: чем больше мощность, тем больше цена → **правосторонняя** альтернатива ($c_i > 0$).

## Условные оценки наименьших квадратов

Понадобятся для описания $F$-критерия.

**Постановка:** вектор $c$ удовлетворяет линейным ограничениям:

$$Tc = t_0$$

где:
- $T$ — матрица $k \times m$, $k \leq m$
- $\text{rank}(T) = k$ (ограничения линейно независимы)

**Определение условной ОНК:**

$$\hat{c}_T = \arg\min_{Tc = t_0} S^2(c)$$

Это задача оптимизации квадратичной функции при линейных ограничениях.

### Аналитическая формула

$$\hat{c}_T = \hat{c} - A^{-1} T^T D^{-1} (T\hat{c} - t_0)$$

где:

$$D = T A^{-1} T^T$$

(матрица $D$ возникала в теореме Гаусса—Маркова).

> Матрица $D$ симметрична: $D^T = D$, поэтому $(D^{-1})^T = D^{-1}$.
> $D^{-1}$ существует, потому что $\text{rank}(T) = k$.

### Идея вывода

Аналогично доказательству обычной ОНК. Показывается:

$$S^2(\hat{c}_T + h) > S^2(\hat{c}_T)$$

для любого $h \neq 0$ такого, что $T h = 0$ (приращение в допустимом направлении).

**Упражнение:** показать, что $T \hat{c}_T = t_0$ (выполняется в одну строчку).

### Ключевое наблюдение

Из результата прошлой лекции:

$$S^2(c) - S^2(\hat{c}) = (c - \hat{c})^T A (c - \hat{c})$$

Подставляя $c = \hat{c}_T$:

$$S^2(\hat{c}_T) - S^2(\hat{c}) = (\hat{c}_T - \hat{c})^T A (\hat{c}_T - \hat{c})$$

Используя формулу для $\hat{c}_T - \hat{c} = -A^{-1} T^T D^{-1}(T\hat{c} - t_0)$:

$$S^2(\hat{c}_T) - S^2(\hat{c}) = (T\hat{c} - t_0)^T D^{-1} \underbrace{T A^{-1} T^T}_{= D} D^{-1} (T\hat{c} - t_0)$$

$$= (T\hat{c} - t_0)^T D^{-1} (T\hat{c} - t_0)$$

> Это **квадратичная форма** от $\hat{c}$. Так как $\hat{c}$ имеет нормальное распределение, и квадратичная форма построена с матрицей ранга $k$, эта величина связана с распределением $\chi^2_k$ — **число степеней свободы равно $k$**.

## $F$-критерий "по умолчанию" (значимость модели в целом)

### Стандартная модель

$$y_i = c_0 + x_{i1} c_1 + x_{i2} c_2 + \ldots + x_{im} c_m + \varepsilon_i$$

В библиотеках $c_0$ (свободный член) обычно выделяется отдельно.

### Гипотеза по умолчанию

**Нулевая гипотеза:** все коэффициенты, кроме свободного, равны нулю:

$$H_0: c_1 = c_2 = \ldots = c_m = 0$$

**Альтернатива:** $H_1$: хотя бы один $c_i \neq 0$ (то есть $\neg H_0$).

> Это **проверка значимости модели в целом**.

---

## Коэффициент детерминации $R^2$

**Определение.** Множественный коэффициент корреляции — это коэффициент корреляции между $y$ и $\hat{y}$:

$$R = \text{corr}(y, \hat{y})$$

где $\hat{y} = X\hat{c}$.

**Коэффициент детерминации:**

$$R^2 = R^2(\text{множественный})$$

### Связь с остаточной дисперсией

Имеет место соотношение:

$$S^2(\hat{c}) = (1 - R^2) \sum_{i=1}^{n} (y_i - \bar{y})^2$$

> Правая сумма — константа, зависящая от датасета.

### Интерпретация

| $R^2$ | Остаточная дисперсия | Качество модели |
|---|---|---|
| Близко к 1 | Маленькая | Модель адекватная |
| Близко к 0 | Большая | Модель не очень адекватная |

### $F$-статистика через $R^2$

Для гипотезы по умолчанию $F$-статистика выражается через коэффициент детерминации:

$$F = \frac{R^2 / m}{(1 - R^2) / (n - m - 1)}$$

> **Замечание Ивана Александровича:** возможны небольшие неточности в коэффициентах — нужно перепроверить.

---
# Лекция 13. Линейные модели. Однофакторный дисперсионный анализ, метод главных компонент, взвешенный МНК

## Организационная часть

- На прошлой лекции была допущена опечатка в формуле статистики, выражающейся через коэффициент детерминации $R^2$.
- Для рассматриваемой модели верная формула:
$$F = \frac{n-m}{m-1} \cdot \frac{R^2}{1-R^2}$$
- Ранее коэффициент $R^2$ находили вручную для простого случая (двух переменных), затем переходили к более общим случаям.

## 2. Метод главных компонент (PCA)

### 2.1. Мотивация

В модели линейной регрессии предполагалось, что $X^T X$ **не вырождена** (отсутствие мультиколлинеарности — линейная независимость переменных).

**Две проблемы:**

1. Чисто гипотетически матрица может оказаться вырожденной — переменные линейно зависимы. Одна выражается через другие.
2. При вычислении оценки наименьших квадратов нужно обращать $X^T X$. С численной точки зрения существуют показатели, от которых зависит скорость сходимости алгоритмов обращения. Может оказаться, что матрица обратима формально, но обращается очень медленно — это означает, что переменные **почти линейно зависимы**.

> Подробнее об этом — в курсе численных методов на 3-м курсе.

### 2.2. Идея метода

Обозначим $A = X^T X$. Эта матрица:
- напоминает ковариационную матрицу;
- **неотрицательно определена**.

Из неотрицательной определённости:
- собственные числа неотрицательны: $\lambda_i \geq 0$;
- собственные векторы можно выбрать **ортонормированными** ($n$ линейно независимых).

### 2.3. Спектральное разложение

$$\Lambda = U^T A U$$

где:
- $\Lambda = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_n)$ — диагональная матрица собственных чисел, отсортированных по убыванию ($\lambda_1 \geq \lambda_2 \geq \ldots \geq 0$);
- $U = [u_1 \, u_2 \, \ldots \, u_n]$ — ортонормированные собственные векторы.

Поскольку $U$ ортогональная, $U^{-1} = U^T$, поэтому:

$$A = U \Lambda U^T$$

### 2.4. Введение новых переменных

Вводим новые переменные:

$$W = X U$$

Посчитаем $W^T W$:

$$W^T W = (XU)^T (XU) = U^T X^T X U = U^T A U = U^T (U \Lambda U^T) U = (U^T U) \Lambda (U^T U) = \Lambda$$

(использовали $U^T U = I$, поскольку $U$ ортогональна).

**Получили:**

$$W^T W = \Lambda$$

— это **диагональная матрица**.

### 2.5. Свойства новых переменных

Поскольку $W^T W$ диагональна:

- **новые переменные линейно независимы (некоррелированы)** — недиагональные элементы нулевые;
- **новые переменные отсортированы по убыванию дисперсии** — на диагонали матрицы ковариаций стоят дисперсии.

В матричной форме:

$$\begin{pmatrix} w_1 & w_2 & \ldots & w_m \end{pmatrix} = \begin{pmatrix} x_1 & x_2 & \ldots & x_n \end{pmatrix} \cdot U$$

Каждый $w_k$ получается умножением старых переменных на $k$-й столбец матрицы $U$:
- $w_1$ — самая большая дисперсия;
- $w_2$ — поменьше;
- и т.д.

### 2.6. Снижение размерности

**Идея:** дисперсия — мера разброса от матожидания. Если у переменной маленькая дисперсия, она почти не изменяется, фактически ведёт себя как константа — особой роли в модели не играет.

**Алгоритм:** оставляем только переменные с большой дисперсией; остальные отбрасываем.

#### Критерии остановки

1. **Порог по отдельной дисперсии:** оставляем $w_i$, для которых $\lambda_i > \tau$ (порог).
2. **Кумулятивный порог:** суммируем $\lambda_i$ по убыванию, пока сумма не достигнет заданного порога.

### 2.7. Что получили

С помощью PCA борются с:
- **некоррелированностью** (точнее, с проблемой мультиколлинеарности — делаем переменные некоррелированными);
- **большим количеством переменных** — снижаем размерность.

## 4. Замечание о проверке предположений модели

В стандартной линейной регрессии предполагали:
- ошибки распределены нормально;
- ошибки не коррелированы;
- гомоскедастичность (одинаковые дисперсии).

Для проверки этих предположений существуют **специально предназначенные стат-тесты**:
- тесты на гомоскедастичность;
- тесты на отсутствие корреляции ошибок;
- тесты на нормальность распределения.

> В рамках курса подробно не разбираем; кому интересно — можно изучить самостоятельно.

$$\sum_{i=1}^{n} x_i \geq \tilde{C} + \frac{n}{2}$$

### 5.4. Распределение тестовой статистики

При условии $H_0$:
$$\sum_{i=1}^{n} x_i \sim \mathcal{N}(0, n)$$

При условии $H_1$:
$$\sum_{i=1}^{n} x_i \sim \mathcal{N}(n, n)$$

### 5.5. Условие на вероятность ошибки первого рода

$$P\left(\sum x_i \geq \tilde{C} + \frac{n}{2} \mid H_0\right) = 1 - \Phi\left(\frac{\tilde{C} + n/2}{\sqrt{n}}\right) = \alpha$$

где $\Phi$ — функция распределения стандартного нормального закона.

Дальше остаётся разрешить уравнение относительно $\tilde{C}$.

### 5.6. Геометрическая интерпретация

Имеем две гауссианы:
1. **Гауссиана №1** — плотность $\mathcal{N}(0, n)$ (при $H_0$)
2. **Гауссиана №2** — плотность $\mathcal{N}(n, n)$ (при $H_1$)

Отметим на оси константу (обозначим её через две волны $\tilde{\tilde{C}}$).

**Вероятность ошибки первого рода ($\alpha$):**
- Это ситуация: опровергаем $H_0$, но она верна
- На графике: площадь под первой гауссианой **справа** от черты

**Вероятность ошибки второго рода ($\beta$):**
- Это ситуация: принимаем $H_0$, но верна $H_1$
- $P(\sum x_i < \tilde{\tilde{C}} \mid H_1)$
- На графике: площадь под второй гауссианой **слева** от черты

### 5.7. Анализ trade-off

Если параметр $\tilde{\tilde{C}}$ варьировать:
- **Двигаем вправо:** $\alpha$ уменьшается, $\beta$ увеличивается
- **Двигаем влево:** $\alpha$ увеличивается, $\beta$ уменьшается

Лемма Неймана-Пирсона утверждает: если в критерии отношения правдоподобия для простых гипотез подобрать константу так, чтобы $\alpha$ в точности равнялась заданной величине, то этот критерий **оптимален** в плане минимизации $\beta$.

---

## 6. Общий критерий отношения правдоподобия

### 6.1. Постановка (сложные параметрические гипотезы)

Пусть имеется параметрическая гипотеза:

$$H_0: \theta \in \Theta_0 \quad \text{vs} \quad H_1: \theta \in \Theta \setminus \Theta_0$$

То есть $\Theta_0$ — некоторое подмножество параметров, а альтернатива — его дополнение.

### 6.2. Статистика

$$\Lambda_n = \frac{\sup_{\theta \in \Theta_0} L(X, \theta)}{\sup_{\theta \in \Theta} L(X, \theta)}$$

> Здесь, в отличие от случая простых гипотез, нужна **оптимизация**:
> - **Числитель:** условная оптимизация ($\theta \in \Theta_0$)
> - **Знаменатель:** безусловная оптимизация по всему $\Theta$

### 6.3. Асимптотическое распределение

**Предположение:** оценки максимального правдоподобия асимптотически нормальные (это выполняется в рамках условий регулярности).

Тогда:

$$-2 \ln \Lambda_n \xrightarrow{d} \chi^2_{m - r}$$

где:
- $m$ — размерность $\Theta$ (всего пространства параметров)
- $r$ — размерность $\Theta_0$

### 6.4. Почему именно $-2 \ln \Lambda_n$? (объяснение «на пальцах»)

- **Минус:** в классическом критерии отношения правдоподобия было «наоборот» — наверху правдоподобие при $H_1$, внизу при $H_0$. Минус условно «переворачивает» дробь.
- **Логарифм:** упрощает работу с произведениями
- **Двойка:** $2 \ln x = \ln x^2$, а логарифм произведения это сумма. Получается похоже на сумму квадратов — отсюда и $\chi^2$-распределение.

---

## 7. Применение: проверка значимости логистической регрессии

### 7.1. Постановка

Возвращаемся к модели логистической регрессии:

$$y_i \sim \text{Bern}\left(\frac{1}{1 + e^{-(c_0 + c_1 x_{i1} + \ldots + c_m x_{im})}}\right)$$

**Что значит проверить значимость модели?** Хотим выяснить, действительно ли переменные $x$ влияют на $y$.

### 7.2. Гипотезы

**Нулевая гипотеза** (по умолчанию: переменные не влияют):

$$H_0: c_1 = c_2 = \ldots = c_m = 0$$

В этом случае остаётся только свободный коэффициент $c_0$, поэтому **размерность $\Theta_0$ равна 1**.

**Альтернативная гипотеза** (формально):

$$H_1: \exists k \text{ такое, что } c_k \neq 0$$

### 7.3. Размерности

- $\dim \Theta = m + 1$ (модель описывается $m + 1$ параметром: $c_0, c_1, \ldots, c_m$)
- $\dim \Theta_0 = 1$ (остался только $c_0$)

### 7.4. Отношение правдоподобия

$$\Lambda_n = \frac{\sup_{\theta \in \Theta_0} L(X, \theta)}{\sup_{\theta \in \Theta} L(X, \theta)}$$

По сути спрашиваем: действительно ли наша выборка — просто бернуллиевские величины, или же зависит от $X$?

> **Замечание про размерности.** Вся $\Theta$ — это все возможные значения $(c_0, c_1, \ldots, c_m)$, их $m + 1$ штука, поэтому размерность $m + 1$. В $\Theta_0$ все $c_i$ при $i \geq 1$ занулены, остался только $c_0$ — размерность 1.

### 7.5. Аналогично для регрессии Пуассона

Нулевая гипотеза: все коэффициенты, кроме $c_0$, равны нулю. Альтернатива — отрицание $H_0$.

---

## 8. Построение критерия

Известно:

$$-2 \ln \Lambda_n \xrightarrow{d} \chi^2_{m - r}$$

**Решающее правило:**

Если $\Lambda_n > C$, то принимаем $H_0$, иначе $H_1$.

В терминах $-2 \ln \Lambda_n$ (знак неравенства меняется):

$$\text{если } -2 \ln \Lambda_n < \tilde{C}, \text{ то } H_0, \text{ иначе } H_1$$

В качестве пороговой константы $\tilde{C}$ берём **квантиль $\chi^2$-распределения** с $m - r$ степенями свободы.