Карточки Anki
Скачайте колоды для интервального повторения
Лекция 9: Статистические критерии (продолжение)
1. Примеры применения базовых критериев
1.1. Проверка гипотезы о математическом ожидании (честная монета)
Постановка задачи: Монету подбросили $4096$ раз, орёл выпал $2000$ раз. Является ли монета честной?
Гипотезы:
- $H_0$: $p = 0{,}5$ (монета честная, $p$ — реальная вероятность успеха)
- $H_1$: альтернатива может быть специфицирована тремя способами:
- правосторонняя: $p > 0{,}5$
- левосторонняя: $p < 0{,}5$
- двусторонняя: $p \neq 0{,}5$
По сути проверяется, верно ли, что математическое ожидание равняется конкретному значению.
Статистика критерия:
$$Z = \frac{\bar{X} - \mu}{\sqrt{D}} \cdot \sqrt{n}$$то есть (выборочное среднее минус мат. ожидание), делённое на корень квадратный из дисперсии, умноженное на корень из объёма выборки $n$.
Распределение статистики: при условии истинности $H_0$ статистика имеет стандартное нормальное распределение.
p-value: напоминание — это вероятность того, что мы получим более экстремальные значения относительно наблюдаемого.
- Для правосторонней альтернативы — правосторонний p-value
- Для левосторонней альтернативы — левосторонний p-value
- Для двусторонней альтернативы — двусторонний p-value
Пример вывода: при каком уровне значимости мы опровергнем нулевую гипотезу? Иными словами, p-value должен быть меньше уровня значимости. Если уровень значимости больше чем $0{,}067$ — гипотеза будет отвергнута.
Технический момент: в коде используется модуль
scipy.stats(импортируется как подмодульstatsизscipy).
1.2. Проверка гипотезы о дисперсии (сеть магазинов)
Постановка задачи: Есть сеть магазинов, известно среднее время и стандартное отклонение. Открыли новый магазин, посмотрели на $25$ случайных покупателей. На уровне значимости $1\%$ проверить гипотезу о том, что стандартное отклонение времени в новом магазине больше, чем во всей сети.
Гипотезы:
- $H_0$: $\sigma = 5{,}5$
- $H_1$: $\sigma > 5{,}5$ (подозреваем большее отклонение — это идёт в альтернативу)
Статистика: распределена по $\chi^2$ с $n-1$ степенями свободы (по теореме Фишера).
Тип критерия: правосторонний (это было показано на теории).
Расчёт p-value:
$$\text{p-value} = 1 - \text{CDF}(\text{stat})$$Результат: получили p-value $\approx 0{,}67$ — гипотеза $H_0$ принимается.
1.3. F-тест на равенство дисперсий двух выборок
Постановка задачи: Есть две выборки. Для каждой даны среднее и стандартное отклонение. Проверить равенство дисперсий.
Метод: F-тест.
Критическая область: двусторонняя.
Результат: p-value большой — нулевая гипотеза принимается.
1.4. T-тест для сравнения математических ожиданий двух выборок
Использовали T-тест для двух выборок (рассматривали в одной из прошлых лекций).
Результат: p-value $\approx 0{,}0004$, при уровне значимости $0{,}05$ — нулевая гипотеза отвергается. Тест показал статистически значимый результат: средние не равны.
1.5. T-тест для парных выборок
Постановка: есть парная выборка (условно «до» и «после»). Хотим проверить, верно ли, что математическое ожидание «после» больше, чем «до».
Метод: альтернативная гипотеза формулируется в терминах разности — фактически в терминах третьей, новой выборки. Используется t-test для парных выборок.
Результат: нулевая гипотеза принимается.
1.6. Простой критерий согласия Пирсона (число $\pi$)
Рассмотрен пример про распределение цифр в десятичной записи числа $\pi$.
Результат: статистика $\chi^2$ дала p-value $\approx 0{,}4$ — это больше типичного уровня значимости, гипотеза принимается.
2. Критерий согласия Пирсона для сложной гипотезы
2.1. Отличие от простого критерия
В простом критерии согласия Пирсона у нас была простая гипотеза вида:
$$H_0: p = p_0$$где $p_0$ — конкретное значение (например, вектор вероятностей). В предыдущих примерах мы спрашивали: «верно ли, что вектор вероятностей равен вектору, состоящему из $\frac{1}{10}$» (для цифр $\pi$).
В сложной гипотезе $p_0$ зависит от параметра $\theta$:
$$H_0: p = p_0(\theta)$$$$H_1: \neg H_0$$2.2. Статистика критерия
Рассматривается статистика $\chi^2$, аналогичная простому случаю:
$$\chi^2 = \sum_{k=1}^{N} \frac{(\nu_k - n \cdot p_{0k}(\theta))^2}{n \cdot p_{0k}(\theta)}$$где $p_0(\theta) = (p_{01}(\theta), p_{02}(\theta), \ldots, p_{0N}(\theta))$ — вектор вероятностей, зависящий от $\theta$.
2.3. Проблема и решение
Проблема: $\theta$ — неизвестная величина.
Что можно сделать? Заменить $\theta$ на выборочную оценку. Точнее — на оценку максимального правдоподобия (ОМП).
При некоторых ограничениях предельное распределение остаётся «хорошим».
2.4. Утверждение (теорема о сложном критерии Пирсона)
Пусть:
- $\theta$ — вектор размерности $r$ параметров
- $r < N - 1$ (строго меньше)
- $\dfrac{\partial p_0}{\partial \theta}$ непрерывна
- $\dfrac{\partial^2 p_0}{\partial \theta^2}$ дважды непрерывна
- Матрица $\left(\dfrac{\partial p_{0i}}{\partial \theta_g}\right)$, где $i = 1, \ldots, N$ (большое $N$), $g = 1, \ldots, r$ (маленькое $r$), имеет ранг $r$
Тогда статистика $\chi^2$ при подстановке ОМП $\hat{\theta}$ сходится к распределению $\chi^2$ с числом степеней свободы:
$$\text{df} = N - 1 - r$$Здесь $N - 1$ — это то же, что было в простом критерии согласия Пирсона, а $r$ — размерность параметра, который мы дополнительно оценили.
2.5. Пример: семьи с двумя детьми
Данные: $2027$ семей с двумя детьми. Среди них:
- $527$ пар — два мальчика
- $476$ пар — две девочки (в восстановленных данных $\approx 476$, в записи прозвучало $\approx 400$ с уточнением «по две девочки»)
- $1017$ пар — один мальчик и одна девочка ($\approx 1017$)
Вопрос: верно ли, что количество мальчиков в таких семьях можно считать случайной величиной с биномиальным распределением с соответствующими параметрами?
Тип гипотезы: сложная (надо оценить параметр $p$).
Размерность параметра: $r = 1$.
ОМП для биномиального распределения: выборочное среднее, делённое пополам:
$$\hat{p} = \frac{0 \cdot \nu_0 + 1 \cdot \nu_1 + 2 \cdot \nu_2}{2n}$$то есть нули умножаем на количество нулей, единицы на количество единичек, двойки на количество двоек, и делим на $2n$.
Степени свободы для $\chi^2$:
- Простой критерий дал бы $N - 1 = 3 - 1 = 2$
- Учитывая оценку $\hat{p}$: $\text{df} = 2 - 1 = 1$
Результат: p-value $\approx 0{,}734$ — существенно больше типичных уровней значимости, нулевая гипотеза принимается.
Замечание о коде: иногда библиотечный код эволюционирует, и в новых версиях нужно писать иначе, чем раньше. Этот пример будет более детально разобран в следующий раз.
3. Критерий однородности $\chi^2$
3.1. Постановка задачи
Имеется $K$ независимых выборок. Чтобы задача об однородности была содержательной, предполагаем, что величины в каждой из выборок принимают одинаковые значения.
Пример некорректной постановки: если выборка 1 — это «мальчик/девочка», а выборка 2 — это «средний балл», то задача о проверке однородности вряд ли будет содержательной.
Обозначения:
- Значения, которые могут принимать величины: от $1$ до $N$
- $p_i$ — вектор вероятностей для $i$-й выборки
- $n_i$ — объём $i$-й выборки
- $\nu_{ig}$ — количество значений типа $g$ в $i$-й выборке
3.2. Гипотезы
$$H_0: p_1 = p_2 = \ldots = p_K$$(назовём это общее значение $p_0$ — это просто обозначение, удобное для формулы)
$$H_1: \neg H_0$$3.3. Статистика критерия
Критерий однородности $\chi^2$ — это модификация критерия согласия Пирсона.
$$\chi^2_{n_1, \ldots, n_K} = \sum_{i=1}^{K} \chi^2_{n_i}$$где локальный $\chi^2$:
$$\chi^2_{n_i} = \sum_{g=1}^{N} \frac{(\nu_{ig} - n_i \cdot p_{0g})^2}{n_i \cdot p_{0g}}$$Поскольку в нулевой гипотезе все вероятности равны, в формуле стоит общее $p_0$.
3.4. Оценка $p_0$
Проблема: конкретное значение $p_0$ нам неизвестно.
Решение: оцениваем методом максимального правдоподобия:
$$\hat{p}_{0g} = \frac{\nu_{1g} + \nu_{2g} + \ldots + \nu_{Kg}}{n}$$То есть берём суммарное количество элементов типа $g$ по всем выборкам и делим на общий объём $n = n_1 + n_2 + \ldots + n_K$.
3.5. Распределение статистики и степени свободы
Шаг 1. Предположим на секунду, что $p_0$ известно и фиксировано. Тогда:
- Локальный $\chi^2_{n_i}$ имеет $N - 1$ степень свободы
- Поскольку выборки независимы, степени свободы складываются (по формальному определению $\chi^2$ как суммы квадратов гауссовских случайных величин)
- Получаем: $K(N-1)$ степеней свободы
Шаг 2. Вспоминаем, что $p_0$ на самом деле неизвестно, и мы его оценили. От количества степеней свободы нужно отнять размерность вектора неизвестных параметров.
Сколько неизвестных в векторе $p$? Не $N$, а $N - 1$ (есть уравнение связи: сумма вероятностей равна $1$).
Итоговое количество степеней свободы:
$$\text{df} = K(N-1) - (N-1) = (K-1)(N-1)$$Формула, которую несложно запомнить:
$$\boxed{\text{df} = (N-1)(K-1)}$$В пределе:
$$\chi^2_{n_1, \ldots, n_K} \xrightarrow{d} \chi^2_{(N-1)(K-1)}$$Критическая область: правосторонняя.
3.6. Пример: два потока абитуриентов
Постановка: два потока абитуриентов получили какие-то результаты вступительных экзаменов. Можно ли считать эти потоки одинаковыми?
Метод: критерий однородности $\chi^2$.
Степени свободы: $4$ значения, $2$ выборки $\Rightarrow$ $\text{df} = (4-1)(2-1) = 3$.
Результат: p-value $\approx 0{,}5$ — нулевая гипотеза принимается (потоки можно считать однородными).
4. Критерий независимости $\chi^2$
4.1. Постановка задачи
Хотим проверить, что две случайные величины независимы.
Имеется парная выборка: $(X_1, Y_1), (X_2, Y_2), \ldots, (X_n, Y_n)$.
Предположения:
- $X$ принимает значения от $1$ до $N$
- $Y$ принимает значения от $1$ до $M$
Обозначения:
- $\nu_{ig}$ — количество пар, где $X = i$, $Y = g$
- $p_{Xi}$ — вероятность того, что $X = i$
- $p_{Yg}$ — вероятность того, что $Y = g$
- $p_{ig}$ — вероятность того, что $X = i$ и $Y = g$
4.2. Гипотезы
В терминах вероятностей условие независимости:
$$p_{ig} = p_{Xi} \cdot p_{Yg}$$Нулевая гипотеза:
$$H_0: \forall i, g \quad p_{ig} = p_{Xi} \cdot p_{Yg}$$Альтернатива:
$$H_1: \neg H_0$$4.3. Таблица сопряжённости (Contingency Table)
Для визуализации критерия строим таблицу:
| $Y=1$ | $Y=2$ | $\ldots$ | $Y=M$ | $\Sigma$ | |
|---|---|---|---|---|---|
| $X=1$ | $\nu_{11}$ | $\nu_{12}$ | $\ldots$ | $\nu_{1M}$ | $\nu_{1*}$ |
| $X=2$ | $\nu_{21}$ | $\nu_{22}$ | $\ldots$ | $\nu_{2M}$ | $\nu_{2*}$ |
| $\vdots$ | $\vdots$ | $\vdots$ | $\ddots$ | $\vdots$ | $\vdots$ |
| $X=N$ | $\nu_{N1}$ | $\nu_{N2}$ | $\ldots$ | $\nu_{NM}$ | $\nu_{N*}$ |
| $\Sigma$ | $\nu_{*1}$ | $\nu_{*2}$ | $\ldots$ | $\nu_{*M}$ | $n$ |
В ячейках — количество пар с соответствующими значениями. В дополнительном столбце — суммы по строкам ($\nu_{i*}$), в дополнительной строке — суммы по столбцам ($\nu_{*g}$).
Контроль: сумма по последнему столбцу = сумма по последней строке = объём выборки $n$.
4.4. Статистика критерия
Записываем $\chi^2$ в общем виде:
$$\chi^2 = \sum_{i,g} \frac{(\nu_{ig} - n \cdot p_{ig})^2}{n \cdot p_{ig}}$$Подставляем $H_0$ ($p_{ig} = p_{Xi} \cdot p_{Yg}$):
$$\chi^2 = \sum_{i,g} \frac{(\nu_{ig} - n \cdot p_{Xi} \cdot p_{Yg})^2}{n \cdot p_{Xi} \cdot p_{Yg}}$$4.5. Оценки вероятностей
Проблема: $p_{Xi}$ и $p_{Yg}$ нам не даны.
Оценки (по аналогии с предыдущим критерием):
$$\hat{p}_{Xi} = \frac{\nu_{i*}}{n}$$$$\hat{p}_{Yg} = \frac{\nu_{*g}}{n}$$То есть берём соответствующие маргинальные суммы из таблицы сопряжённости и делим на $n$.
4.6. Степени свободы
Шаг 1. Если $p_{Xi}$ и $p_{Yg}$ известны:
- Количество значений: $M \cdot N$
- Степеней свободы: $MN - 1$
Шаг 2. На самом деле $p_{Xi}$ и $p_{Yg}$ неизвестны:
- Количество неизвестных в $p_X$: $N - 1$ (с учётом уравнения связи)
- Количество неизвестных в $p_Y$: $M - 1$
Итог:
$$\text{df} = MN - 1 - (N-1) - (M-1) = MN - N - M + 1$$Раскладываем (выносим $N$ за скобку):
$$\text{df} = N(M-1) - (M-1) = (N-1)(M-1)$$$$\boxed{\text{df} = (N-1)(M-1)}$$Критическая область: правосторонняя (как и во всех модификациях критерия согласия Пирсона).
4.7. Зачем нам нужны степени свободы?
Степени свободы нужны для того, чтобы:
- Посчитать критическую область: для правосторонней области рассматриваем квантиль уровня $1 - \alpha$ распределения $\chi^2$, а это распределение задаётся именно числом степеней свободы.
- Посчитать p-value: $\text{p-value} = 1 - \text{CDF}(\text{stat})$ — функция распределения тоже зависит от количества степеней свободы.
4.8. Пример: вакцина и здоровье (данные о болезни)
В коде использована готовая реализация, которая считает таблицу сопряжённости автоматически.
Результат:
- Статистика $\chi^2 \approx 26{,}01$
- p-value очень маленький
Вывод: гипотеза независимости отвергается $\Rightarrow$ можно говорить о том, что вакцина влияет на здоровье.
Замечание (тизер): в примере с вакцинами интереснее доказать не просто, что вакцина влияет, а что она влияет в положительную сторону. Критерий можно соответствующим образом модифицировать. Это будет рассмотрено в следующих лекциях.