Карточки Anki
Скачайте колоды для интервального повторения
Лекция 10: Статистические тесты
1. Критерий на коэффициент корреляции Пирсона
Постановка задачи
Пусть имеется парная выборка:
$$(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$$При условии: выборка пришла из двумерного нормального (гауссовского) распределения.
Гипотезы
- Нулевая гипотеза $H_0$: $\mathrm{cov}(X, Y) = 0$, что эквивалентно $\rho_{X,Y} = 0$ (теоретический коэффициент корреляции равен нулю).
- Альтернативная гипотеза $H_1$: $\rho \neq 0$, $\rho > 0$ или $\rho < 0$ (альтернативу можно специфицировать).
Статистика критерия
$$t = \frac{\sqrt{n - 2} \cdot \hat{\rho}_{\text{Pearson}}}{\sqrt{1 - \hat{\rho}^2_{\text{Pearson}}}}$$где $\hat{\rho}_{\text{Pearson}}$ — выборочный коэффициент корреляции Пирсона:
$$\hat{\rho}_{\text{Pearson}} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}}$$Распределение статистики
При условии истинности $H_0$ статистика $t$ имеет распределение Стьюдента с $n - 2$ степенями свободы.
Замечание Ивана Александровича: формальный вывод этого факта довольно громоздкий, поэтому на лекции даётся только формулировка.
Важное замечание о связи с независимостью
Вспомним общее соотношение:
- Из независимости $\Rightarrow$ некоррелированность (всегда верно).
- Обратная импликация в общем случае неверна.
Однако для компонент гауссовского вектора обратная стрелочка работает: некоррелированность $\Leftrightarrow$ независимость. Это один из специальных случаев.
Следствия:
- Если $(X, Y)$ — гауссовский вектор, то критерий проверяет независимость (по-честному).
- Гипотетически тест Стьюдента можно использовать и для негауссовской выборки, но тогда проверяется только некоррелированность (более слабое условие).
- Для негауссовских выборок критерий лучше использовать при достаточно больших $n$, поскольку при больших $n$ распределение Стьюдента становится близким к стандартному нормальному (вспомните формальное определение распределения Стьюдента).
Уточнение: «достаточно большое $n$» относится именно ко второму случаю (негауссовская выборка). Если выборка гауссовская — критерий работает при любом $n \geq 3$.
2. Критерий квантилей
Постановка задачи
Заданы:
- Числа $q_1 < q_2 < \ldots < q_N$
- Числа $p_1 < p_2 < \ldots < p_N$
Выборка пришла из непрерывного распределения.
Гипотезы
Нулевая гипотеза $H_0$:
$$F(q_1) = p_1, \quad F(q_2) = p_2, \quad \ldots, \quad F(q_N) = p_N$$То есть проверяется, что $q_k$ — квантиль порядка $p_k$ для всех $k = 1, \ldots, N$.
Альтернативная гипотеза $H_1$: отрицание $H_0$.
Замечание: в общем случае $H_1$ не обязательно является отрицанием $H_0$, но в этой конкретной ситуации это так.
Дополнительные обозначения
Введём:
- $q_0 = -\infty$, $q_{N+1} = +\infty$
- $p_0 = 0$, $p_{N+1} = 1$
Разобьём вещественную ось на полуинтервалы:
- $\Delta_1 = [q_0, q_1) = (-\infty, q_1)$
- $\Delta_2 = [q_1, q_2)$
- $\ldots$
- $\Delta_N = [q_{N-1}, q_N)$
- $\Delta_{N+1} = [q_N, q_{N+1}) = [q_N, +\infty)$
Введём приращения вероятностей:
- $\Delta p_1 = p_1 - p_0$
- $\Delta p_2 = p_2 - p_1$
- $\ldots$
- $\Delta p_N = p_N - p_{N-1}$
- $\Delta p_{N+1} = p_{N+1} - p_N$
Эквивалентная формулировка $H_0$
Система $H_0$ равносильна тому, что:
$$\mathbb{P}(X \in \Delta_k) = \Delta p_k, \quad k = 1, \ldots, N+1$$То есть вероятность попадания в каждый интервал $\Delta_k$ равна $\Delta p_k$.
Сведение к критерию согласия Пирсона $\chi^2$
Пусть $\nu_k$ — количество элементов выборки, попавших в промежуток $\Delta_k$. Тогда задача сводится к критерию согласия Пирсона со статистикой:
$$\chi^2 = \sum_{k=1}^{N+1} \frac{(\nu_k - n \Delta p_k)^2}{n \Delta p_k}$$где $n$ — объём выборки.
Распределение статистики и критическая область
При условии истинности $H_0$:
$$\chi^2 \xrightarrow{d} \chi^2_{N}$$То есть распределение $\chi^2$ с $N$ степенями свободы (количество интервалов $N+1$ минус 1, как для простой гипотезы в критерии Пирсона).
Тип критической области: правосторонний (как и в критерии согласия Пирсона).
3. Критерий знаков (как частный случай критерия квантилей)
Постановка
Возьмём $N = 1$, $p_1 = \frac{1}{2}$. Тогда получаем критерий знаков.
Гипотеза
Проверяется:
$$F(c_0) = \frac{1}{2}$$То есть верно ли, что медиана равна заданной константе $c_0$.
Статистика критерия
Поскольку у $\chi^2$ только одна степень свободы, можно думать о статистике как о квадрате стандартной гауссовской величины. Поэтому используем без квадрата:
$$Z = \frac{\nu_1 - \frac{n}{2}}{\sqrt{n \cdot \frac{1}{2} \cdot \frac{1}{2}}} = \frac{\nu_1 - \frac{n}{2}}{\frac{\sqrt{n}}{2}}$$где $\nu_1$ — количество чисел в выборке, меньших потенциальной медианы $c_0$ (то есть попавших в $\Delta_1$).
Не возводим в квадрат, потому что хотим извлечь корень — рассматриваем сразу величину, сходящуюся к стандартному нормальному распределению по ЦПТ.
Распределение
При $H_0$ (по ЦПТ):
$$Z \xrightarrow{d} \mathcal{N}(0, 1)$$Альтернативы
Поскольку в пределе стандартное гауссовское распределение, альтернативы можно специфицировать:
- $c \neq c_0$ (двусторонняя)
- $c > c_0$ (правосторонняя)
- $c < c_0$ (левосторонняя)
Историческое замечание: ранее (в курсе) уже доказывался критерий согласия Пирсона для случая двух значений — и там получалось $p$ и $1 - p$, что как раз согласуется с настоящей формулировкой.
4. Применение критерия знаков к парной выборке
Постановка
Пусть имеется парная выборка:
$$(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$$где обе компоненты имеют непрерывные распределения.
Гипотеза
$$H_0: \quad F_{X,Y}(x, y) = F_X(x) \cdot F_Y(y), \quad F_X = F_Y$$То есть $X$ и $Y$:
- независимы
- одинаково распределены
Метод
Составляем новую выборку из разностей:
$$U_i = X_i - Y_i$$Найдём $\mathbb{P}(U > 0)$ при условии $H_0$:
$$\mathbb{P}(U > 0) = \mathbb{P}(X - Y > 0) = \iint_{x - y > 0} p(x, y) \, dx \, dy$$При $H_0$ совместная плотность есть произведение одинаковых одномерных плотностей:
$$p(x, y) = p(x) \cdot p(y)$$Тогда:
$$\mathbb{P}(X > Y) = \iint_{x > y} p(x) p(y) \, dx \, dy = \frac{1}{2}$$Почему $\frac{1}{2}$? При перемене местами $x$ и $y$ подынтегральная функция не меняется. А плоскость разбивается на две равные части, и интеграл по всей плоскости равен 1. Значит, по симметрии каждый интеграл равен $\frac{1}{2}$.
Аналогично $\mathbb{P}(U < 0) = \frac{1}{2}$.
Вывод
Это означает, что 0 является медианой распределения $U = X - Y$.
Поэтому к новой выборке $\{U_i\}$ применяем критерий знаков с $c_0 = 0$.
Важное замечание: критерий знаков для такой задачи годится для предварительного анализа (по словам Ивана Александровича, неформально).
5. Ранговые критерии
Понятие ранга
Ранг элемента выборки — это его индекс в вариационном ряде (отсортированная по возрастанию выборка).
Проблема повторов
Если в выборке есть повторяющиеся значения, ранг можно определить разными способами:
Пример: выборка $(3, 1, 3, 1, 1, 2)$.
Вариационный ряд: $1, 1, 1, 2, 3, 3$.
Возможные подходы определения ранга:
- Минимальный ранг — берётся минимальный из возможных рангов для группы повторов.
- Ранг тройки = 5, ранг единицы = 1, ранг двойки = 4.
- Максимальный ранг.
- Ранг тройки = 6, ранг единицы = 3, ранг двойки = 4.
- Средний (среднеарифметический) ранг.
- Ранг тройки = 5.5, ранг единицы = 2, ранг двойки = 4.
- Различие между одинаковыми элементами — присваиваем разным «единичкам» разные ранги в порядке появления:
- Получится, например: $(5, 1, 6, 2, 3, 4)$ для исходной $(3, 1, 3, 1, 1, 2)$.
Практическое замечание: при использовании рангового стат-теста нужно внимательно смотреть, как авторы/разработчики поступают с дублированными рангами. Дальнейшее изложение предполагает, что все ранги уникальны.
6. Критерий Уилкоксона / Манна–Уитни (Wilcoxon–Mann–Whitney)
Замечание: формально это два разных теста, но они очень тесно связаны (аналогично критериям Колмогорова–Смирнова), поэтому их объединяют.
Постановка
Пусть есть две независимые выборки:
- $X = (X_1, \ldots, X_m)$
- $Y = (Y_1, \ldots, Y_n)$
(возможно, разных объёмов).
Действие: объединяем их в одну выборку (union to one sample). Пусть $R_i$ — ранг $X_i$ в объединённой выборке.
Статистика Уилкоксона
$$T = R_1 + R_2 + \ldots + R_m = \sum_{i=1}^{m} R_i$$(сумма рангов первой выборки в объединённой).
Статистика Манна–Уитни
$$U_1 = \sum_{r=1}^{m} \sum_{s=1}^{n} \mathbb{I}\{X_r < Y_s\}$$где $\mathbb{I}\{\cdot\}$ — индикаторная функция (1, если $X_r < Y_s$; 0 иначе).
Связь между статистиками
Эти две статистики связаны линейно:
$$T + U_1 = m \cdot n + \frac{n(n+1)}{2}$$Это соотношение даётся без доказательства («просто так работает»).
Гипотезы (для критерия Манна–Уитни)
Нулевая гипотеза $H_0$: выборки однородны — распределение $X$ совпадает с распределением $Y$.
Математическое ожидание $U_1$
$$\mathbb{E}[U_1] = m \cdot n \cdot \mathbb{P}(X_r < Y_s)$$Если $H_0$ верна (то есть $X$ и $Y$ имеют одинаковое распределение, и обсуждавшимся выше способом), то:
$$\mathbb{P}(X_r < Y_s) = \frac{1}{2}$$Отсюда:
$$\mathbb{E}[U_1] \big|_{H_0} = \frac{m n}{2}$$Обозначим $a = \mathbb{P}(X_r < Y_s)$. При $H_0$: $a = \frac{1}{2}$.
Дисперсия
$$\mathrm{Var}(U_1) \big|_{H_0} = \frac{m n (n + m + 1)}{12}$$Альтернативы
Альтернативы формулируются через $a$ или, эквивалентно, через медиану разности:
- $a \neq \frac{1}{2}$
- $a > \frac{1}{2}$
- $a < \frac{1}{2}$
Это эквивалентно условию $X = Y + c$ (то есть сдвиг распределения).
Важная ремарка: критерий Манна–Уитни хорошо ловит именно сдвиги распределений.
Распределение статистики
- При малых $m$ и $n$ — критическая область табулирована.
- При больших $m$ и $n$: $$U_1 \approx \mathcal{N}\left(\frac{m n}{2}, \, \frac{m n (n + m + 1)}{12}\right)$$
7. Коэффициент корреляции Спирмена
Постановка
Парная выборка $(X_1, Y_1), \ldots, (X_n, Y_n)$.
Сопоставим каждому элементу его ранг в своей выборке:
- $R_k$ — ранг $X_k$ среди $X_1, \ldots, X_n$
- $S_k$ — ранг $Y_k$ среди $Y_1, \ldots, Y_n$
Определение
Коэффициент корреляции Спирмена — это выборочный коэффициент корреляции Пирсона между рангами:
$$\hat{\rho}_{\text{Spearman}} = \hat{\rho}_{\text{Pearson}}(R, S)$$Замечание: для уникальных рангов существуют упрощённые формулы для подсчёта (см. Ивченко–Медведев, Кобзарь).
Гипотезы
- $H_0$: корреляция равна 0
- $H_1$: корреляция $\neq 0$, $> 0$ или $< 0$
В зависимости от альтернативы выбирается тип критической области (двусторонняя, правосторонняя, левосторонняя).
Распределение статистики
- При малых $n$ — табулировано.
- При больших $n$ при условии $H_0$: $$\text{статистика} \xrightarrow{d} \mathcal{N}(0, 1)$$
8. Коэффициент корреляции Кендалла
Подготовка
Имеется последовательность пар рангов $(R_1, S_1), \ldots, (R_n, S_n)$.
Шаг 1. Рассмотрим эти пары как датафрейм с двумя столбцами и отсортируем по первому атрибуту. После сортировки первый столбец становится $1, 2, 3, \ldots, n$, а второй столбец — некоторая перестановка $T_1, T_2, \ldots, T_n$.
Определение
Коэффициент корреляции Кендалла:
$$\tau = \frac{2}{n(n-1)} \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} \mathrm{sgn}(T_j - T_i)$$где $\mathrm{sgn}(x)$ — функция знака:
$$\mathrm{sgn}(x) = \begin{cases} +1, & x > 0 \\ -1, & x < 0 \\ 0, & x = 0 \text{ (по соглашению)} \end{cases}$$Интуиция
После сортировки по первому ключу мы смотрим на вторую строку и считаем количество инверсий (точнее, разность между конкордантными и дисконкордантными парами).
Предельные случаи
| Ситуация после сортировки | Кол-во инверсий | $\tau$ |
|---|---|---|
| Полностью отсортировано по возрастанию | 0 | $+1$ |
| Полностью отсортировано по убыванию | $\frac{n(n-1)}{2}$ (максимум) | $-1$ |
| Перемешано случайно | около среднего | около 0 |
Смысл: чем ближе $\tau$ к 0, тем более «случайной» (независимой) считается выборка. Количество инверсий — это мера случайности, мера отсутствия зависимости.
Распределение
- При малых $n$ — табулировано.
- При больших $n$ — нормальная аппроксимация: $$\tau \approx \mathcal{N}\left(0, \, \frac{4}{9n}\right)$$
Гипотезы
- $H_0$: корреляции нет
- $H_1$: корреляция $\neq 0$, $> 0$ или $< 0$
Замечание о тестах Спирмена и Кендалла
Оба теста (Спирмена и Кендалла) хорошо ловят монотонную зависимость.
Предостережение Ивана Александровича: будут показаны примеры в notebook, где тест принимает $H_0$ (отсутствие зависимости), но выборки на самом деле зависимы (немонотонная зависимость).
9. Критерий инверсий
Зачем нужен этот критерий
До сих пор все рассмотренные тесты предполагали работу с моделью простейшей выборки (одной или нескольких). Но это сильное предположение — далеко не все выборки простейшие. Есть тесты, которые проверяют согласованность данных с моделью простейшей выборки.
Что такое модель простейшей выборки
Случайные величины независимы и одинаково распределены (i.i.d.).
Постановка
Пусть имеются $X_1, X_2, \ldots, X_n$ — непрерывные случайные величины (это важное предположение).
Гипотезы
$H_0$: величины $X_1, \ldots, X_n$:
- (а) независимы
- (б) одинаково распределены
То есть совместная функция распределения есть произведение одномерных и при этом они одинаковые. Иными словами, числа соответствуют модели простейшей выборки.
$H_1$: $\neg H_0$.
Определение инверсии
Пара $(X_i, X_j)$ при $i < j$ образует инверсию, если $X_j < X_i$.
Иными словами, в вариационном ряду $X_j$ предшествует $X_i$.
Статистика
- $t_1$ — количество инверсий для $X_1$ (т.е. число пар $X_1, X_j$ при $j > 1$, образующих инверсию).
- $t_2$ — количество инверсий для $X_2$.
- $\ldots$
- $t_{n-1}$ — количество инверсий для $X_{n-1}$.
Статистика теста:
$$N = \sum_{i=1}^{n-1} t_i$$— общее количество инверсий во всей выборке.
Идея критерия
Если $H_0$ верна, то:
$$\mathbb{P}(\text{любой перестановки}) = \frac{1}{n!}$$То есть все возможные расстановки равновероятны.
Предельные случаи
| Ситуация | Количество инверсий $N$ |
|---|---|
| Выборка отсортирована по возрастанию | 0 |
| Выборка отсортирована по убыванию | $\frac{n(n-1)}{2}$ |
| Перемешана случайно | около среднего |
Если числа полностью отсортированы — индикатор того, что они вряд ли случайны. Если перемешаны — скорее случайны.
Распределение
При малых $n$ — распределение $N$ табулировано.
При больших $n$ — нормальная аппроксимация:
$$N \approx \mathcal{N}\left(\frac{n(n-1)}{4}, \, \frac{n(n-1)(2n+5)}{72}\right)$$Уточнение: мат. ожидание $\frac{n(n-1)}{4}$ — это ровно половина максимального количества инверсий.
Откуда формулы: во-первых, $t_i$ независимы между собой; во-вторых, формулы можно получить через производящие функции (тесно связанные с характеристическими функциями). Подробный вывод см. в Ивченко–Медведев.
Заключительные замечания
Сводка рассмотренных тестов на лекции
| Тест | Что проверяет | Ключевое предположение |
|---|---|---|
| Критерий Пирсона (на корреляцию) | $\rho_{XY} = 0$ | гауссовский вектор |
| Критерий квантилей | $F(q_k) = p_k$ | непрерывное распределение |
| Критерий знаков | медиана $= c_0$ | непрерывное распределение |
| Манна–Уитни / Уилкоксона | однородность двух выборок | независимость выборок, ловит сдвиг |
| Спирмена | независимость в парной выборке | монотонная зависимость |
| Кендалла | независимость в парной выборке | монотонная зависимость |
| Критерий инверсий | модель простейшей выборки (i.i.d.) | непрерывные случайные величины |
Главная мысль Ивана Александровича
Хотя тестов было рассмотрено много, на самом деле это лишь малая часть. Самое важное на этом этапе — уловить общий принцип работы стат-теста. Тогда при необходимости в конкретной задаче вы сможете самостоятельно подобрать подходящий тест и разобраться с ним.
Что дальше
Со следующего занятия начнётся новая большая тема — линейные статистические модели. Метод наименьших квадратов и линейная регрессия будут рассмотрены со статистической точки зрения.