Лекция 10

08.04.2026 Обновлено: 08.04.2026

Лекция 10: Статистические тесты

1. Критерий на коэффициент корреляции Пирсона

Постановка задачи

Пусть имеется парная выборка:

$$(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$$

При условии: выборка пришла из двумерного нормального (гауссовского) распределения.

Гипотезы

  • Нулевая гипотеза $H_0$: $\mathrm{cov}(X, Y) = 0$, что эквивалентно $\rho_{X,Y} = 0$ (теоретический коэффициент корреляции равен нулю).
  • Альтернативная гипотеза $H_1$: $\rho \neq 0$, $\rho > 0$ или $\rho < 0$ (альтернативу можно специфицировать).

Статистика критерия

$$t = \frac{\sqrt{n - 2} \cdot \hat{\rho}_{\text{Pearson}}}{\sqrt{1 - \hat{\rho}^2_{\text{Pearson}}}}$$

где $\hat{\rho}_{\text{Pearson}}$ — выборочный коэффициент корреляции Пирсона:

$$\hat{\rho}_{\text{Pearson}} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \cdot \sum_{i=1}^{n} (y_i - \bar{y})^2}}$$

Распределение статистики

При условии истинности $H_0$ статистика $t$ имеет распределение Стьюдента с $n - 2$ степенями свободы.

Замечание Ивана Александровича: формальный вывод этого факта довольно громоздкий, поэтому на лекции даётся только формулировка.

Важное замечание о связи с независимостью

Вспомним общее соотношение:

  • Из независимости $\Rightarrow$ некоррелированность (всегда верно).
  • Обратная импликация в общем случае неверна.

Однако для компонент гауссовского вектора обратная стрелочка работает: некоррелированность $\Leftrightarrow$ независимость. Это один из специальных случаев.

Следствия:

  • Если $(X, Y)$ — гауссовский вектор, то критерий проверяет независимость (по-честному).
  • Гипотетически тест Стьюдента можно использовать и для негауссовской выборки, но тогда проверяется только некоррелированность (более слабое условие).
  • Для негауссовских выборок критерий лучше использовать при достаточно больших $n$, поскольку при больших $n$ распределение Стьюдента становится близким к стандартному нормальному (вспомните формальное определение распределения Стьюдента).

Уточнение: «достаточно большое $n$» относится именно ко второму случаю (негауссовская выборка). Если выборка гауссовская — критерий работает при любом $n \geq 3$.


2. Критерий квантилей

Постановка задачи

Заданы:

  • Числа $q_1 < q_2 < \ldots < q_N$
  • Числа $p_1 < p_2 < \ldots < p_N$

Выборка пришла из непрерывного распределения.

Гипотезы

Нулевая гипотеза $H_0$:

$$F(q_1) = p_1, \quad F(q_2) = p_2, \quad \ldots, \quad F(q_N) = p_N$$

То есть проверяется, что $q_k$ — квантиль порядка $p_k$ для всех $k = 1, \ldots, N$.

Альтернативная гипотеза $H_1$: отрицание $H_0$.

Замечание: в общем случае $H_1$ не обязательно является отрицанием $H_0$, но в этой конкретной ситуации это так.

Дополнительные обозначения

Введём:

  • $q_0 = -\infty$, $q_{N+1} = +\infty$
  • $p_0 = 0$, $p_{N+1} = 1$

Разобьём вещественную ось на полуинтервалы:

  • $\Delta_1 = [q_0, q_1) = (-\infty, q_1)$
  • $\Delta_2 = [q_1, q_2)$
  • $\ldots$
  • $\Delta_N = [q_{N-1}, q_N)$
  • $\Delta_{N+1} = [q_N, q_{N+1}) = [q_N, +\infty)$

Введём приращения вероятностей:

  • $\Delta p_1 = p_1 - p_0$
  • $\Delta p_2 = p_2 - p_1$
  • $\ldots$
  • $\Delta p_N = p_N - p_{N-1}$
  • $\Delta p_{N+1} = p_{N+1} - p_N$

Эквивалентная формулировка $H_0$

Система $H_0$ равносильна тому, что:

$$\mathbb{P}(X \in \Delta_k) = \Delta p_k, \quad k = 1, \ldots, N+1$$

То есть вероятность попадания в каждый интервал $\Delta_k$ равна $\Delta p_k$.

Сведение к критерию согласия Пирсона $\chi^2$

Пусть $\nu_k$ — количество элементов выборки, попавших в промежуток $\Delta_k$. Тогда задача сводится к критерию согласия Пирсона со статистикой:

$$\chi^2 = \sum_{k=1}^{N+1} \frac{(\nu_k - n \Delta p_k)^2}{n \Delta p_k}$$

где $n$ — объём выборки.

Распределение статистики и критическая область

При условии истинности $H_0$:

$$\chi^2 \xrightarrow{d} \chi^2_{N}$$

То есть распределение $\chi^2$ с $N$ степенями свободы (количество интервалов $N+1$ минус 1, как для простой гипотезы в критерии Пирсона).

Тип критической области: правосторонний (как и в критерии согласия Пирсона).


3. Критерий знаков (как частный случай критерия квантилей)

Постановка

Возьмём $N = 1$, $p_1 = \frac{1}{2}$. Тогда получаем критерий знаков.

Гипотеза

Проверяется:

$$F(c_0) = \frac{1}{2}$$

То есть верно ли, что медиана равна заданной константе $c_0$.

Статистика критерия

Поскольку у $\chi^2$ только одна степень свободы, можно думать о статистике как о квадрате стандартной гауссовской величины. Поэтому используем без квадрата:

$$Z = \frac{\nu_1 - \frac{n}{2}}{\sqrt{n \cdot \frac{1}{2} \cdot \frac{1}{2}}} = \frac{\nu_1 - \frac{n}{2}}{\frac{\sqrt{n}}{2}}$$

где $\nu_1$ — количество чисел в выборке, меньших потенциальной медианы $c_0$ (то есть попавших в $\Delta_1$).

Не возводим в квадрат, потому что хотим извлечь корень — рассматриваем сразу величину, сходящуюся к стандартному нормальному распределению по ЦПТ.

Распределение

При $H_0$ (по ЦПТ):

$$Z \xrightarrow{d} \mathcal{N}(0, 1)$$

Альтернативы

Поскольку в пределе стандартное гауссовское распределение, альтернативы можно специфицировать:

  • $c \neq c_0$ (двусторонняя)
  • $c > c_0$ (правосторонняя)
  • $c < c_0$ (левосторонняя)

Историческое замечание: ранее (в курсе) уже доказывался критерий согласия Пирсона для случая двух значений — и там получалось $p$ и $1 - p$, что как раз согласуется с настоящей формулировкой.


4. Применение критерия знаков к парной выборке

Постановка

Пусть имеется парная выборка:

$$(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$$

где обе компоненты имеют непрерывные распределения.

Гипотеза

$$H_0: \quad F_{X,Y}(x, y) = F_X(x) \cdot F_Y(y), \quad F_X = F_Y$$

То есть $X$ и $Y$:

  • независимы
  • одинаково распределены

Метод

Составляем новую выборку из разностей:

$$U_i = X_i - Y_i$$

Найдём $\mathbb{P}(U > 0)$ при условии $H_0$:

$$\mathbb{P}(U > 0) = \mathbb{P}(X - Y > 0) = \iint_{x - y > 0} p(x, y) \, dx \, dy$$

При $H_0$ совместная плотность есть произведение одинаковых одномерных плотностей:

$$p(x, y) = p(x) \cdot p(y)$$

Тогда:

$$\mathbb{P}(X > Y) = \iint_{x > y} p(x) p(y) \, dx \, dy = \frac{1}{2}$$

Почему $\frac{1}{2}$? При перемене местами $x$ и $y$ подынтегральная функция не меняется. А плоскость разбивается на две равные части, и интеграл по всей плоскости равен 1. Значит, по симметрии каждый интеграл равен $\frac{1}{2}$.

Аналогично $\mathbb{P}(U < 0) = \frac{1}{2}$.

Вывод

Это означает, что 0 является медианой распределения $U = X - Y$.

Поэтому к новой выборке $\{U_i\}$ применяем критерий знаков с $c_0 = 0$.

Важное замечание: критерий знаков для такой задачи годится для предварительного анализа (по словам Ивана Александровича, неформально).


5. Ранговые критерии

Понятие ранга

Ранг элемента выборки — это его индекс в вариационном ряде (отсортированная по возрастанию выборка).

Проблема повторов

Если в выборке есть повторяющиеся значения, ранг можно определить разными способами:

Пример: выборка $(3, 1, 3, 1, 1, 2)$.

Вариационный ряд: $1, 1, 1, 2, 3, 3$.

Возможные подходы определения ранга:

  1. Минимальный ранг — берётся минимальный из возможных рангов для группы повторов.
    • Ранг тройки = 5, ранг единицы = 1, ранг двойки = 4.
  2. Максимальный ранг.
    • Ранг тройки = 6, ранг единицы = 3, ранг двойки = 4.
  3. Средний (среднеарифметический) ранг.
    • Ранг тройки = 5.5, ранг единицы = 2, ранг двойки = 4.
  4. Различие между одинаковыми элементами — присваиваем разным «единичкам» разные ранги в порядке появления:
    • Получится, например: $(5, 1, 6, 2, 3, 4)$ для исходной $(3, 1, 3, 1, 1, 2)$.

Практическое замечание: при использовании рангового стат-теста нужно внимательно смотреть, как авторы/разработчики поступают с дублированными рангами. Дальнейшее изложение предполагает, что все ранги уникальны.


6. Критерий Уилкоксона / Манна–Уитни (Wilcoxon–Mann–Whitney)

Замечание: формально это два разных теста, но они очень тесно связаны (аналогично критериям Колмогорова–Смирнова), поэтому их объединяют.

Постановка

Пусть есть две независимые выборки:

  • $X = (X_1, \ldots, X_m)$
  • $Y = (Y_1, \ldots, Y_n)$

(возможно, разных объёмов).

Действие: объединяем их в одну выборку (union to one sample). Пусть $R_i$ — ранг $X_i$ в объединённой выборке.

Статистика Уилкоксона

$$T = R_1 + R_2 + \ldots + R_m = \sum_{i=1}^{m} R_i$$

(сумма рангов первой выборки в объединённой).

Статистика Манна–Уитни

$$U_1 = \sum_{r=1}^{m} \sum_{s=1}^{n} \mathbb{I}\{X_r < Y_s\}$$

где $\mathbb{I}\{\cdot\}$ — индикаторная функция (1, если $X_r < Y_s$; 0 иначе).

Связь между статистиками

Эти две статистики связаны линейно:

$$T + U_1 = m \cdot n + \frac{n(n+1)}{2}$$

Это соотношение даётся без доказательства («просто так работает»).

Гипотезы (для критерия Манна–Уитни)

Нулевая гипотеза $H_0$: выборки однородны — распределение $X$ совпадает с распределением $Y$.

Математическое ожидание $U_1$

$$\mathbb{E}[U_1] = m \cdot n \cdot \mathbb{P}(X_r < Y_s)$$

Если $H_0$ верна (то есть $X$ и $Y$ имеют одинаковое распределение, и обсуждавшимся выше способом), то:

$$\mathbb{P}(X_r < Y_s) = \frac{1}{2}$$

Отсюда:

$$\mathbb{E}[U_1] \big|_{H_0} = \frac{m n}{2}$$

Обозначим $a = \mathbb{P}(X_r < Y_s)$. При $H_0$: $a = \frac{1}{2}$.

Дисперсия

$$\mathrm{Var}(U_1) \big|_{H_0} = \frac{m n (n + m + 1)}{12}$$

Альтернативы

Альтернативы формулируются через $a$ или, эквивалентно, через медиану разности:

  • $a \neq \frac{1}{2}$
  • $a > \frac{1}{2}$
  • $a < \frac{1}{2}$

Это эквивалентно условию $X = Y + c$ (то есть сдвиг распределения).

Важная ремарка: критерий Манна–Уитни хорошо ловит именно сдвиги распределений.

Распределение статистики

  • При малых $m$ и $n$ — критическая область табулирована.
  • При больших $m$ и $n$: $$U_1 \approx \mathcal{N}\left(\frac{m n}{2}, \, \frac{m n (n + m + 1)}{12}\right)$$

7. Коэффициент корреляции Спирмена

Постановка

Парная выборка $(X_1, Y_1), \ldots, (X_n, Y_n)$.

Сопоставим каждому элементу его ранг в своей выборке:

  • $R_k$ — ранг $X_k$ среди $X_1, \ldots, X_n$
  • $S_k$ — ранг $Y_k$ среди $Y_1, \ldots, Y_n$

Определение

Коэффициент корреляции Спирмена — это выборочный коэффициент корреляции Пирсона между рангами:

$$\hat{\rho}_{\text{Spearman}} = \hat{\rho}_{\text{Pearson}}(R, S)$$

Замечание: для уникальных рангов существуют упрощённые формулы для подсчёта (см. Ивченко–Медведев, Кобзарь).

Гипотезы

  • $H_0$: корреляция равна 0
  • $H_1$: корреляция $\neq 0$, $> 0$ или $< 0$

В зависимости от альтернативы выбирается тип критической области (двусторонняя, правосторонняя, левосторонняя).

Распределение статистики

  • При малых $n$ — табулировано.
  • При больших $n$ при условии $H_0$: $$\text{статистика} \xrightarrow{d} \mathcal{N}(0, 1)$$

8. Коэффициент корреляции Кендалла

Подготовка

Имеется последовательность пар рангов $(R_1, S_1), \ldots, (R_n, S_n)$.

Шаг 1. Рассмотрим эти пары как датафрейм с двумя столбцами и отсортируем по первому атрибуту. После сортировки первый столбец становится $1, 2, 3, \ldots, n$, а второй столбец — некоторая перестановка $T_1, T_2, \ldots, T_n$.

Определение

Коэффициент корреляции Кендалла:

$$\tau = \frac{2}{n(n-1)} \sum_{i=1}^{n-1} \sum_{j=i+1}^{n} \mathrm{sgn}(T_j - T_i)$$

где $\mathrm{sgn}(x)$ — функция знака:

$$\mathrm{sgn}(x) = \begin{cases} +1, & x > 0 \\ -1, & x < 0 \\ 0, & x = 0 \text{ (по соглашению)} \end{cases}$$

Интуиция

После сортировки по первому ключу мы смотрим на вторую строку и считаем количество инверсий (точнее, разность между конкордантными и дисконкордантными парами).

Предельные случаи

Ситуация после сортировкиКол-во инверсий$\tau$
Полностью отсортировано по возрастанию0$+1$
Полностью отсортировано по убыванию$\frac{n(n-1)}{2}$ (максимум)$-1$
Перемешано случайнооколо среднегооколо 0

Смысл: чем ближе $\tau$ к 0, тем более «случайной» (независимой) считается выборка. Количество инверсий — это мера случайности, мера отсутствия зависимости.

Распределение

  • При малых $n$ — табулировано.
  • При больших $n$ — нормальная аппроксимация: $$\tau \approx \mathcal{N}\left(0, \, \frac{4}{9n}\right)$$

Гипотезы

  • $H_0$: корреляции нет
  • $H_1$: корреляция $\neq 0$, $> 0$ или $< 0$

Замечание о тестах Спирмена и Кендалла

Оба теста (Спирмена и Кендалла) хорошо ловят монотонную зависимость.

Предостережение Ивана Александровича: будут показаны примеры в notebook, где тест принимает $H_0$ (отсутствие зависимости), но выборки на самом деле зависимы (немонотонная зависимость).


9. Критерий инверсий

Зачем нужен этот критерий

До сих пор все рассмотренные тесты предполагали работу с моделью простейшей выборки (одной или нескольких). Но это сильное предположение — далеко не все выборки простейшие. Есть тесты, которые проверяют согласованность данных с моделью простейшей выборки.

Что такое модель простейшей выборки

Случайные величины независимы и одинаково распределены (i.i.d.).

Постановка

Пусть имеются $X_1, X_2, \ldots, X_n$ — непрерывные случайные величины (это важное предположение).

Гипотезы

$H_0$: величины $X_1, \ldots, X_n$:

  • (а) независимы
  • (б) одинаково распределены

То есть совместная функция распределения есть произведение одномерных и при этом они одинаковые. Иными словами, числа соответствуют модели простейшей выборки.

$H_1$: $\neg H_0$.

Определение инверсии

Пара $(X_i, X_j)$ при $i < j$ образует инверсию, если $X_j < X_i$.

Иными словами, в вариационном ряду $X_j$ предшествует $X_i$.

Статистика

  • $t_1$ — количество инверсий для $X_1$ (т.е. число пар $X_1, X_j$ при $j > 1$, образующих инверсию).
  • $t_2$ — количество инверсий для $X_2$.
  • $\ldots$
  • $t_{n-1}$ — количество инверсий для $X_{n-1}$.

Статистика теста:

$$N = \sum_{i=1}^{n-1} t_i$$

— общее количество инверсий во всей выборке.

Идея критерия

Если $H_0$ верна, то:

$$\mathbb{P}(\text{любой перестановки}) = \frac{1}{n!}$$

То есть все возможные расстановки равновероятны.

Предельные случаи

СитуацияКоличество инверсий $N$
Выборка отсортирована по возрастанию0
Выборка отсортирована по убыванию$\frac{n(n-1)}{2}$
Перемешана случайнооколо среднего

Если числа полностью отсортированы — индикатор того, что они вряд ли случайны. Если перемешаны — скорее случайны.

Распределение

  • При малых $n$ — распределение $N$ табулировано.

  • При больших $n$ — нормальная аппроксимация:

    $$N \approx \mathcal{N}\left(\frac{n(n-1)}{4}, \, \frac{n(n-1)(2n+5)}{72}\right)$$

    Уточнение: мат. ожидание $\frac{n(n-1)}{4}$ — это ровно половина максимального количества инверсий.

    Откуда формулы: во-первых, $t_i$ независимы между собой; во-вторых, формулы можно получить через производящие функции (тесно связанные с характеристическими функциями). Подробный вывод см. в Ивченко–Медведев.


Заключительные замечания

Сводка рассмотренных тестов на лекции

ТестЧто проверяетКлючевое предположение
Критерий Пирсона (на корреляцию)$\rho_{XY} = 0$гауссовский вектор
Критерий квантилей$F(q_k) = p_k$непрерывное распределение
Критерий знаковмедиана $= c_0$непрерывное распределение
Манна–Уитни / Уилкоксонаоднородность двух выборокнезависимость выборок, ловит сдвиг
Спирменанезависимость в парной выборкемонотонная зависимость
Кендалланезависимость в парной выборкемонотонная зависимость
Критерий инверсиймодель простейшей выборки (i.i.d.)непрерывные случайные величины

Главная мысль Ивана Александровича

Хотя тестов было рассмотрено много, на самом деле это лишь малая часть. Самое важное на этом этапе — уловить общий принцип работы стат-теста. Тогда при необходимости в конкретной задаче вы сможете самостоятельно подобрать подходящий тест и разобраться с ним.

Что дальше

Со следующего занятия начнётся новая большая тема — линейные статистические модели. Метод наименьших квадратов и линейная регрессия будут рассмотрены со статистической точки зрения.