Лекция 07

18.03.2026 Обновлено: 18.03.2026

Лекция 7: Проверка статистических гипотез

1. Постановка задачи проверки гипотез

1.1. Гипотезы $H_0$ и $H_1$

Для каждой ситуации формулируются два предположения:

  • Нулевая гипотеза ($H_0$) — предположение «по умолчанию». Если рассматриваются какие-то явления, то по умолчанию они никак не связаны; если рассматривается некоторый показатель — он принимает типичное значение.
  • Альтернативная гипотеза ($H_1$) — наше «подозрение», то, что мы хотим доказать.
Note

Сумма $H_0$ и $H_1$ не всегда даёт всё пространство возможностей — то есть не обязательно $H_0 \cup H_1 = \Omega$.

1.2. Определение статистического критерия

Статистический критерий (statistical test) — это функция, возвращающая одно из двух решений: принять $H_0$ или отвергнуть $H_0$.

Формально объявим декларацию функции:

$$\delta(X, H_0, H_1, \alpha) \to \{\text{accept } H_0,\ \text{reject } H_0\}$$

где:

  • $X$ — выборка в широком смысле. Это не обязательно простейшая выборка из независимых одинаково распределённых случайных величин; в общем случае это произвольный датафрейм (например, аргументация прокурора и защиты в суде).
  • $H_0$ — нулевая гипотеза.
  • $H_1$ — альтернативная гипотеза.
  • $\alpha$ — уровень значимости (significance level). Типичные значения: $0.1,\ 0.05,\ 0.01,\ 0.001$ (хотя можно задавать любые).
Warning
  • «Принять $H_0$» не означает доказательства истинности $H_0$. Это означает лишь, что данные не противоречат нулевой гипотезе относительно заданной альтернативы.
  • «Отвергнуть $H_0$» автоматически не доказывает истинности $H_1$. Это лишь говорит, что данные скорее противоречат нулевой гипотезе и свидетельствуют в пользу альтернативы.

Стат-тест — не «серебряная пуля», а скорее средство аргументации.

Пример (аналогия с уголовным судом)

Если подсудимый подозревается в убийстве, и в ходе разбирательства приводятся факты о мошенничестве, судья скажет «невиновен» — потому что рассматривается именно дело об убийстве, а не о мошенничестве. То есть «принять $H_0$» = «$H_0$ не опровергнуто относительно данной альтернативы».


2. Принцип работы статистического критерия

2.1. Статистика критерия

Под капотом критерия работает функция $T(X)$ — статистика критерия.

Принцип выбора статистики:

Статистику критерия выбирают так, чтобы её распределение в точности имело или стремилось (при $n \to \infty$) к некоторому «хорошему» распределению — при условии истинности нулевой гипотезы.

Important

Распределение $T(X)$ рассматривается именно при условии истинности $H_0$.

2.2. Область принятия и критическая область

Множество всех значений случайной величины $T$ разбивается на две непересекающиеся области:

$$\text{supp}(T) = T_0(\alpha) \sqcup T_1(\alpha)$$
  • $T_0(\alpha)$ — область принятия нулевой гипотезы.
  • $T_1(\alpha)$ — критическая область.

Распределение вероятностной массы:

$$P(T(X) \in T_0(\alpha) \mid H_0) = 1 - \alpha$$

$$P(T(X) \in T_1(\alpha) \mid H_0) = \alpha$$

Для асимптотических критериев равенство выполняется в пределе.

2.3. Основной if-statement критерия

$$\text{if } T(x) \in T_0(\alpha) \Rightarrow \text{принять } H_0,\quad \text{иначе} \Rightarrow \text{отвергнуть } H_0$$

Здесь $x$ (маленькое) — конкретная реализация выборки.

Пример с монеткой

Если кинуть монетку 100 раз и получить 95 решек — мы скорее скажем, что монетка нечестная. Но гипотетически для честной монетки такой исход возможен (хоть и с очень малой вероятностью). Поэтому выводы носят нестрогий характер.

2.4. Недостатки прямого if-statement

  • У разных тестов разные распределения $T$.
  • Сама статистика устроена по-разному (где-то суммируем, где-то усредняем).
  • Критические области бывают трёх типов.

Хотелось бы унифицированный показатель — это p-value (см. ниже).


3. Три типа критических областей

Критические области выбираются не произвольно — почти во всех тестах встречается одна из трёх ситуаций.

3.1. Правосторонний тест

  • Справа выделяется вероятностная масса $\alpha$.
  • Слева выделяется $1 - \alpha$.
$$T_0(\alpha) = (-\infty,\ q_{1-\alpha}]$$

где $q_{1-\alpha}$ — квантиль порядка $1 - \alpha$.

Называется правосторонним, потому что критическая область находится справа.

3.2. Левосторонний тест

  • Слева выделяется вероятностная масса $\alpha$.
  • Справа $1 - \alpha$.
$$T_0(\alpha) = [q_{\alpha},\ +\infty)$$

(или до супремума носителя случайной величины — в общем случае). Критическая область слева.

3.3. Двусторонний тест

  • И слева, и справа выделяется по $\alpha/2$.
$$T_0(\alpha) = [q_{\alpha/2},\ q_{1-\alpha/2}]$$

Критическая область — с обеих сторон.

Info

Гипотетически возможны и более экзотические ситуации (например, разбиение на 3 куска), но в практически интересных тестах встречаются только эти три типа.


4. p-value

p-value — унифицированный показатель, позволяющий заменить громоздкий if-statement на простое сравнение с $\alpha$.

4.1. Определения p-value по типам тестов

Правосторонний случай:

$$p\text{-value}_{\text{right}} = P\big(T(X) > T_{\text{набл}} \mid H_0\big)$$

Левосторонний случай:

$$p\text{-value}_{\text{left}} = P\big(T(X) < T_{\text{набл}} \mid H_0\big)$$

Двусторонний случай:

$$p\text{-value} = 2 \cdot \min\big(p\text{-value}_{\text{left}},\ p\text{-value}_{\text{right}}\big)$$
Tip

Если распределение $T$ симметрично относительно нуля, формулу для двустороннего случая можно упростить (это часто встречается в литературе).

4.2. Геометрический смысл (правосторонний случай)

Допустим, наблюдаемое значение $T_1$ попало в область принятия $T_0(\alpha)$. Тогда:

$$p\text{-value}(T_1) > \alpha$$

Если $T_2$ попало в правый хвост (критическую область):

$$p\text{-value}(T_2) < \alpha$$

4.3. Геометрический смысл (двусторонний случай)

Допустим:

  • $T_1$ — в области принятия (центр):
    • $p\text{-value}_{\text{right}} > \alpha/2$
    • $p\text{-value}_{\text{left}} > \alpha/2$
    • $\Rightarrow p\text{-value}(T_1) > \alpha$
  • $T_2$ — в правом хвосте:
    • $p\text{-value}_{\text{left}} > \alpha/2$, $p\text{-value}_{\text{right}} < \alpha/2$
    • $\min < \alpha/2 \Rightarrow p\text{-value}(T_2) < \alpha$
  • $T_3$ — в левом хвосте:
    • $p\text{-value}_{\text{right}} > \alpha/2$, $p\text{-value}_{\text{left}} < \alpha/2$
    • $\Rightarrow p\text{-value}(T_3) < \alpha$

4.4. Унифицированный if-statement через p-value

$$\text{if } p\text{-value} > \alpha \Rightarrow \text{принять } H_0,\quad \text{иначе} \Rightarrow \text{отвергнуть } H_0$$

p-value всегда лежит в $[0, 1]$ (это вероятность), что делает критерий универсальным.

4.5. Неформальная интерпретация p-value

Danger

p-value НЕ является вероятностью того, что $H_0$ верна (или что мы её примем). С вероятностью принятия гипотезы p-value никак не связан.

Правильная интерпретация:

p-value — это вероятность того, что статистика критерия примет более экстремальное значение относительно наблюдаемого (при условии истинности $H_0$).

«Экстремальные» значения — это значения, попадающие в хвост(ы):

  • В правостороннем тесте: значения больше наблюдаемого.
  • В двустороннем тесте — значения, большие по модулю наблюдаемого.

5. Терминология: статистическая значимость

Если мы отвергаем $H_0$, говорят, что результат является статистически значимым.

Например: «доказана нечестность монетки с уровнем значимости $\alpha = 0.05$» = «отвергнута нулевая гипотеза о честности с $\alpha = 0.05$».

Отсюда и название $\alpha$ — уровень значимости.


6. Ошибки I и II рода

6.1. Таблица ошибок

Реальность: $H_0$Реальность: $H_1$
Тест: $H_0$True Negative ✅False Negative ❌ (ошибка II рода)
Тест: $H_1$False Positive ❌ (ошибка I рода)True Positive ✅
Note

К этой таблице нужно относиться философски — ведь мы говорили, что отвержение $H_0$ ≠ доказательство $H_1$. Здесь предполагается, что в реальности либо $H_0$, либо $H_1$ верно (при хорошей формулировке гипотез). Гипотетически возможна ситуация, когда ни $H_0$, ни $H_1$ не верны, но при разумной формулировке гипотез после предварительного анализа данных такого не возникает.

6.2. Ошибка I рода (False Positive)

Определение: тест отверг $H_0$, но в реальности $H_0$ верна.

$$P(\text{ошибка I рода}) = \alpha$$

То есть, регулируя уровень значимости, мы регулируем ошибку I рода.

6.3. Ошибка II рода (False Negative)

Определение: тест принял $H_0$, но в реальности верна $H_1$.

$$\beta = P\big(T(X) \in T_0(\alpha) \mid H_1\big)$$

$\beta$ — вероятность ошибки II рода.

6.4. Состоятельность критерия

Критерий состоятелен, если:

$$\beta \to 0 \text{ при } n \to \infty$$

6.5. Мощность критерия

Мощность — это $1 - \beta$, то есть вероятность отвергнуть $H_0$, если в действительности верна $H_1$.

$$\text{Мощность} = 1 - \beta = P\big(T(X) \in T_1(\alpha) \mid H_1\big)$$

6.6. Терминология Positive/Negative (аналогия с медициной)

Аналогия: пациент пришёл к врачу.

  • $H_0$: пациент здоров.
  • $H_1$: пациент болен.

Положительный анализ → есть аномалия → выбираем $H_1$ → Positive. Отрицательный анализ → нет аномалии → выбираем $H_0$ → Negative.

Реальность \ ТестТест: $H_0$ (Negative)Тест: $H_1$ (Positive)
$H_0$ вернаTrue NegativeFalse Positive (ошибка I рода)
$H_1$ вернаFalse Negative (ошибка II рода)True Positive

7. Связь между $\alpha$ и $\beta$

«Сделаем $\alpha$ маленьким, и будет нам счастье» — не работает!

Пример: спам-классификатор

  • $H_0$: письмо не является спамом.
  • $H_1$: письмо является спамом.

Классификатор A — всё помещает во «Входящие» (всегда выбирает $H_0$):

  • $\alpha = 0$ (ошибка I рода исключена).
  • Но $\beta$ велико — спам попадает во «Входящие».

Классификатор B — всё помещает в «Спам» (всегда выбирает $H_1$):

  • $\beta = 0$ (ошибка II рода исключена).
  • Но $\alpha$ велико — нормальные письма попадают в спам.

Мораль

Как правило, чем меньше $\alpha$, тем больше $\beta$. В общем случае аналитическую зависимость $\alpha$ от $\beta$ написать нельзя, но в некоторых хороших ситуациях можно.

Стандартный подход

На практике:

  1. Фиксируется допустимый порог ошибки I рода ($\alpha$).
  2. Среди тестов с заданным $\alpha$ выбирается тот, у которого $\beta$ минимален (то есть мощность максимальна).

8. Связь доверительных интервалов и стат-тестов

8.1. Напоминание о доверительных интервалах

Чтобы построить доверительный интервал для параметра $\theta$, рассматривается статистика $G(X, \theta)$, которая имеет (или стремится к) распределение случайной величины $U$, не зависящее от $\theta$.

Затем зажимаем статистику между квантилями:

$$P\big(q_{\alpha/2} \le G(X, \theta) \le q_{1-\alpha/2}\big) = 1 - \alpha$$

Это очень похоже на область принятия нулевой гипотезы!

8.2. Преобразование в стат-тест

Рассмотрим гипотезы:

  • $H_0:\ \theta = \theta_0$
  • $H_1:\ \theta \ne \theta_0$

При $H_0$ подставляем $\theta_0$ вместо $\theta$:

$$P\big(q_{\alpha/2} \le G(X, \theta_0) \le q_{1-\alpha/2}\big) = 1 - \alpha$$

8.3. Эквивалентность

Important

Принять $H_0$ с уровнем значимости $\alpha$ равносильно тому, что значение $\theta_0$ попадает в доверительный интервал уровня доверия $1 - \alpha$.

То есть: разрешая неравенство относительно $\theta_0$, мы получаем доверительный интервал, и принятие $H_0$ означает попадание $\theta_0$ в этот интервал.


9. Z-тест для одной выборки (тест о математическом ожидании)

9.1. Постановка

Пусть выборка достаточно большая. Хотим проверить:

  • $H_0:\ E[X] = \mu_0$

Альтернатива может быть трёх видов (в зависимости от наших подозрений):

  • $H_1:\ E[X] > \mu_0$ — правосторонний тест
  • $H_1:\ E[X] < \mu_0$ — левосторонний тест
  • $H_1:\ E[X] \ne \mu_0$ — двусторонний тест

9.2. Статистика критерия

Используется та же статистика, что и для построения асимптотического доверительного интервала для матожидания:

$$T(X) = \frac{\sqrt{n}\,(\bar{X} - \mu_0)}{S} \xrightarrow{d} \mathcal{N}(0, 1)$$

где $S$ — выборочное стандартное отклонение.

9.3. Выбор типа критической области

При $H_0$ ($E[X] = \mu_0$) статистика принимает значения около нуля (правило 3-х сигм для $\mathcal{N}(0, 1)$: на диапазон $[-3, 3]$ приходится ≈ 99.73% массы).

Куда попадает статистика при истинной альтернативе?

  • $H_1:\ E[X] > \mu_0$ → $\bar{X} \to E[X] > \mu_0$ → числитель $> 0$ → статистика смещена вправокритическая область справа (правосторонний тест).
  • $H_1:\ E[X] < \mu_0$ → статистика смещена влево → левосторонний тест.
  • $H_1:\ E[X] \ne \mu_0$ → статистика может быть как слева, так и справа → двусторонний тест.

9.4. Доказательство состоятельности (правосторонний случай)

Покажем, что $\beta \to 0$ при $n \to \infty$.

Вероятность ошибки II рода:

$$\beta = P\!\left(\frac{\sqrt{n}\,(\bar{X} - \mu_0)}{S} \le q_{1-\alpha} \,\Big|\, E[X] > \mu_0\right)$$

Прибавим и вычтем истинное мат. ожидание $E[X]$ в числителе:

$$\beta = P\!\left(\frac{\sqrt{n}\,(\bar{X} - E[X])}{S} + \frac{\sqrt{n}\,(E[X] - \mu_0)}{S} \le q_{1-\alpha} \,\Big|\, E[X] > \mu_0\right)$$

Перенесём:

$$\beta = P\!\left(\frac{\sqrt{n}\,(\bar{X} - E[X])}{S} \le q_{1-\alpha} - \frac{\sqrt{n}\,(E[X] - \mu_0)}{S} \,\Big|\, E[X] > \mu_0\right)$$

По ЦПТ (и её следствиям) первая дробь сходится к $\mathcal{N}(0, 1)$, поэтому при больших $n$:

$$\beta \approx \Phi\!\left(q_{1-\alpha} - \frac{\sqrt{n}\,(E[X] - \mu_0)}{S}\right)$$

Анализ аргумента:

  • $q_{1-\alpha}$ — константа.
  • $E[X] - \mu_0 > 0$ (по альтернативе).
  • $S \to \sigma$ (выборочное стандартное отклонение сходится к теоретическому).
  • $\sqrt{n} \to \infty$.

Значит, $\frac{\sqrt{n}(E[X] - \mu_0)}{S} \to +\infty$, и аргумент функции $\Phi$ уходит на $-\infty$.

$$\Phi(-\infty) = 0 \Rightarrow \beta \to 0$$

Критерий состоятелен. ✅

9.5. Терминология: Z-тест

Z-тест — это критерий, у которого статистика критерия точно имеет или сходится к нормальному распределению. Жаргон сложился исторически (от обозначения нормальной величины через $Z$).

Вышеописанный тест — Z-тест для одной выборки, проверяющий гипотезу о математическом ожидании.


10. Важный частный случай: распределение Бернулли

10.1. Постановка

Пусть $X_1, \dots, X_n$ — выборка из распределения Бернулли с параметром $p$.

Параметр $p$ распределения Бернулли = матожидание этого распределения.

Гипотезы:

  • $H_0:\ p = p_0$
  • $H_1$: одна из трёх ($p > p_0$, $p < p_0$, $p \ne p_0$).

10.2. Статистика критерия

Поскольку для Бернулли дисперсия $D[X] = p(1-p)$, статистика принимает более конкретный вид (теоретическая дисперсия известна при $H_0$):

$$T(X) = \frac{\sqrt{n}\,(\bar{X} - p_0)}{\sqrt{p_0(1 - p_0)}} \xrightarrow{d} \mathcal{N}(0, 1)$$

10.3. Тип критической области

Аналогично общему случаю Z-теста:

  • $H_1:\ p > p_0$ — правосторонний.
  • $H_1:\ p < p_0$ — левосторонний.
  • $H_1:\ p \ne p_0$ — двусторонний.

10.4. Применение: проверка честности монетки

Для честной монетки $p = 1/2$, поэтому $p_0 = 1/2$.

В зависимости от подозрений:

  • «Орёл выпадает чаще» → $H_1:\ p > 1/2$.
  • «Решка выпадает чаще» → $H_1:\ p < 1/2$.
  • «Монетка просто нечестная» → $H_1:\ p \ne 1/2$.

11. Как выбирать тип альтернативы — пример с врачами

Тип теста (одно- или двусторонний) зависит от того, что мы хотим доказать.

Пример: измерения температуры пациента.

  • Участковый врач-терапевт: пришёл пациент с жалобой «мне плохо». Терапевт хочет понять — есть ли вообще отклонение от нормы (36.6°C). Альтернатива: $E[T] \ne 36.6$ → двусторонний тест.

  • Врач-инфекционист: ищет инфекцию, для которой характерна повышенная температура. Альтернатива: $E[T] > 36.6$ → правосторонний тест.

  • Врач, ищущий болезнь с пониженной температурой: альтернатива $E[T] < 36.6$ → левосторонний тест.

Summary

Альтернатива зависит от того, что именно мы хотим доказать. Тип критической области определяется и сутью теста, и формулировкой альтернативы.


12. Итоговая схема работы стат-критерия

  1. Сформулировать $H_0$ и $H_1$.
  2. Зафиксировать уровень значимости $\alpha$.
  3. Выбрать статистику критерия $T(X)$ с известным распределением при $H_0$.
  4. Определить тип критической области (право-/лево-/двусторонний — зависит от $H_1$).
  5. Вычислить $T(x)$ на конкретной реализации.
  6. Вычислить p-value.
  7. Принять решение:
    • $p\text{-value} > \alpha$ → принять $H_0$.
    • $p\text{-value} \le \alpha$ → отвергнуть $H_0$.
  8. (При необходимости) проверить состоятельность критерия: $\beta \to 0$ при $n \to \infty$.

13. Что дальше

В следующих лекциях:

  • Стат-тесты, связанные с доверительными интервалами и нормальным распределением.
  • Конкретные ситуации, где можно явно выписать зависимость $\alpha$ от $\beta$ и определить оптимальный критерий.