Лекция 06

11.03.2026 Обновлено: 11.03.2026

Лекция 6: Доверительные интервалы и введение в проверку статистических гипотез

Повторение: определение доверительного интервала

Формальное определение. Доверительный интервал $[L(x), R(x)]$ задаётся условием:

$$P(\theta \in [L(x), R(x)]) \geq 1 - \alpha$$

где $1 - \alpha$ — уровень доверия.

Содержательная интерпретация. Если уровень доверия 95% и мы рассматриваем 100 выборок, для каждой считаем доверительный интервал, то хотя бы в 95 случаях из 100 реальное значение параметра окажется в построенном доверительном интервале.

Что было раньше: на прошлой лекции рассматривались доверительные интервалы для параметров нормального закона:

  • для мат. ожидания при известной дисперсии
  • для мат. ожидания при неизвестной дисперсии
  • для дисперсии при известном мат. ожидании
  • для дисперсии при неизвестном мат. ожидании

Задача 5: Доверительный интервал для разности мат. ожиданий (известные дисперсии)

Постановка

Даны две независимые выборки:

  • $x_1, \ldots, x_n$ из $N(\mu_x, \sigma_x^2)$
  • $y_1, \ldots, y_m$ из $N(\mu_y, \sigma_y^2)$

Дисперсии $\sigma_x^2$ и $\sigma_y^2$ известны. Нужно построить доверительный интервал для $\tau = \mu_y - \mu_x$.

Построение

Шаг 1. Распределения выборочных средних:

$$\bar{x} \sim N\!\left(\mu_x, \frac{\sigma_x^2}{n}\right), \qquad \bar{y} \sim N\!\left(\mu_y, \frac{\sigma_y^2}{m}\right)$$

Шаг 2. Из независимости выборок:

$$\bar{y} - \bar{x} \sim N\!\left(\mu_y - \mu_x,\ \frac{\sigma_y^2}{m} + \frac{\sigma_x^2}{n}\right)$$

⚠️ Важное замечание. Дисперсия суммы (или разности) независимых случайных величин — это сумма дисперсий, независимо от того, плюс это или минус. Если бы здесь стоял минус, то могло бы получиться отрицательное значение, что невозможно для дисперсии.

Шаг 3. Центрируем и нормируем:

$$\frac{\bar{y} - \bar{x} - \tau}{\sqrt{\dfrac{\sigma_y^2}{m} + \dfrac{\sigma_x^2}{n}}} \sim N(0, 1)$$

Шаг 4. Зажимаем статистику между квантилями (используем симметрию стандартного нормального закона) и разрешаем неравенство относительно $\tau$.

Ответ

$$\boxed{\;\tau \in \bar{y} - \bar{x} \pm u_{1 - \alpha/2}\sqrt{\frac{\sigma_y^2}{m} + \frac{\sigma_x^2}{n}}\;}$$

Задача 6: Доверительный интервал для разности мат. ожиданий (равные неизвестные дисперсии)

Постановка

Те же две независимые гауссовские выборки, но теперь:

  • дисперсии неизвестны
  • известно, что $\sigma_x^2 = \sigma_y^2 = \sigma^2$

Цель та же: построить доверительный интервал для $\tau = \mu_y - \mu_x$.

Идея

В предыдущей задаче мы получили стандартную гауссовскую величину. Сейчас её знаменатель содержит неизвестное $\sigma^2$. Идея — построить статистику с распределением Стьюдента.

Напоминание определения t-распределения: в числителе — стандартная гауссовская величина, в знаменателе — корень квадратный из $\chi^2$, делённого на число степеней свободы; числитель и знаменатель независимы.

Применение теоремы Фишера

По теореме Фишера:

$$\frac{n s_x^{*2}}{\sigma^2} \sim \chi^2_{n-1}, \qquad \frac{m s_y^{*2}}{\sigma^2} \sim \chi^2_{m-1}$$

где $s^{*2}$ — смещённая выборочная дисперсия.

Поскольку $x$ и $y$ независимы, при сложении степени свободы складываются:

$$\frac{n s_x^{*2} + m s_y^{*2}}{\sigma^2} \sim \chi^2_{n + m - 2}$$

При этом числитель (выборочные средние) и знаменатель (выборочные дисперсии) независимы — также по теореме Фишера.

Построение статистики

$$T = \frac{\dfrac{\bar{y} - \bar{x} - \tau}{\sqrt{\sigma^2/m + \sigma^2/n}}}{\sqrt{\dfrac{1}{n+m-2}\!\left(\dfrac{n s_x^{*2}}{\sigma^2} + \dfrac{m s_y^{*2}}{\sigma^2}\right)}} \sim t_{n+m-2}$$

Ключевой момент: $\sigma^2$ в числителе и знаменателе сокращаются.

После упрощения:

$$T = \frac{(\bar{y} - \bar{x} - \tau)\sqrt{(n+m-2)\, mn}}{\sqrt{(m+n)(n s_x^{*2} + m s_y^{*2})}} \sim t_{n+m-2}$$

Зажатие между квантилями

$$P\!\left(-t_{1-\alpha/2} \leq T \leq t_{1-\alpha/2}\right) = 1 - \alpha$$

Это работает потому, что распределение Стьюдента симметрично относительно нуля.

Ответ

$$\boxed{\;\tau \in \bar{y} - \bar{x} \pm t_{1-\alpha/2}\sqrt{\frac{(n s_x^{*2} + m s_y^{*2})(m+n)}{mn(n+m-2)}}\;}$$

💡 Замечание Ивана Александровича. Это самая громоздкая задача на сегодня — дальше будет проще.

⚠️ Если дисперсии неравны и неизвестны — задача формально неразрешима в таком виде (в общем случае точного решения нет — это так называемая проблема Беренса–Фишера).


Задача 7: Доверительный интервал для отношения дисперсий (мат. ожидания неизвестны)

Постановка

Две независимые гауссовские выборки $x_1, \ldots, x_n$ и $y_1, \ldots, y_m$. Мат. ожидания $\mu_x, \mu_y$ неизвестны. Построить доверительный интервал для $\sigma_y^2 / \sigma_x^2$.

Применение теоремы Фишера

$$\frac{(n-1) s_x^2}{\sigma_x^2} \sim \chi^2_{n-1}, \qquad \frac{(m-1) s_y^2}{\sigma_y^2} \sim \chi^2_{m-1}$$

(здесь $s^2$ — несмещённая выборочная дисперсия)

Построение F-статистики

По определению F-распределения (отношение двух $\chi^2$, делённых на свои степени свободы):

$$F_{n,m} = \frac{\dfrac{(n-1) s_x^2}{\sigma_x^2} \cdot \dfrac{1}{n-1}}{\dfrac{(m-1) s_y^2}{\sigma_y^2} \cdot \dfrac{1}{m-1}} = \frac{s_x^2 / \sigma_x^2}{s_y^2 / \sigma_y^2} = \frac{s_x^2}{s_y^2} \cdot \frac{\sigma_y^2}{\sigma_x^2} \sim F_{n-1,\, m-1}$$

Зажатие между квантилями

$$P\!\left(F_{\alpha/2} \leq \frac{s_x^2}{s_y^2} \cdot \frac{\sigma_y^2}{\sigma_x^2} \leq F_{1-\alpha/2}\right) = 1 - \alpha$$

⚠️ Распределение Фишера не симметрично относительно нуля, поэтому используются обе квантили: $F_{\alpha/2}$ и $F_{1-\alpha/2}$.

Ответ

После разрешения относительно $\sigma_y^2 / \sigma_x^2$ (важно: при делении на дробь неравенство переворачивается):

$$\boxed{\;\frac{\sigma_y^2}{\sigma_x^2} \in \left[F_{\alpha/2}\, \frac{s_y^2}{s_x^2},\ F_{1-\alpha/2}\, \frac{s_y^2}{s_x^2}\right]\;}$$

Задача 8: Доверительный интервал для отношения дисперсий (мат. ожидания известны)

Постановка

То же, но $\mu_x$ и $\mu_y$ известны.

Идея

Формально можно использовать прежнюю статистику, но при малом объёме выборки лучше иметь больше степеней свободы.

Используем тот факт, что:

$$\sum_{k=1}^{n} \frac{(x_k - \mu_x)^2}{\sigma_x^2} \sim \chi^2_n, \qquad \sum_{k=1}^{m} \frac{(y_k - \mu_y)^2}{\sigma_y^2} \sim \chi^2_m$$

(степеней свободы на одну больше, чем в задаче 7)

Построение F-статистики

$$F = \frac{\dfrac{1}{n}\sum_{k=1}^{n} \dfrac{(x_k - \mu_x)^2}{\sigma_x^2}}{\dfrac{1}{m}\sum_{k=1}^{m} \dfrac{(y_k - \mu_y)^2}{\sigma_y^2}} \sim F_{n,m}$$

Дальше — стандартная процедура: зажатие между квантилями и разрешение относительно $\sigma_y^2 / \sigma_x^2$.


«Универсальный» рецепт (в кавычках)

Постановка

Пусть $x_1, \ldots, x_n$ — выборка из непрерывного распределения с функцией распределения $F_\theta$.

Утверждение (а)

Случайная величина $u_i = F_\theta(x_i)$ имеет равномерное распределение на $[0, 1]$.

Доказательство. Для строго возрастающей $F_\theta$:

$$P(u_i \leq t) = P(F_\theta(x_i) \leq t) = P(x_i \leq F_\theta^{-1}(t)) = F_\theta(F_\theta^{-1}(t)) = t$$

(для $t \in [0, 1]$). Это функция распределения равномерного закона на $[0, 1]$.

Утверждение (б)

$v_i = -\ln u_i$ распределено по экспоненциальному закону с параметром 1.

Доказательство. Для $t > 0$:

$$P(v_i \leq t) = P(-\ln u_i \leq t) = P(\ln u_i \geq -t) = P(u_i \geq e^{-t}) = 1 - e^{-t}$$

Это функция распределения экспоненциального закона с параметром 1.

Утверждение (в)

$$\sum_{i=1}^{n} v_i = -\sum_{i=1}^{n} \ln F_\theta(x_i) \sim \Gamma(n, 1)$$

(сумма независимых экспоненциальных случайных величин с одним параметром даёт гамма-распределение).

Почему «в кавычках»?

Формально мы получили статистику с хорошим (известным) распределением для очень широкого класса задач. Но дальше нужно зажимать между квантилями и разрешать неравенство относительно $\theta$. На статистику навешан и логарифм, и функция распределения — получается неравенство, которое часто либо очень трудно разрешимо, либо в принципе неразрешимо относительно $\theta$.

Пример: $F_\theta(t) = \dfrac{1}{2} + \dfrac{1}{\pi}\arctan(t - \theta)$ (распределение Коши со сдвигом). Статистика:

$$-\sum_{i=1}^{n} \ln\!\left(\frac{1}{2} + \frac{1}{\pi}\arctan(x_i - \theta)\right)$$

Зажать это между квантилями и разрешить относительно $\theta$ — крайне неприятная задача.


Асимптотические доверительные интервалы

Определение

$[L(x), R(x)]$ — асимптотический доверительный интервал, если:

$$\lim_{n \to \infty} P(\theta \in [L(x), R(x)]) \geq 1 - \alpha$$

Общая схема построения

  1. Находим статистику $g(x, \theta)$, у которой существует предельное распределение, не зависящее от $\theta$.
  2. Зажимаем статистику между квантилями предельного распределения:
$$P(q_{\alpha/2} \leq g(x, \theta) \leq q_{1-\alpha/2}) \approx 1 - \alpha$$
  1. Разрешаем неравенство относительно $\theta$.

Применение А: Асимптотический ДИ для мат. ожидания

Условие

Существует дисперсия.

Использование

Выборочная средняя — асимптотически нормальная оценка:

$$\frac{\sqrt{n}(\bar{x} - \mu)}{s} \xrightarrow{d} N(0, 1)$$

Зажатие между квантилями

$$-u_{1-\alpha/2} \leq \frac{\sqrt{n}(\bar{x} - \mu)}{s} \leq u_{1-\alpha/2}$$

Ответ

$$\boxed{\;\mu \in \bar{x} \pm u_{1-\alpha/2}\, \frac{s}{\sqrt{n}}\;}$$

Стандартная ошибка

💡 Определение. В контексте доверительных интервалов стандартной ошибкой называется величина, на которую умножается квантиль, — то есть $\dfrac{s}{\sqrt{n}}$.


Частный случай: ДИ для параметра распределения Бернулли

Постановка

Выборка из распределения Бернулли с параметром $p$. Мат. ожидание = $p$, дисперсия = $p(1-p)$.

Сходимость

$$\frac{\sqrt{n}(\bar{x} - p)}{\sqrt{p(1-p)}} \xrightarrow{d} N(0, 1)$$

Проблема

В знаменателе $p$ — неизвестно. Если оставить как есть, при разрешении неравенства $p$ окажется и в числителе, и в знаменателе, да ещё под корнем.

Решение — подстановка состоятельной оценки

Подставляем выборочную оценку $\hat{p} = \bar{x}$ (она же — оценка методом моментов и оценка максимального правдоподобия). Сходимость к стандартной гауссовской величине сохраняется.

Ответ

$$\boxed{\;p \in \bar{x} \pm u_{1-\alpha/2}\sqrt{\frac{\bar{x}(1 - \bar{x})}{n}}\;}$$

⚠️ Когда такая подстановка допустима? Только если оценка состоятельна. В асимптотическом ДИ оценки близки к реальному значению, и сходимость сохраняется.


Применение Б: Асимптотический ДИ для медианы

Условие

Выборка из непрерывного распределения.

Использование

Выборочная медиана (порядковая статистика с номером $\lfloor n/2 \rfloor$) — асимптотически нормальная оценка теоретической медианы:

$$\sqrt{n} \cdot f(m) \cdot \frac{x_{(\lfloor n/2 \rfloor)} - m}{\sqrt{1/2 \cdot 1/2}} \xrightarrow{d} N(0, 1)$$

где $m$ — теоретическая медиана, $f$ — плотность.

Ответ

$$\boxed{\;m \in x_{(\lfloor n/2 \rfloor)} \pm \frac{u_{1-\alpha/2}}{2\sqrt{n}\, f(m)}\;}$$

Проблема и решение

В формуле присутствует $f(m)$ — неизвестная плотность в неизвестной точке. Решение — подставить состоятельные оценки: вместо $m$ использовать выборочную медиану $x_{(\lfloor n/2 \rfloor)}$.

💡 Это типичный приём: подстановка состоятельной оценки на место неизвестной величины.


Применение В: Асимптотический ДИ для дисперсии

Использование

Выборочная дисперсия — асимптотически нормальная оценка:

$$\frac{\sqrt{n}(s^{*2} - \sigma^2)}{\sqrt{\hat{\beta}_4 - s^{*4}}} \xrightarrow{d} N(0, 1)$$

где $\hat{\beta}_4 = \overline{(x - \bar{x})^4}$ — четвёртый выборочный центральный момент.

Ответ

$$\boxed{\;\sigma^2 \in s^{*2} \pm \frac{u_{1-\alpha/2}}{\sqrt{n}}\sqrt{\hat{\beta}_4 - s^{*4}}\;}$$

Тонкость

⚠️ Левая граница может оказаться отрицательной, что для дисперсии бессмысленно.

Для мат. ожидания это нормально, для дисперсии — нет. Поэтому такой подход работает только при очень большом объёме выборки: при $n \to \infty$ дробь $\dfrac{1}{\sqrt{n}} \to 0$, и левая граница перестаёт быть отрицательной.


Применение Г: ДИ через оценку максимального правдоподобия

Утверждение

Если $\hat{\theta}$ — оценка максимального правдоподобия для $\theta$, и модель регулярна, то:

$$\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} N\!\left(0, \frac{1}{i(\theta)}\right)$$

где $i(\theta)$ — информация Фишера.

Применение

Подставив состоятельную оценку $\hat{\theta}$ в информацию Фишера:

$$\sqrt{i(\hat{\theta})} \cdot \sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} N(0, 1)$$

Отсюда стандартным образом извлекается доверительный интервал для $\theta$.


Применение Д: ДИ через порядковые статистики (экзотический рецепт)

Утверждения

Для выборки из непрерывного распределения:

$$n \cdot F(x_{(\ell)}) \xrightarrow{d} \Gamma(\ell, 1)$$$$n \cdot (1 - F(x_{(n+1-s)})) \xrightarrow{d} \Gamma(s, 1)$$

где $\ell$ и $s$ — фиксированные.

Эти соотношения встречались при изучении порядковых статистик. Чисто гипотетически из них можно извлекать асимптотические доверительные интервалы.

Упражнения для самостоятельного решения

  • Для равномерного распределения $U[0, \theta]$ построить ДИ для $\theta$ через порядковые статистики (применение Д).
  • Для распределения Пуассона $\mathrm{Pois}(\lambda)$ построить асимптотический ДИ для $\lambda$ через ОМП (применение Г).

Часть 2. Введение в проверку статистических гипотез

🔍 Это пока предварительные мысли о формулировке задачи. Строгая постановка будет на следующей лекции.

Установка для размышления

Иван Александрович просит рассуждать:

  1. Максимально рационально.
  2. С точки зрения человека, у которого нет опыта в данной предметной области (как «рациональный инопланетянин»).

В каждой ситуации нужно выделить:

  • Дефолтное предположение (по умолчанию).
  • Альтернативное предположение.

Ситуация 1. Уголовный суд

Контекст: сферическая страна в вакууме с континентальной системой права (суд опирается на законы; в отличие от прецедентной системы, как в Великобритании или США, где суд опирается на предыдущие решения по похожим делам).

Происходит уголовное дело, подсудимого обвиняют в убийстве. Вы — судья.

  • $H_0$ (по умолчанию): человек не виновен.
  • $H_1$ (альтернатива): человек виновен в убийстве (в конкретном преступлении!).

Тонкий момент. Альтернатива конкретна. Если по ходу дела выяснится, что подсудимый занимался мошенничеством, но обвинение в убийстве не доказано, — судья скажет «не виновен» относительно данной альтернативы. Это другая задача.


Ситуация 2. Робот кидает монетку

  • $H_0$: монетка честная.
  • $H_1$: монетка нечестная (например, выпадает слишком много орлов или слишком много решек).

Ситуация 3. Измерение температуры

Хотим понять, здоров человек или болен, измеряя температуру.

  • $H_0$: человек не болен (средняя температура $= 36{,}6$).
  • $H_1$: человек болен (средняя температура $\neq 36{,}6$).

Уточнения альтернативы в зависимости от контекста

КонтекстАльтернатива
Общий случайсредняя $\neq 36{,}6$
Инфекционная больница (для инфекций характерна повышенная температура)средняя $> 36{,}6$
Заболевания с пониженной температуройсредняя $< 36{,}6$

Ситуация 4. Влияет ли вещество на здоровье

  • $H_0$: вещество не влияет на здоровье.
  • $H_1$: возможны разные варианты:
    • Просто влияет (любым образом).
    • Влияет положительно (если мы фармацевты).
    • Влияет отрицательно (если разрабатываем биооружие).

💡 Вывод. Альтернатива формулируется в зависимости от того, что именно мы хотим проверить.


Общая схема: $H_0$ и $H_1$

Нулевая гипотеза $H_0$

Это предположение по умолчанию. Конкретные проявления:

  • Если изучаем связь явлений: $H_0$ = явления не связаны.
  • Если замеряем показатель: $H_0$ = показатель принимает типичное значение.
  • Если сравниваем две совокупности: $H_0$ = они одинаковые.

Альтернативная гипотеза $H_1$

Это то, что мы хотим «доказать» (в кавычках, потому что стат-тесты — это не строгий метод доказательства, а статистический метод валидации данных).

  • Подозреваем некую аномалию — отклонение от нормы.
  • Подозреваем, что связь есть.
  • Подозреваем, что показатель принимает аномальные значения.

Важное замечание

⚠️ $H_0$ и $H_1$ не всегда дополняют друг друга до полного пространства возможностей.

Пример из суда: $H_0$ = «не виновен», $H_1$ = «виновен в убийстве». Но возможны и другие сценарии (например, мошенничество), которые не покрываются ни $H_0$, ни $H_1$.

В курсе будут рассматриваться ситуации, где $H_1$ — это отрицание $H_0$, но это далеко не всегда так.


Зачем нужны эти содержательные рассуждения

Стат-тесты нужно правильно применять. Чтобы их применять, надо понимать, из каких соображений формулируются $H_0$ и $H_1$ для каждой конкретной ситуации.

План на следующую лекцию: строгая математическая постановка задачи проверки статистических гипотез и описание общей схемы процедуры проверки, которая выдаёт ответ «$H_0$» или «$H_1$».