Карточки Anki
Скачайте колоды для интервального повторения
Лекция 6: Доверительные интервалы и введение в проверку статистических гипотез
Повторение: определение доверительного интервала
Формальное определение. Доверительный интервал $[L(x), R(x)]$ задаётся условием:
$$P(\theta \in [L(x), R(x)]) \geq 1 - \alpha$$где $1 - \alpha$ — уровень доверия.
Содержательная интерпретация. Если уровень доверия 95% и мы рассматриваем 100 выборок, для каждой считаем доверительный интервал, то хотя бы в 95 случаях из 100 реальное значение параметра окажется в построенном доверительном интервале.
Что было раньше: на прошлой лекции рассматривались доверительные интервалы для параметров нормального закона:
- для мат. ожидания при известной дисперсии
- для мат. ожидания при неизвестной дисперсии
- для дисперсии при известном мат. ожидании
- для дисперсии при неизвестном мат. ожидании
Задача 5: Доверительный интервал для разности мат. ожиданий (известные дисперсии)
Постановка
Даны две независимые выборки:
- $x_1, \ldots, x_n$ из $N(\mu_x, \sigma_x^2)$
- $y_1, \ldots, y_m$ из $N(\mu_y, \sigma_y^2)$
Дисперсии $\sigma_x^2$ и $\sigma_y^2$ известны. Нужно построить доверительный интервал для $\tau = \mu_y - \mu_x$.
Построение
Шаг 1. Распределения выборочных средних:
$$\bar{x} \sim N\!\left(\mu_x, \frac{\sigma_x^2}{n}\right), \qquad \bar{y} \sim N\!\left(\mu_y, \frac{\sigma_y^2}{m}\right)$$Шаг 2. Из независимости выборок:
$$\bar{y} - \bar{x} \sim N\!\left(\mu_y - \mu_x,\ \frac{\sigma_y^2}{m} + \frac{\sigma_x^2}{n}\right)$$⚠️ Важное замечание. Дисперсия суммы (или разности) независимых случайных величин — это сумма дисперсий, независимо от того, плюс это или минус. Если бы здесь стоял минус, то могло бы получиться отрицательное значение, что невозможно для дисперсии.
Шаг 3. Центрируем и нормируем:
$$\frac{\bar{y} - \bar{x} - \tau}{\sqrt{\dfrac{\sigma_y^2}{m} + \dfrac{\sigma_x^2}{n}}} \sim N(0, 1)$$Шаг 4. Зажимаем статистику между квантилями (используем симметрию стандартного нормального закона) и разрешаем неравенство относительно $\tau$.
Ответ
$$\boxed{\;\tau \in \bar{y} - \bar{x} \pm u_{1 - \alpha/2}\sqrt{\frac{\sigma_y^2}{m} + \frac{\sigma_x^2}{n}}\;}$$Задача 6: Доверительный интервал для разности мат. ожиданий (равные неизвестные дисперсии)
Постановка
Те же две независимые гауссовские выборки, но теперь:
- дисперсии неизвестны
- известно, что $\sigma_x^2 = \sigma_y^2 = \sigma^2$
Цель та же: построить доверительный интервал для $\tau = \mu_y - \mu_x$.
Идея
В предыдущей задаче мы получили стандартную гауссовскую величину. Сейчас её знаменатель содержит неизвестное $\sigma^2$. Идея — построить статистику с распределением Стьюдента.
Напоминание определения t-распределения: в числителе — стандартная гауссовская величина, в знаменателе — корень квадратный из $\chi^2$, делённого на число степеней свободы; числитель и знаменатель независимы.
Применение теоремы Фишера
По теореме Фишера:
$$\frac{n s_x^{*2}}{\sigma^2} \sim \chi^2_{n-1}, \qquad \frac{m s_y^{*2}}{\sigma^2} \sim \chi^2_{m-1}$$где $s^{*2}$ — смещённая выборочная дисперсия.
Поскольку $x$ и $y$ независимы, при сложении степени свободы складываются:
$$\frac{n s_x^{*2} + m s_y^{*2}}{\sigma^2} \sim \chi^2_{n + m - 2}$$При этом числитель (выборочные средние) и знаменатель (выборочные дисперсии) независимы — также по теореме Фишера.
Построение статистики
$$T = \frac{\dfrac{\bar{y} - \bar{x} - \tau}{\sqrt{\sigma^2/m + \sigma^2/n}}}{\sqrt{\dfrac{1}{n+m-2}\!\left(\dfrac{n s_x^{*2}}{\sigma^2} + \dfrac{m s_y^{*2}}{\sigma^2}\right)}} \sim t_{n+m-2}$$Ключевой момент: $\sigma^2$ в числителе и знаменателе сокращаются.
После упрощения:
$$T = \frac{(\bar{y} - \bar{x} - \tau)\sqrt{(n+m-2)\, mn}}{\sqrt{(m+n)(n s_x^{*2} + m s_y^{*2})}} \sim t_{n+m-2}$$Зажатие между квантилями
$$P\!\left(-t_{1-\alpha/2} \leq T \leq t_{1-\alpha/2}\right) = 1 - \alpha$$Это работает потому, что распределение Стьюдента симметрично относительно нуля.
Ответ
$$\boxed{\;\tau \in \bar{y} - \bar{x} \pm t_{1-\alpha/2}\sqrt{\frac{(n s_x^{*2} + m s_y^{*2})(m+n)}{mn(n+m-2)}}\;}$$💡 Замечание Ивана Александровича. Это самая громоздкая задача на сегодня — дальше будет проще.
⚠️ Если дисперсии неравны и неизвестны — задача формально неразрешима в таком виде (в общем случае точного решения нет — это так называемая проблема Беренса–Фишера).
Задача 7: Доверительный интервал для отношения дисперсий (мат. ожидания неизвестны)
Постановка
Две независимые гауссовские выборки $x_1, \ldots, x_n$ и $y_1, \ldots, y_m$. Мат. ожидания $\mu_x, \mu_y$ неизвестны. Построить доверительный интервал для $\sigma_y^2 / \sigma_x^2$.
Применение теоремы Фишера
$$\frac{(n-1) s_x^2}{\sigma_x^2} \sim \chi^2_{n-1}, \qquad \frac{(m-1) s_y^2}{\sigma_y^2} \sim \chi^2_{m-1}$$(здесь $s^2$ — несмещённая выборочная дисперсия)
Построение F-статистики
По определению F-распределения (отношение двух $\chi^2$, делённых на свои степени свободы):
$$F_{n,m} = \frac{\dfrac{(n-1) s_x^2}{\sigma_x^2} \cdot \dfrac{1}{n-1}}{\dfrac{(m-1) s_y^2}{\sigma_y^2} \cdot \dfrac{1}{m-1}} = \frac{s_x^2 / \sigma_x^2}{s_y^2 / \sigma_y^2} = \frac{s_x^2}{s_y^2} \cdot \frac{\sigma_y^2}{\sigma_x^2} \sim F_{n-1,\, m-1}$$Зажатие между квантилями
$$P\!\left(F_{\alpha/2} \leq \frac{s_x^2}{s_y^2} \cdot \frac{\sigma_y^2}{\sigma_x^2} \leq F_{1-\alpha/2}\right) = 1 - \alpha$$⚠️ Распределение Фишера не симметрично относительно нуля, поэтому используются обе квантили: $F_{\alpha/2}$ и $F_{1-\alpha/2}$.
Ответ
После разрешения относительно $\sigma_y^2 / \sigma_x^2$ (важно: при делении на дробь неравенство переворачивается):
$$\boxed{\;\frac{\sigma_y^2}{\sigma_x^2} \in \left[F_{\alpha/2}\, \frac{s_y^2}{s_x^2},\ F_{1-\alpha/2}\, \frac{s_y^2}{s_x^2}\right]\;}$$Задача 8: Доверительный интервал для отношения дисперсий (мат. ожидания известны)
Постановка
То же, но $\mu_x$ и $\mu_y$ известны.
Идея
Формально можно использовать прежнюю статистику, но при малом объёме выборки лучше иметь больше степеней свободы.
Используем тот факт, что:
$$\sum_{k=1}^{n} \frac{(x_k - \mu_x)^2}{\sigma_x^2} \sim \chi^2_n, \qquad \sum_{k=1}^{m} \frac{(y_k - \mu_y)^2}{\sigma_y^2} \sim \chi^2_m$$(степеней свободы на одну больше, чем в задаче 7)
Построение F-статистики
$$F = \frac{\dfrac{1}{n}\sum_{k=1}^{n} \dfrac{(x_k - \mu_x)^2}{\sigma_x^2}}{\dfrac{1}{m}\sum_{k=1}^{m} \dfrac{(y_k - \mu_y)^2}{\sigma_y^2}} \sim F_{n,m}$$Дальше — стандартная процедура: зажатие между квантилями и разрешение относительно $\sigma_y^2 / \sigma_x^2$.
«Универсальный» рецепт (в кавычках)
Постановка
Пусть $x_1, \ldots, x_n$ — выборка из непрерывного распределения с функцией распределения $F_\theta$.
Утверждение (а)
Случайная величина $u_i = F_\theta(x_i)$ имеет равномерное распределение на $[0, 1]$.
Доказательство. Для строго возрастающей $F_\theta$:
$$P(u_i \leq t) = P(F_\theta(x_i) \leq t) = P(x_i \leq F_\theta^{-1}(t)) = F_\theta(F_\theta^{-1}(t)) = t$$(для $t \in [0, 1]$). Это функция распределения равномерного закона на $[0, 1]$.
Утверждение (б)
$v_i = -\ln u_i$ распределено по экспоненциальному закону с параметром 1.
Доказательство. Для $t > 0$:
$$P(v_i \leq t) = P(-\ln u_i \leq t) = P(\ln u_i \geq -t) = P(u_i \geq e^{-t}) = 1 - e^{-t}$$Это функция распределения экспоненциального закона с параметром 1.
Утверждение (в)
$$\sum_{i=1}^{n} v_i = -\sum_{i=1}^{n} \ln F_\theta(x_i) \sim \Gamma(n, 1)$$(сумма независимых экспоненциальных случайных величин с одним параметром даёт гамма-распределение).
Почему «в кавычках»?
Формально мы получили статистику с хорошим (известным) распределением для очень широкого класса задач. Но дальше нужно зажимать между квантилями и разрешать неравенство относительно $\theta$. На статистику навешан и логарифм, и функция распределения — получается неравенство, которое часто либо очень трудно разрешимо, либо в принципе неразрешимо относительно $\theta$.
Пример: $F_\theta(t) = \dfrac{1}{2} + \dfrac{1}{\pi}\arctan(t - \theta)$ (распределение Коши со сдвигом). Статистика:
$$-\sum_{i=1}^{n} \ln\!\left(\frac{1}{2} + \frac{1}{\pi}\arctan(x_i - \theta)\right)$$Зажать это между квантилями и разрешить относительно $\theta$ — крайне неприятная задача.
Асимптотические доверительные интервалы
Определение
$[L(x), R(x)]$ — асимптотический доверительный интервал, если:
$$\lim_{n \to \infty} P(\theta \in [L(x), R(x)]) \geq 1 - \alpha$$Общая схема построения
- Находим статистику $g(x, \theta)$, у которой существует предельное распределение, не зависящее от $\theta$.
- Зажимаем статистику между квантилями предельного распределения:
- Разрешаем неравенство относительно $\theta$.
Применение А: Асимптотический ДИ для мат. ожидания
Условие
Существует дисперсия.
Использование
Выборочная средняя — асимптотически нормальная оценка:
$$\frac{\sqrt{n}(\bar{x} - \mu)}{s} \xrightarrow{d} N(0, 1)$$Зажатие между квантилями
$$-u_{1-\alpha/2} \leq \frac{\sqrt{n}(\bar{x} - \mu)}{s} \leq u_{1-\alpha/2}$$Ответ
$$\boxed{\;\mu \in \bar{x} \pm u_{1-\alpha/2}\, \frac{s}{\sqrt{n}}\;}$$Стандартная ошибка
💡 Определение. В контексте доверительных интервалов стандартной ошибкой называется величина, на которую умножается квантиль, — то есть $\dfrac{s}{\sqrt{n}}$.
Частный случай: ДИ для параметра распределения Бернулли
Постановка
Выборка из распределения Бернулли с параметром $p$. Мат. ожидание = $p$, дисперсия = $p(1-p)$.
Сходимость
$$\frac{\sqrt{n}(\bar{x} - p)}{\sqrt{p(1-p)}} \xrightarrow{d} N(0, 1)$$Проблема
В знаменателе $p$ — неизвестно. Если оставить как есть, при разрешении неравенства $p$ окажется и в числителе, и в знаменателе, да ещё под корнем.
Решение — подстановка состоятельной оценки
Подставляем выборочную оценку $\hat{p} = \bar{x}$ (она же — оценка методом моментов и оценка максимального правдоподобия). Сходимость к стандартной гауссовской величине сохраняется.
Ответ
$$\boxed{\;p \in \bar{x} \pm u_{1-\alpha/2}\sqrt{\frac{\bar{x}(1 - \bar{x})}{n}}\;}$$⚠️ Когда такая подстановка допустима? Только если оценка состоятельна. В асимптотическом ДИ оценки близки к реальному значению, и сходимость сохраняется.
Применение Б: Асимптотический ДИ для медианы
Условие
Выборка из непрерывного распределения.
Использование
Выборочная медиана (порядковая статистика с номером $\lfloor n/2 \rfloor$) — асимптотически нормальная оценка теоретической медианы:
$$\sqrt{n} \cdot f(m) \cdot \frac{x_{(\lfloor n/2 \rfloor)} - m}{\sqrt{1/2 \cdot 1/2}} \xrightarrow{d} N(0, 1)$$где $m$ — теоретическая медиана, $f$ — плотность.
Ответ
$$\boxed{\;m \in x_{(\lfloor n/2 \rfloor)} \pm \frac{u_{1-\alpha/2}}{2\sqrt{n}\, f(m)}\;}$$Проблема и решение
В формуле присутствует $f(m)$ — неизвестная плотность в неизвестной точке. Решение — подставить состоятельные оценки: вместо $m$ использовать выборочную медиану $x_{(\lfloor n/2 \rfloor)}$.
💡 Это типичный приём: подстановка состоятельной оценки на место неизвестной величины.
Применение В: Асимптотический ДИ для дисперсии
Использование
Выборочная дисперсия — асимптотически нормальная оценка:
$$\frac{\sqrt{n}(s^{*2} - \sigma^2)}{\sqrt{\hat{\beta}_4 - s^{*4}}} \xrightarrow{d} N(0, 1)$$где $\hat{\beta}_4 = \overline{(x - \bar{x})^4}$ — четвёртый выборочный центральный момент.
Ответ
$$\boxed{\;\sigma^2 \in s^{*2} \pm \frac{u_{1-\alpha/2}}{\sqrt{n}}\sqrt{\hat{\beta}_4 - s^{*4}}\;}$$Тонкость
⚠️ Левая граница может оказаться отрицательной, что для дисперсии бессмысленно.
Для мат. ожидания это нормально, для дисперсии — нет. Поэтому такой подход работает только при очень большом объёме выборки: при $n \to \infty$ дробь $\dfrac{1}{\sqrt{n}} \to 0$, и левая граница перестаёт быть отрицательной.
Применение Г: ДИ через оценку максимального правдоподобия
Утверждение
Если $\hat{\theta}$ — оценка максимального правдоподобия для $\theta$, и модель регулярна, то:
$$\sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} N\!\left(0, \frac{1}{i(\theta)}\right)$$где $i(\theta)$ — информация Фишера.
Применение
Подставив состоятельную оценку $\hat{\theta}$ в информацию Фишера:
$$\sqrt{i(\hat{\theta})} \cdot \sqrt{n}(\hat{\theta} - \theta) \xrightarrow{d} N(0, 1)$$Отсюда стандартным образом извлекается доверительный интервал для $\theta$.
Применение Д: ДИ через порядковые статистики (экзотический рецепт)
Утверждения
Для выборки из непрерывного распределения:
$$n \cdot F(x_{(\ell)}) \xrightarrow{d} \Gamma(\ell, 1)$$$$n \cdot (1 - F(x_{(n+1-s)})) \xrightarrow{d} \Gamma(s, 1)$$где $\ell$ и $s$ — фиксированные.
Эти соотношения встречались при изучении порядковых статистик. Чисто гипотетически из них можно извлекать асимптотические доверительные интервалы.
Упражнения для самостоятельного решения
- Для равномерного распределения $U[0, \theta]$ построить ДИ для $\theta$ через порядковые статистики (применение Д).
- Для распределения Пуассона $\mathrm{Pois}(\lambda)$ построить асимптотический ДИ для $\lambda$ через ОМП (применение Г).
Часть 2. Введение в проверку статистических гипотез
🔍 Это пока предварительные мысли о формулировке задачи. Строгая постановка будет на следующей лекции.
Установка для размышления
Иван Александрович просит рассуждать:
- Максимально рационально.
- С точки зрения человека, у которого нет опыта в данной предметной области (как «рациональный инопланетянин»).
В каждой ситуации нужно выделить:
- Дефолтное предположение (по умолчанию).
- Альтернативное предположение.
Ситуация 1. Уголовный суд
Контекст: сферическая страна в вакууме с континентальной системой права (суд опирается на законы; в отличие от прецедентной системы, как в Великобритании или США, где суд опирается на предыдущие решения по похожим делам).
Происходит уголовное дело, подсудимого обвиняют в убийстве. Вы — судья.
- $H_0$ (по умолчанию): человек не виновен.
- $H_1$ (альтернатива): человек виновен в убийстве (в конкретном преступлении!).
Тонкий момент. Альтернатива конкретна. Если по ходу дела выяснится, что подсудимый занимался мошенничеством, но обвинение в убийстве не доказано, — судья скажет «не виновен» относительно данной альтернативы. Это другая задача.
Ситуация 2. Робот кидает монетку
- $H_0$: монетка честная.
- $H_1$: монетка нечестная (например, выпадает слишком много орлов или слишком много решек).
Ситуация 3. Измерение температуры
Хотим понять, здоров человек или болен, измеряя температуру.
- $H_0$: человек не болен (средняя температура $= 36{,}6$).
- $H_1$: человек болен (средняя температура $\neq 36{,}6$).
Уточнения альтернативы в зависимости от контекста
| Контекст | Альтернатива |
|---|---|
| Общий случай | средняя $\neq 36{,}6$ |
| Инфекционная больница (для инфекций характерна повышенная температура) | средняя $> 36{,}6$ |
| Заболевания с пониженной температурой | средняя $< 36{,}6$ |
Ситуация 4. Влияет ли вещество на здоровье
- $H_0$: вещество не влияет на здоровье.
- $H_1$: возможны разные варианты:
- Просто влияет (любым образом).
- Влияет положительно (если мы фармацевты).
- Влияет отрицательно (если разрабатываем биооружие).
💡 Вывод. Альтернатива формулируется в зависимости от того, что именно мы хотим проверить.
Общая схема: $H_0$ и $H_1$
Нулевая гипотеза $H_0$
Это предположение по умолчанию. Конкретные проявления:
- Если изучаем связь явлений: $H_0$ = явления не связаны.
- Если замеряем показатель: $H_0$ = показатель принимает типичное значение.
- Если сравниваем две совокупности: $H_0$ = они одинаковые.
Альтернативная гипотеза $H_1$
Это то, что мы хотим «доказать» (в кавычках, потому что стат-тесты — это не строгий метод доказательства, а статистический метод валидации данных).
- Подозреваем некую аномалию — отклонение от нормы.
- Подозреваем, что связь есть.
- Подозреваем, что показатель принимает аномальные значения.
Важное замечание
⚠️ $H_0$ и $H_1$ не всегда дополняют друг друга до полного пространства возможностей.
Пример из суда: $H_0$ = «не виновен», $H_1$ = «виновен в убийстве». Но возможны и другие сценарии (например, мошенничество), которые не покрываются ни $H_0$, ни $H_1$.
В курсе будут рассматриваться ситуации, где $H_1$ — это отрицание $H_0$, но это далеко не всегда так.
Зачем нужны эти содержательные рассуждения
Стат-тесты нужно правильно применять. Чтобы их применять, надо понимать, из каких соображений формулируются $H_0$ и $H_1$ для каждой конкретной ситуации.
План на следующую лекцию: строгая математическая постановка задачи проверки статистических гипотез и описание общей схемы процедуры проверки, которая выдаёт ответ «$H_0$» или «$H_1$».