Лекция 11

15.04.2026 Обновлено: 15.04.2026

Лекция 11: Линейная регрессия. Метод наименьших квадратов. Теорема Гаусса–Маркова

Введение

Сегодня начинается разговор про линейные модели, в частности — про линейную регрессию. Многие уже сталкивались с линейной регрессией и методом наименьших квадратов в других контекстах. Оказывается, эту, казалось бы, простую модель можно рассмотреть и со статистической точки зрения, чем мы и займёмся.


Постановка задачи

Рассмотрим модель в матричном виде:

$$y = Xc + \varepsilon$$

Раскроем смысл каждого объекта.

Матрица переменных $X$

$X$ — это матрица $n \times m$ с вещественными коэффициентами. Это матрица переменных, где:

  • $n$ — количество наблюдений, доступных нам;
  • $m$ — количество переменных.

При этом $X$ воспринимается как не случайная величина — это какой-то конкретный детерминированный набор.

Вектор коэффициентов $c$

$c \in \mathbb{R}^m$ — неизвестный вектор коэффициентов (вектор из $m$ компонент).

Ошибка $\varepsilon$

$\varepsilon$ — это ошибка, поскольку идеальная линейная зависимость встречается редко. Ошибка воспринимается как случайная величина.

$\varepsilon$ — это вектор длины $n$:

$$\varepsilon = (\varepsilon_1, \ldots, \varepsilon_n)^T$$

где $\varepsilon_i$ соответствует $i$-му наблюдению.

Предположения на ошибку

На ошибку накладываются следующие предположения:

  1. Нулевое математическое ожидание:

    $$\mathbb{E}\varepsilon_i = 0$$

    То есть в среднем ошибка равна нулю — это означает, что модель «более-менее адекватная».

  2. Некоррелированность (но не независимость!):

    $$\text{cov}(\varepsilon_i, \varepsilon_j) = 0, \quad i \neq j$$

    На интуитивном уровне — мы независимо наблюдаем и $i$-ю, и $j$-ю строчку. Замечание: студент предложил предположение независимости и одинаковой распределённости, но Иван Александрович уточнил, что независимость пока не предполагается — только некоррелированность.

  3. Гомоскедастичность — одинаковые дисперсии у ошибок:

    $$\mathbb{D}\varepsilon_i = \sigma^2$$

    Слово гомоскедастичность означает, что дисперсии у ошибок одинаковые. При этом $\sigma^2$ неизвестна.

Вектор наблюдений $y$

$y \in \mathbb{R}^n$ — наблюдение зависимой переменной.

Глобальная цель

Цель — «оценить» вектор коэффициентов $c$ и величину $\sigma^2$ (которая называется остаточная дисперсия).

Слово «оценить» написано в кавычках, потому что:

  • Можно дать точечную оценку;
  • Можно построить доверительный интервал;
  • Можно проверять гипотезы.

То есть можно решать всякие разные статистические задачи касательно $c$ и $\sigma^2$.

Пример: цена недвижимости

Допустим, рассматриваем цену недвижимости. Цена недвижимости (это $y$) может зависеть от разных факторов:

  • расстояние от центра города;
  • расстояние до ближайшего метро;
  • и так далее.

Эти переменные образуют матрицу $X$:

$$X = \begin{pmatrix} x_{1,1} & \cdots & x_{1,m} \\ \vdots & \ddots & \vdots \\ x_{n,1} & \cdots & x_{n,m} \end{pmatrix}$$
  • Первая строчка — значение переменных для первого наблюдения;
  • Вторая строчка — для второго наблюдения; и т. д.

Например, столбец $y$ — это flat\_price ($y_1, \ldots, y_n$). Переменные:

  • distance\_to\_center: $x_{1,1}, \ldots, x_{n,1}$;
  • distance\_to\_nearest\_subway: $x_{1,2}, \ldots, x_{n,2}$;
  • и т. д.

Предполагаем, что цена линейно зависит от факторов:

$$y_1 = c_1 x_{1,1} + c_2 x_{1,2} + \ldots + c_m x_{1,m} + \varepsilon_1$$

Грубо говоря, $c_j$ — это значимость (коэффициент) при соответствующей переменной. Цель — оценить эти коэффициенты.

Замечание про свободный коэффициент $c_0$

Часто в линейных моделях фигурирует свободный коэффициент $c_0$. Однако его введение не умаляет общности записи. Если ввести $c_0$, то это частный случай рассмотренной ситуации:

$$c_0 \cdot 1$$

— то есть мы добавляем фиктивную переменную, равную единице для всех наблюдений. Поэтому общий вид $y = Xc + \varepsilon$ покрывает и случай со свободным членом.


Вспомогательная матрица $A$

Введём матрицу:

$$A = X^T X$$

На что она похожа? Это похоже на «ковариацию» между переменными (в кавычках!).

Действительно, строчка матрицы $X^T$ — это столбец переменной. Если поделить на $n$, то получится почти выборочная ковариация. Формально это не совсем ковариация, но нечто, очень сильно напоминающее её. На интуитивном уровне про матрицу $A$ можно думать как про вариацию между переменными.

Свойства матрицы $A$

  • $A$ — матрица $m \times m$ по построению.
  • Предполагаем: $\text{rank}(A) = m$.

Это означает, что переменные линейно независимы. В контексте регрессионного анализа это называется отсутствие мультиколлинеарности.

$\text{rank}(A) = m$ ⟺ переменные линейно независимы ⟺ отсутствует мультиколлинеарность.

Также предполагаем, что количество наблюдений существенно больше количества переменных: $n \gg m$.


Оценка наименьших квадратов

Рассмотрим квадратическую ошибку:

$$S^2(c) = \sum_i \left( \sum_j x_{ij} c_j - y_i \right)^2$$

Или в матричном виде:

$$S^2(c) = (Xc - y)^T (Xc - y)$$

Оценка наименьших квадратов $\hat{c}$ — это оценка, которая минимизирует квадратическую ошибку:

$$\hat{c} = \arg\min_c S^2(c)$$

Утверждение: формула для $\hat{c}$

В рамках наших предположений можно написать точную формулу:

$$\boxed{\hat{c} = A^{-1} X^T y}$$

Доказательство

Обычно доказательство ведётся через дифференцирование $S^2(c)$ по $c$ и приравнивание градиента к нулю. Однако докажем «в лоб» — по ходу доказательства получим важное соотношение, которое будет использовано в дальнейшем.

Рассмотрим $S^2(\hat{c} + h)$, где $h$ — некоторое приращение. Распишем:

$$S^2(\hat{c} + h) = (X(\hat{c} + h) - y)^T (X(\hat{c} + h) - y)$$

Сгруппируем так:

$$= \big( (X\hat{c} - y) + Xh \big)^T \big( (X\hat{c} - y) + Xh \big)$$

Раскрываем скобки:

$$= \underbrace{(X\hat{c} - y)^T(X\hat{c} - y)}_{S^2(\hat{c})} + h^T X^T (X\hat{c} - y) + (X\hat{c} - y)^T X h + h^T X^T X h$$

Анализ перекрёстных членов

Распишем $h^T X^T (X\hat{c} - y)$, подставляя $\hat{c} = A^{-1} X^T y$:

$$h^T X^T X \cdot A^{-1} X^T y - h^T X^T y$$

Поскольку $A = X^T X$ и $A$ обратима (по предположению о ранге):

$$X^T X \cdot A^{-1} = A \cdot A^{-1} = I$$

Поэтому:

$$h^T X^T y - h^T X^T y = 0$$

Аналогично второй перекрёстный член:

$$(X\hat{c} - y)^T Xh = (X A^{-1} X^T y - y)^T Xh = y^T X A^{-1} X^T X h - y^T X h = y^T X h - y^T X h = 0$$

Итоговое соотношение

Таким образом:

$$S^2(\hat{c} + h) = S^2(\hat{c}) + h^T X^T X h = S^2(\hat{c}) + h^T A h$$

Заметим, что $h^T A h = h^T X^T X h = (Xh)^T (Xh) \geq 0$ — скалярное произведение вектора на себя.

Поскольку $\text{rank}(A) = m$, матрица $A$ не вырождена, значит, она строго положительно определена. Это означает: если $h \neq 0$, то $h^T A h > 0$, то есть:

$$S^2(\hat{c} + h) > S^2(\hat{c})$$

Тем самым доказано, что $\hat{c} = A^{-1} X^T y$ действительно является минимумом. ∎

Важное соотношение, полученное по ходу доказательства

Если положить $c_1 = \hat{c} + h$, $c_2 = \hat{c}$, то $h = c_1 - c_2$, и мы получили:

$$\boxed{S^2(c_1) - S^2(c_2) = (c_1 - c_2)^T A (c_1 - c_2)}$$

Это соотношение будет использоваться в дальнейших выкладках.

Практическое замечание

С вычислительной точки зрения формула $\hat{c} = A^{-1} X^T y$ не самая удобная: нужно обращать матрицы, перемножать их. На практике обычно используются численные методы:

  • оптимизация исходной функции ошибок;
  • численное решение уравнения градиент = 0.

Теорема Гаусса–Маркова

Это фундаментальная теорема в рамках линейных моделей. Традиционно она формулируется для самой оценки наименьших квадратов, но здесь рассмотрим более общее утверждение.

Постановка

Рассмотрим линейную функцию от вектора коэффициентов:

$$\tau = T c$$

где $T$ — матрица $k \times m$, $k \leq m$, $\text{rank}(T) = k$.

Если взять $T = I$ (единичная матрица), получим теорему Гаусса–Маркова для обычной оценки наименьших квадратов.

Введём оценку:

$$\hat{\tau} = T \hat{c}$$

Зачем нужно $T$?

В дальнейшем будут проверяться гипотезы о векторе $c$ при линейных ограничениях. Соотношение $Tc = \tau$ как раз задаёт линейное ограничение. В качестве нулевой гипотезы стат-теста будет выступать предположение, что $c$ удовлетворяет каким-то линейным ограничениям.

Формулировка

При выполнении всех предположений (некоррелированность ошибок, нулевое мат. ожидание, гомоскедастичность):

(а) $\hat{\tau}$ — несмещённая оценка для $\tau$:

$$\mathbb{E}\hat{\tau} = \tau$$

(б) Матрица ковариаций $\text{cov}(\hat{\tau}) = \sigma^2 T A^{-1} T^T$, и $\hat{\tau}$ — оптимальная оценка для $\tau$ в классе линейных по $y$ несмещённых оценок.

Доказательство (а): несмещённость

$$\mathbb{E}\hat{\tau} = \mathbb{E}[T \hat{c}] = \mathbb{E}[T A^{-1} X^T y]$$

$T$, $A^{-1}$, $X^T$ — константы, выносим за знак мат. ожидания:

$$= T A^{-1} X^T \mathbb{E} y = T A^{-1} X^T \mathbb{E}[Xc + \varepsilon] = T A^{-1} X^T X c$$

(поскольку $\mathbb{E}\varepsilon = 0$, а $Xc$ — константа). Учитывая $X^T X = A$:

$$= T A^{-1} A c = T c = \tau \quad \blacksquare$$

Доказательство (б): матрица ковариаций

$$\text{cov}(\hat{\tau}) = \text{cov}(T \hat{c}) = T \cdot \text{cov}(\hat{c}) \cdot T^T$$

Замечание (вопрос студента): в одномерном случае $\mathbb{D}(aX) = a^2 \mathbb{D}X$, но в многомерном случае матрица ковариаций $aX$ — это $A \cdot \text{cov}(X) \cdot A^T$. Это именно матрица ковариаций, а не дисперсия в квадрате, потому что $\hat{\tau}$ — это случайный вектор (многомерная величина).

Считаем $\text{cov}(\hat{c})$:

$$\text{cov}(\hat{c}) = \text{cov}(A^{-1} X^T y) = A^{-1} X^T \cdot \text{cov}(y) \cdot X A^{-1}$$

Симметрия $A^{-1}$: $A = X^T X$ симметрична ($A^T = (X^T X)^T = X^T X = A$), значит, $A^{-1}$ тоже симметрична. Поэтому $(A^{-1})^T = A^{-1}$.

Считаем $\text{cov}(y)$:

$$\text{cov}(y) = \text{cov}(Xc + \varepsilon)$$

$Xc$ — константа, сдвиг на матрицу ковариаций не влияет (аналогично одномерному случаю, где $\mathbb{D}(X+a) = \mathbb{D}X$):

$$\text{cov}(y) = \text{cov}(\varepsilon)$$

Поскольку компоненты $\varepsilon$ некоррелированы и имеют одинаковую дисперсию $\sigma^2$:

$$\text{cov}(\varepsilon) = \sigma^2 I$$

Подставляем:

$$\text{cov}(\hat{c}) = A^{-1} X^T \cdot \sigma^2 I \cdot X A^{-1} = \sigma^2 A^{-1} \underbrace{X^T X}_{A} A^{-1} = \sigma^2 A^{-1}$$

Итого:

$$\boxed{\text{cov}(\hat{\tau}) = \sigma^2 T A^{-1} T^T}$$

Введём обозначение:

$$D = T A^{-1} X^T$$

(к этому обозначению вернёмся позже).

Доказательство (б): оптимальность

Напоминание: критерий оптимальности

Для несмещённых оценок: оценка оптимальна, если у неё минимальная дисперсия. В многомерном случае оптимизируется:

$$\text{MSE}(\hat{\theta}) = \mathbb{E}\big[(\hat{\theta} - \theta)^T (\hat{\theta} - \theta)\big]$$

Можно показать, что:

$$\text{MSE}(\hat{\theta}) = \text{tr}(\text{cov}(\hat{\theta})) + \text{bias}^T \text{bias}$$

где $\text{tr}$ — след матрицы (сумма диагональных элементов), а $\text{bias} = \mathbb{E}\hat{\theta} - \theta$.

Это обобщение одномерной формулы $\text{MSE} = \mathbb{D} + \text{bias}^2$.

В нашем случае оценка несмещённая, поэтому $\text{bias} = 0$ — нужно минимизировать $\text{tr}(\text{cov}(\hat{\tau}))$.

Шаг A: произвольная линейная несмещённая оценка

Пусть $\hat{L} = L y$ — произвольная линейная по $y$ несмещённая оценка для $\tau$:

$$\mathbb{E}[L y] = \tau$$

С другой стороны:

$$\mathbb{E}[L y] = L \cdot \mathbb{E}[Xc + \varepsilon] = L X c$$

Поскольку $\tau = T c$, получаем $T c = L X c$ для любого $c$. Отсюда:

$$\boxed{T = L X}$$

Шаг B: переобозначение

Прибавим и вычтем $T A^{-1} X^T$:

$$L = \underbrace{(L - T A^{-1} X^T)}_{\hat{L}} + T A^{-1} X^T$$

Введём $\hat{L} = L - T A^{-1} X^T$. Тогда:

$$L = \hat{L} + T A^{-1} X^T$$

Дополнительное соотношение

Из $T = L X$ домножим обе части на $X$ справа… нет, у нас уже $T = LX$. Подставим $L = \hat{L} + T A^{-1} X^T$:

$$T = \hat{L} X + T A^{-1} \underbrace{X^T X}_{A} = \hat{L} X + T$$

Отсюда:

$$\boxed{\hat{L} X = 0}$$

Транспонируя: $X^T \hat{L}^T = 0$.

Шаг C: матрица ковариаций для $L y$

$$\text{cov}(L y) = L \cdot \text{cov}(y) \cdot L^T = \sigma^2 L L^T$$

Распишем $\sigma^2 L L^T$, подставляя $L = T A^{-1} X^T + \hat{L}$:

$$\sigma^2 L L^T = \sigma^2 (T A^{-1} X^T + \hat{L})(T A^{-1} X^T + \hat{L})^T$$

Раскрываем:

$$= \sigma^2 \big[ T A^{-1} \underbrace{X^T X}_{A} A^{-1} T^T + T A^{-1} X^T \hat{L}^T + \hat{L} X A^{-1} T^T + \hat{L} \hat{L}^T \big]$$

Используем $\hat{L} X = 0$ и $X^T \hat{L}^T = 0$ — средние два слагаемых обнуляются:

$$\text{cov}(L y) = \sigma^2 T A^{-1} T^T + \sigma^2 \hat{L} \hat{L}^T$$

Финальный шаг: оптимизация следа

Получили:

$$\text{cov}(L y) = \underbrace{\sigma^2 T A^{-1} T^T}_{\text{cov}(\hat{\tau}),\ \text{не зависит от выбора } L} + \underbrace{\sigma^2 \hat{L} \hat{L}^T}_{\text{зависит от } \hat{L}}$$

Считаем след:

$$\text{tr}(\hat{L} \hat{L}^T) = \sum_i (\hat{L} \hat{L}^T)_{ii} = \sum_i \sum_j \hat{L}_{ij}^2$$

(диагональный элемент $(\hat{L} \hat{L}^T)_{ii}$ — это $i$-я строка, скалярно умноженная на саму себя, то есть сумма квадратов её элементов).

Минимум суммы квадратов достигается при $\hat{L}_{ij} = 0$ для всех $i, j$, то есть $\hat{L} = 0$. А это в точности означает, что $L = T A^{-1} X^T$ — то есть, что $L y = \hat{\tau}$.

Таким образом, оценка наименьших квадратов оптимальна в классе линейных несмещённых оценок. ∎


Точечная оценка для $\sigma^2$

Найдём несмещённую оценку для остаточной дисперсии $\sigma^2$.

Шаг 1: вычислим $\mathbb{E} S^2(c)$

$$\mathbb{E} S^2(c) = \mathbb{E}\big[(Xc - y)^T (Xc - y)\big]$$

Поскольку $Xc - y = -\varepsilon$:

$$= \mathbb{E}[\varepsilon^T \varepsilon] = \mathbb{E}\sum_{i=1}^n \varepsilon_i^2 = \sum_{i=1}^n \mathbb{E}\varepsilon_i^2$$

Используем:

$$\mathbb{E}\varepsilon_i^2 = \mathbb{D}\varepsilon_i + (\mathbb{E}\varepsilon_i)^2 = \sigma^2 + 0 = \sigma^2$$

Итого:

$$\boxed{\mathbb{E} S^2(c) = n \sigma^2}$$

Шаг 2: вычислим $\mathbb{E}[S^2(c) - S^2(\hat{c})]$

Используем выведенное ранее соотношение:

$$S^2(c) - S^2(\hat{c}) = (\hat{c} - c)^T A (\hat{c} - c)$$

(подставили $c_1 = c$, $c_2 = \hat{c}$, $h = c - \hat{c}$, но из-за симметрии знак не важен).

Расписываем по компонентам:

$$\mathbb{E}[S^2(c) - S^2(\hat{c})] = \mathbb{E} \sum_{i,j} (\hat{c}_i - c_i) A_{ij} (\hat{c}_j - c_j)$$

По линейности мат. ожидания (и поскольку $c_i = \mathbb{E}\hat{c}_i$ — несмещённость):

$$= \sum_{i,j} A_{ij} \cdot \mathbb{E}\big[(\hat{c}_i - \mathbb{E}\hat{c}_i)(\hat{c}_j - \mathbb{E}\hat{c}_j)\big] = \sum_{i,j} A_{ij} \cdot \text{cov}(\hat{c}_i, \hat{c}_j)$$

Замечание о матрице ковариаций $\hat{c}$

В теореме Гаусса–Маркова матрица ковариаций $\hat{\tau}$ равна $\sigma^2 T A^{-1} T^T$. Подставляя $T = I$, получаем:

$$\text{cov}(\hat{c}) = \sigma^2 A^{-1}$$

Поэтому $\text{cov}(\hat{c}_i, \hat{c}_j) = \sigma^2 (A^{-1})_{ij}$.

Продолжение вычислений

$$\mathbb{E}[S^2(c) - S^2(\hat{c})] = \sigma^2 \sum_{i,j} A_{ij} (A^{-1})_{ij}$$

Используя симметрию $A$: $A_{ij} = A_{ji}$, и заметим:

$$\sum_{i,j} A_{ji} (A^{-1})_{ij} = \sum_i (A \cdot A^{-1})_{ii} = \sum_i I_{ii} = m$$

(строка матрицы $A$ умножается на столбец $A^{-1}$ — это диагональный элемент произведения $A A^{-1} = I$).

Итого:

$$\mathbb{E}[S^2(c) - S^2(\hat{c})] = \sigma^2 \cdot m$$

Шаг 3: окончательная формула

Из шагов 1 и 2:

$$\mathbb{E} S^2(\hat{c}) = \mathbb{E} S^2(c) - \sigma^2 m = n\sigma^2 - m\sigma^2 = (n - m) \sigma^2$$

Откуда:

$$\boxed{\mathbb{E}\left[\frac{S^2(\hat{c})}{n - m}\right] = \sigma^2}$$

Таким образом, несмещённая оценка остаточной дисперсии:

$$\hat{\sigma}^2 = \frac{S^2(\hat{c})}{n - m}$$

Аналогия с выборочной дисперсией

Можно провести параллель с обычной выборочной дисперсией. Когда мы считали выборочную дисперсию, делённую на $n$, она оказывалась смещённой; чтобы сделать её несмещённой, мы делили на $n - 1$.

Здесь аналогично: если бы мы делили квадратическую ошибку на $n$, оценка была бы смещённой. А деление на $n - m$ (разность между количеством наблюдений и количеством переменных) даёт несмещённую оценку $\sigma^2$.


Анонс следующей лекции

Сегодня были рассмотрены точечные оценки для $\hat{c}$ и $\sigma^2$. В следующий раз будут рассмотрены:

  • Интервальное оценивание (доверительные интервалы);
  • Проверка различных статистических гипотез.