Математика / Матрицы, определители

Нормальные уравнения для МНК

Нормальные уравнения A^T A x = A^T b задают стационарное условие задачи МНК и позволяют найти параметры, при которых остаток ортогонален всем столбцам матрицы A.

Опубликовано: Обновлено:

Формула

$$A^\top A\,\hat x = A^\top b.$$
diagram Переход от задачи к линейной системе

Геометрия невязки сводится к системе нормальных уравнений.

A^\top A является матрицей нормальной системы.

Обозначения

$A$
матрица наблюдений, m×n матрица
$A^\top A$
Gram-матрица, n×n матрица
$b$
вектор правой части, вектор
$\hat x$
решение МНК, вектор

Условия применения

  • A имеет размер m×n.
  • Для единственного решения требуется A^\top A не вырождена.
  • Обычно m\ge n.

Ограничения

  • Коэффициентная матрица может быть плохо обусловленной.
  • Прямое решение может накапливать ошибку округления.
  • При плохой обусловленности лучше применять QR или SVD.

Подробное объяснение

Критерий МНК равен f(x)=||Ax-b||^2=(Ax-b)^T(Ax-b). Если раскрыть скобки и взять градиент по x, получится 2A^T(Ax-b). В точке минимума градиент равен нулю, поэтому A^T A x = A^T b. Та же формула имеет геометрический смысл: остаток r=b-Ax должен быть ортогонален любому вектору из пространства столбцов A, значит A^T r=0. Нормальные уравнения удобны для понимания и маленьких задач, но в вычислительной практике часто уступают QR-разложению, потому что прямое умножение на A^T ухудшает устойчивость. Важно видеть эту формулу в общей цепочке: исходные данные задают матрицу наблюдений A и правую часть b, затем выбирается способ приблизить b в пространстве столбцов A. Нормальные уравнения для МНК отвечает за прикладная задача наименьших квадратов, поэтому она не существует отдельно от ранга матрицы, ортогональности остатка и устойчивости вычислений. Если столбцы A хорошо различимы и данные имеют умеренный шум, нормальные уравнения могут дать понятный ручной путь. Если столбцы почти зависимы, лучше пользоваться QR или SVD, потому что они меньше усиливают ошибки округления. После вычисления результата полезно проверить три вещи: размерности всех матриц, величину остатка и связь с соседними формулами раздела. Такой подход превращает формулу из механической записи в рабочий инструмент анализа данных, регрессии, инженерных измерений и численной математики.

Как пользоваться формулой

  1. Вычислите A^\top A и A^\top b.
  2. Проверьте обратимость A^\top A.
  3. Решите систему на x.
  4. Проверьте оптимальность через остаток: он должен быть ортогонален столбцам A или, в QR-записи, давать Q^T r=0.

Историческая справка

Нормальные уравнения появились как аналитический аппарат метода наименьших квадратов в работах Гаусса и последующей теории ошибок наблюдений. В XIX веке они использовались в астрономии, геодезии и механике для обработки избыточных измерений. С развитием матричной алгебры формула A^T A x = A^T b стала компактной записью того же условия ортогональности. В XX веке эта тема стала частью стандартной численной линейной алгебры: вычислительные машины сделали возможной массовую обработку переопределенных систем, но одновременно показали, что алгебраически эквивалентные формулы могут вести себя по-разному из-за округления. Поэтому учебники начали разделять теоретический вывод МНК, геометрическое объяснение через проекции и практические алгоритмы QR, Холецкого и SVD. Такой исторический сдвиг важен для пользователя: он объясняет, почему на странице рядом стоят не только “красивая формула”, но и условия применимости, ограничения и типичные ошибки.

Историческая линия формулы

Историческая линия идет от Лежандра и Гаусса к классической теории ошибок; матричная форма нормальных уравнений закрепилась в учебниках линейной алгебры и численных методов XX века. Современная запись является результатом развития метода наименьших квадратов, матричной алгебры и численных методов; поэтому атрибуция здесь распределенная: классические идеи связаны с Гауссом и Лежандром, а устойчивые вычислительные формы — с более поздней численной линейной алгеброй.

Пример

Для A=[[1,0],[1,1],[1,2]] и b=(1,2,2)^T получаем A^T A=[[3,3],[3,5]], A^T b=(5,6)^T. Нормальные уравнения имеют вид 3a+3b=5 и 3a+5b=6. Вычитая первое уравнение из второго, получаем 2b=1, значит b=0.5. Тогда 3a+1.5=5, откуда a=7/6. Линия y=7/6+0.5t не проходит через все три точки точно, но минимизирует сумму квадратов вертикальных отклонений в этой модели. Дополнительная проверка: после получения численного ответа всегда подставь найденный вектор обратно в Ax, вычисли остаток r=b-Ax и сравни его норму с нормой остатка для соседнего пробного решения. Если речь идет о МНК, маленькое изменение параметров не должно уменьшать критерий; если оно уменьшает сумму квадратов, значит нормальные уравнения, QR-шаг или ручное исключение выполнены с ошибкой. Такой контроль особенно полезен в учебных задачах, где итоговое число легко получить, но трудно заметить неверный знак или перепутанный порядок умножения.

Частая ошибка

Нельзя автоматически считать A^T A обратимой: если столбцы A линейно зависимы, нормальные уравнения имеют неединственное решение или требуют псевдообратной. Также опасно решать большие плохо обусловленные задачи через явное формирование A^T A, потому что число обусловленности фактически возводится в квадрат.

Практика

Задачи с решением

Записать систему

Условие. A=\begin{bmatrix}1&0\\1&1\\1&2\end{bmatrix}, b=(1,1,2)^\top.

Решение. A^\top A=\begin{bmatrix}3&3\\3&5\end{bmatrix},\ A^\top b=(4,5)^\top.

Ответ. Нормальные уравнения: \begin{bmatrix}3&3\\3&5\end{bmatrix}x=(4,5)^\top.

Формат размера

Условие. A\in\mathbb R^{4\times2}.

Решение. A^\top A\in\mathbb R^{2\times2},\ A^\top b\in\mathbb R^2.

Ответ. Размерности согласованы: 2 уравнения на 2 неизвестных.

Дополнительные источники

  • Golub, Van Loan, Matrix Computations, Ch. 5
  • Trefethen, Demmel, Numerical Linear Algebra

Связанные формулы

Математика

Критерий наименьших квадратов

$\hat x_{\mathrm{LS}}=\arg\min_{x\in\mathbb R^n} \|Ax-b\|_2^2 = \arg\min_x (Ax-b)^\top (Ax-b).$

Критерий наименьших квадратов измеряет суммарную квадратичную ошибку между наблюдаемым вектором b и моделью Ax, поэтому превращает переопределенную систему в задачу минимизации.

Математика

Нормальные уравнения в QR-форме

$A^T A x = A^T b,\quad R^T R x = R^T Q^T b$

Из A=QR получаем эквивалентное равенство через R, сохраняя идею нормальных уравнений. Формула показывает устойчивый способ работать с задачей наименьших квадратов через ортогональную геометрию, а не через прямое обращение матрицы или слепое использование нормальных уравнений.

Математика

Обратное линейное отображение и обратная матрица

$T^{-1}\text{ существует }\Longleftrightarrow A^{-1}\text{ существует},\quad [T^{-1}]=A^{-1}$

Если линейное отображение T представлено обратимой квадратной матрицей A, то обратное отображение представлено матрицей A^{-1}. Это верно при согласованных базисах.