Математика / Матрицы, определители

Число обусловленности для задачи МНК

При переходе к нормальным уравнениям число обусловленности фактически возводится в квадрат, поэтому ошибки округления и шум в данных могут заметно усилиться.

Опубликовано: Обновлено:

Формула

$$\kappa_2(A^\top A)=\frac{\sigma_{\max}^2}{\sigma_{\min}^2}=\kappa_2(A)^2.$$
diagram Связь обусловленностей

Квадратное усиление ошибки при переходе к нормальным уравнениям.

κ(A^T A)=κ(A)^2.

Обозначения

$\kappa_2$
число обусловленности в 2-норме, безразмерное
$\sigma_{\max},\sigma_{\min}$
максимальное и минимальное сингулярные числа, безразмерные
$A$
матрица задачи, матрица

Условия применения

  • A имеет сингулярные числа σ_max ≥ σ_min > 0.
  • Матрица A имеет полный столбцовый ранг.
  • Используется 2-норма для оценки.

Ограничения

  • Высокий κ₂(A^\top A) часто ухудшает устойчивость решения нормальных уравнений.
  • Связь через квадрат не меняет фундаментального масштаба ошибки.
  • Нужна дополнительная масштабировка столбцов для практической стабилизации.

Подробное объяснение

Число обусловленности показывает, насколько относительная ошибка во входных данных может усилиться в результате. Для евклидовой нормы сингулярные числа матрицы A^T A равны квадратам сингулярных чисел A. Поэтому отношение максимального и минимального сингулярного числа тоже возводится в квадрат: cond(A^T A)=cond(A)^2. На практике это означает, что нормальные уравнения могут потерять примерно вдвое больше значащих цифр, чем методы, работающие непосредственно с A. QR-разложение и SVD избегают этого квадратичного ухудшения. Важно видеть эту формулу в общей цепочке: исходные данные задают матрицу наблюдений A и правую часть b, затем выбирается способ приблизить b в пространстве столбцов A. Число обусловленности для задачи МНК отвечает за численная чувствительность, поэтому она не существует отдельно от ранга матрицы, ортогональности остатка и устойчивости вычислений. Если столбцы A хорошо различимы и данные имеют умеренный шум, нормальные уравнения могут дать понятный ручной путь. Если столбцы почти зависимы, лучше пользоваться QR или SVD, потому что они меньше усиливают ошибки округления. После вычисления результата полезно проверить три вещи: размерности всех матриц, величину остатка и связь с соседними формулами раздела. Такой подход превращает формулу из механической записи в рабочий инструмент анализа данных, регрессии, инженерных измерений и численной математики.

Как пользоваться формулой

  1. Оцените κ₂(A) или κ₂(A^\top A) по сингулярным числам/итеративным процедурам.
  2. Сравните с порогом: если слишком велик, переходите на QR/SVD.
  3. Используйте масштабирование столбцов для уменьшения κ.
  4. Проверьте оптимальность через остаток: он должен быть ортогонален столбцам A или, в QR-записи, давать Q^T r=0.

Историческая справка

Понимание роли обусловленности стало центральным в численной линейной алгебре XX века, особенно после работ Алана Тьюринга, Джона фон Неймана, Джеймса Уилкинсона и последующих исследователей устойчивости алгоритмов. Для МНК это объяснило, почему классически удобные нормальные уравнения не всегда являются хорошим численным методом. В XX веке эта тема стала частью стандартной численной линейной алгебры: вычислительные машины сделали возможной массовую обработку переопределенных систем, но одновременно показали, что алгебраически эквивалентные формулы могут вести себя по-разному из-за округления. Поэтому учебники начали разделять теоретический вывод МНК, геометрическое объяснение через проекции и практические алгоритмы QR, Холецкого и SVD. Такой исторический сдвиг важен для пользователя: он объясняет, почему на странице рядом стоят не только “красивая формула”, но и условия применимости, ограничения и типичные ошибки.

Историческая линия формулы

Оценка cond(A^T A)=cond(A)^2 связана с сингулярными числами и современной теорией численной устойчивости; это не именная школьная формула, а стандартный результат численной линейной алгебры. Современная запись является результатом развития метода наименьших квадратов, матричной алгебры и численных методов; поэтому атрибуция здесь распределенная: классические идеи связаны с Гауссом и Лежандром, а устойчивые вычислительные формы — с более поздней численной линейной алгеброй.

Пример

Если cond(A)=10^4, то cond(A^T A) примерно равно 10^8. Это означает, что задача, еще терпимая для QR-разложения, может стать крайне чувствительной при решении через нормальные уравнения. Например, относительная ошибка данных порядка 10^{-8} в неблагоприятной ситуации способна привести к ошибке порядка единицы в решении нормальной системы. Именно поэтому в численной практике формула A^T A x=A^T b полезна для теории, но не всегда для вычислений. Дополнительная проверка: после получения численного ответа всегда подставь найденный вектор обратно в Ax, вычисли остаток r=b-Ax и сравни его норму с нормой остатка для соседнего пробного решения. Если речь идет о МНК, маленькое изменение параметров не должно уменьшать критерий; если оно уменьшает сумму квадратов, значит нормальные уравнения, QR-шаг или ручное исключение выполнены с ошибкой. Такой контроль особенно полезен в учебных задачах, где итоговое число легко получить, но трудно заметить неверный знак или перепутанный порядок умножения.

Частая ошибка

Ошибка — смотреть только на размер матрицы и не оценивать обусловленность. Маленькая матрица тоже может быть почти вырожденной, если ее столбцы почти линейно зависимы. Также нельзя путать плохую обусловленность модели с ошибкой алгоритма: иногда проблема заложена в самих данных.

Практика

Задачи с решением

Быстрый расчет

Условие. σ_\max=12,\ σ_\min=3.

Решение. κ₂(A)=12/3=4,\ κ₂(A^\top A)=4^2=16.

Ответ. κ₂(A^\top A)=16.

По уже известному квадрату

Условие. κ₂(A^\top A)=225 и A невырождена.

Решение. κ₂(A)=\sqrt{225}=15.

Ответ. κ₂(A)=15.

Дополнительные источники

  • Higham, Accuracy and Stability of Numerical Algorithms
  • Golub, Van Loan, Matrix Computations

Связанные формулы

Математика

Нормальные уравнения для МНК

$A^\top A\,\hat x = A^\top b.$

Нормальные уравнения A^T A x = A^T b задают стационарное условие задачи МНК и позволяют найти параметры, при которых остаток ортогонален всем столбцам матрицы A.

Математика

Формула QR-разложения

$A = QR,\quad Q^{\top}Q=I_r,\quad R \text{ верхнетреугольная}$

Матрица A раскладывается в произведение ортонормированной матрицы Q и верхнетреугольной R. Эта формула относится к ортогонализации столбцов матрицы и объясняет, как заменить исходный набор векторов ортонормированным базисом с верхнетреугольными коэффициентами перехода.