Математика / Матрицы, определители
Остаток в задаче ЛС и его ортогональность
Оптимальный LS-решение дает остаток, перпендикулярный всем столбцам A (и столбцам Q). Формула показывает устойчивый способ работать с задачей наименьших квадратов через ортогональную геометрию, а не через прямое обращение матрицы или слепое использование нормальных уравнений.
Формула
Вектор ошибки лежит в ортогональном дополнении к span(A).
Никакой дополнительный компонент в направлении модели уменьшить r нельзя.
Обозначения
- $r$
- невязка, вектор
- $A$
- матрица модели, матрица
- $Q$
- ортонормированная матрица, матрица
- $x_hat$
- решение LS, вектор
Условия применения
- \hat{x} из задачи LS
- Q^TQ=I
Ограничения
- при регуляризации формула меняется
- чистая ортогональность нарушается при численных ошибках
Подробное объяснение
Если остаток имел бы компонент вдоль какого-то столбца A, этот компонент можно было бы уменьшить небольшим шагом по x; в оптимуме это невозможно.
В задаче наименьших квадратов вектор b обычно не лежит точно в столбцовом пространстве A. Поэтому ищут не точное решение Ax=b, а такую точку Ax, которая является ближайшей к b среди всех линейных комбинаций столбцов A. Ортогональный остаток r=b-Ax служит признаком оптимальности: он должен быть перпендикулярен каждому столбцу A. QR-разложение делает эту геометрию вычислительно удобной. Матрица Q задает ортонормированный базис столбцового пространства, поэтому проекция b на это пространство находится без искажения длины, а верхнетреугольная матрица R позволяет получить коэффициенты обратным ходом. Для "Остаток в задаче ЛС и его ортогональность" важно видеть связь между формулой, ортогональной проекцией и устойчивым алгоритмом.
Еще один смысловой слой для "Остаток в задаче ЛС и его ортогональность" - связь с проекцией на подпространство. Решение не обязано удовлетворять Ax=b точно; оно выбирает ближайшую точку в образе A. Поэтому любая проверка ответа должна смотреть не только на коэффициенты, но и на геометрию остатка, иначе можно получить численно аккуратный, но концептуально неверный результат.
Как пользоваться формулой
- Сформируйте r=b-Ax_hat.
- Вычислите A^T r или Q^T r.
- Проверяйте близость к нулю.
- Проверьте оптимальность через остаток: он должен быть ортогонален столбцам A или, в QR-записи, давать Q^T r=0.
Историческая справка
Это прямой геометрический смысл нормальных уравнений и минимальности по норме остатка.
Метод наименьших квадратов исторически связан с обработкой астрономических и геодезических наблюдений, где измерений было больше, чем параметров. Позже матричная запись и QR-разложение дали более устойчивый язык для той же идеи. В вычислительной линейной алгебре XX века QR-подход стал стандартным ответом на проблему численной неустойчивости нормальных уравнений при плохо обусловленных матрицах.
Исторически этот переход от нормальных уравнений к ортогональным методам отражает изменение требований к математике: стало недостаточно получить формально правильную формулу, нужно было гарантировать надежность вычисления на реальных измерениях и больших таблицах данных.
Историческая линия формулы
Идея заложена в классических методах наименьших квадратов и используется во всех статистических пакетах. Идеи наименьших квадратов обычно связывают с Гауссом и Лежандром, а QR-реализацию - с развитием численной линейной алгебры. Конкретная формула является результатом этой линии, а не изолированным открытием.
Пример
Для A=[[2,0],[0,1],[0,1]], b=(4,0,1), x_hat=(2,1/2): r=(0,-1/2,1/2), Q^T r=0. Для проверки результата в теме "Остаток в задаче ЛС и его ортогональность" полезно не ограничиваться найденным вектором коэффициентов. Нужно вычислить предсказанный вектор A x, затем остаток r=b-Ax и проверить его ортогональность столбцовому пространству A. В QR-подходе это удобно делать через Q: если Q^T r близко к нулю, решение действительно является ортогональной проекцией b на пространство столбцов. Такой контроль особенно важен в прикладных данных, где небольшой числовой ответ может выглядеть правдоподобно, но не быть оптимальным по методу наименьших квадратов.
Частая ошибка
Проверять только ||r|| без условия A^T r=0 можно пропустить ошибки в решении. Распространенная ошибка - решать задачу наименьших квадратов как обычную квадратную систему. Если A прямоугольная, точного решения может не быть, и смысл имеет минимум нормы остатка. Еще одна ошибка - без необходимости строить A^T A: это удваивает показатель обусловленности и может резко ухудшить точность. QR-подход как раз нужен для того, чтобы сохранить геометрию проекции и уменьшить численные риски.
Практика
Задачи с решением
Проверка ортогональности
Условие. Дано A,b,x_hat из примера проектора.
Решение. Вычислите r, затем A^T r=0.
Ответ. A^T r=0
Почему это минимум
Условие. Что означает A^T r=0?
Решение. Остаток перпендикулярен span(A), значит направление улучшения отсутствует.
Ответ. Это условие оптимальности LS
Дополнительные источники
- MIT OCW 18.06SC Least Squares
- Golub & Van Loan, Matrix Computations
- NIST Handbook of Statistical Methods
Связанные формулы
Математика
Наименьшие квадраты через QR
После QR-раскладывания задача минимизации сводится к решению треугольной системы. Формула показывает устойчивый способ работать с задачей наименьших квадратов через ортогональную геометрию, а не через прямое обращение матрицы или слепое использование нормальных уравнений.
Математика
Проектор на span(Q)
Проецирование на пространство столбцов Q удобно через матрицу QQ^T. Эта формула относится к ортогонализации столбцов матрицы и объясняет, как заменить исходный набор векторов ортонормированным базисом с верхнетреугольными коэффициентами перехода.
Математика
Нормальные уравнения в QR-форме
Из A=QR получаем эквивалентное равенство через R, сохраняя идею нормальных уравнений. Формула показывает устойчивый способ работать с задачей наименьших квадратов через ортогональную геометрию, а не через прямое обращение матрицы или слепое использование нормальных уравнений.
Математика
Формула QR-разложения
Матрица A раскладывается в произведение ортонормированной матрицы Q и верхнетреугольной R. Эта формула относится к ортогонализации столбцов матрицы и объясняет, как заменить исходный набор векторов ортонормированным базисом с верхнетреугольными коэффициентами перехода.