Linear Algebra-投影矩阵与最小二乘-16

一、知识概要

本节聚焦于最小二乘法，深入探究上一节提及的投影概念。实际上，最小二乘法本质就是一种投影，其目的是使误差达到最小。同时，本节还涉及矩阵列空间与左零空间的相关知识，向量的投影就是在列空间中寻找距离最近的点，这与最小二乘法紧密相连。此外，还引出了标准正交向量组的概念。

二、投影矩阵回顾

上一节介绍了投影矩阵 $P$ ，其公式为：

$P = A(A^TA)^{-1}A^T$

在推导该公式时， $A = [a_1\ a_2]$ ，其中 $a_1$ 、 $a_2$ 是平面上的两个基， $A$ 的列空间就是整个 $R^2$ 空间。

投影矩阵 $P$ 与向量 $b$ 的乘积，可以理解为将 $b$ 向量投影到它在列空间中的最近一点上。这和上节课将向量 $p$ 投影到平面上的过程类似。基于此，有以下两个问题：

若 $b$ 在矩阵 $A$ 的列空间里，则 $Pb =?$ ：此时 $Pb = b$ 。因为 $b$ 本身就在 $A$ 的列空间中，就如同上节课中向量 $b$ 就在平面上，投影就是其本身。
- 证明过程：
  - 由于 $b$ 在 $A$ 的列空间里，所以一定可以写成 $Ax = b$ 的形式。
  - 将其代入投影矩阵可得： $A(A^TA)^{-1}A^TAx$ ，根据矩阵乘法结合律， $A(A^TA)^{-1}A^TAx = (A(A^TA)^{-1}A^T)Ax$ ，而 $A(A^TA)^{-1}A^T = P$ ，所以 $A(A^TA)^{-1}A^TAx = PAx$ ，又因为 $Ax = b$ ，所以 $PAx = Pb = b$ 。
若 $b$ 垂直于 $A$ 的列空间，则 $Pb =?$ ：此时 $Pb = 0$ ，即没有投影。例如上节课中向量与平面垂直穿过的情况，此时向量 $b$ 在平面上没有分量，投影为 $0$ 。
- 证明过程：
  - 因为 $b$ 垂直于 $A$ 的列空间，所以 $b$ 垂直于 $A$ 的所有列向量，那么 $b$ 在左零空间中。
  - 代入投影矩阵 $A(A^TA)^{-1}A^Tb$ ，由于 $b$ 在左零空间，所以 $A^Tb = 0$ ，则 $A(A^TA)^{-1}A^Tb = A(A^TA)^{-1}×0 = 0$ 。

通过这两个问题可知，一个向量 $b$ 总有两个分量，一个在 $A$ 的列空间中，另一个垂直于 $A$ 的列空间。投影矩阵的作用就是保留列空间中的分量，去除垂直于列空间的分量。可以用公式 $b = p + e$ 表示这种关系，其中 $p$ 是投影矩阵作用于 $b$ 上得到的向量， $e$ 是左零空间中的分量。如果用类似投影矩阵表示，有 $p = Pb$ ， $e = b - p = b - Pb = (I - P)b$ ，这里可以把 $(I - P)$ 也看作一个投影矩阵，它将向量 $b$ 投影到左零空间中。

Linear_Algebra160

三、最小二乘法

3.1 最小二乘解题

【例】继续探讨上节课的例子，求解过三个点 $(1,1)$ 、 $(2,2)$ 、 $(3,2)$ 拟合的直线方程。

列出方程：假设最优直线方程为 $y = C + Dx$ ，将三个点代入可得方程组：

$\begin{cases}C + D = 1 \\ C + 2D = 2 \\ C + 3D = 2\end{cases}$

将其转化为矩阵方程 $Ax = b$ 的形式为：

$\begin{bmatrix}1 & 1 \\ 1 & 2 \\ 1 & 3\end{bmatrix}\begin{bmatrix}C \\ D\end{bmatrix}=\begin{bmatrix}1 \\ 2 \\ 2\end{bmatrix}$

很明显，这三个点不共线，该方程无解。

计算误差并拟合：由于三点不共线，先计算直线与各点之间的误差（偏移量），用 $|Ax - b|$ 表示。为便于计算，研究它们的平方和 $|e|^2 = |Ax - b|^2$ 。从几何意义上讲，这个过程本质是将向量 $b$ 投影到 $A$ 的列空间中，也就是将三个点投影到满足方程条件的最近的一条直线上。

使用上节课介绍的方程 $A^Tb = A^TA\hat{x}$ 来拟合直线。在这个例子中， $A=\begin{bmatrix}1 & 1 \\ 1 & 2 \\ 1 & 3\end{bmatrix}$ ， $\hat{x}=\begin{bmatrix}\hat{C} \\ \hat{D}\end{bmatrix}$ ， $b=\begin{bmatrix}1 \\ 2 \\ 2\end{bmatrix}$ ，代入方程求解：

$A^TA=\begin{bmatrix}1 & 1 & 1 \\ 1 & 2 & 3\end{bmatrix}\begin{bmatrix}1 & 1 \\ 1 & 2 \\ 1 & 3\end{bmatrix}=\begin{bmatrix}3 & 6 \\ 6 & 14\end{bmatrix}\\ A^Tb=\begin{bmatrix}1 & 1 & 1 \\ 1 & 2 & 3\end{bmatrix}\begin{bmatrix}1 \\ 2 \\ 2\end{bmatrix}=\begin{bmatrix}5 \\ 11\end{bmatrix}$

则方程 $A^TA\hat{x} = A^Tb$ 变为 $\begin{bmatrix}3 & 6 \\ 6 & 14\end{bmatrix}\begin{bmatrix}\hat{C} \\ \hat{D}\end{bmatrix}=\begin{bmatrix}5 \\ 11\end{bmatrix}$ ，求解可得：

$\hat{C}=\frac{2}{3}，\hat{D}=\frac{1}{2}$

所以得到的直线方程为 $y=\hat{C}+\hat{D}x=\frac{2}{3}+\frac{1}{2}x$ 。

检验：分别将 $(1,1)$ 、 $(2,2)$ 、 $(3,2)$ 三个点的横坐标代入拟合直线方程，可以得到拟合直线上各点对应的位置，即 $p$ 的位置。需要注意的是，以上能使用最小二乘法是因为没有误差过大的量。

3.2 性质讨论

上述问题也可以通过使误差最小来计算。将误差化为 $\left|e_{1}\right|^{2}+\left|e_{2}\right|^{2}+\left|e_{3}\right|^{2}=(C + D - 1)^{2}+(C + 2D - 2)^{2}+(C + 3D - 2)^{2}$ ，从导数的角度，对 $C$ 和 $D$ 求偏导并求极值，也能求得拟合直线。

Linear_Algebra161

将误差向量记为 $e$ ，对应的投影向量记为 $p$ （对应拟合直线上的 $y$ 值），有 $b = p + e$ （ $b$ 为给定的点的实际 $y$ 值）。在本题中， $b=\begin{bmatrix}1 \\ 2 \\ 2\end{bmatrix}$ ， $p=\begin{bmatrix}\frac{7}{6} \\ \frac{10}{6} \\ \frac{13}{6}\end{bmatrix}$ ， $e=\begin{bmatrix}-\frac{1}{6} \\ \frac{2}{6} \\ -\frac{1}{6}\end{bmatrix}$ 。由此可得到以下性质：

误差向量 $e$ 与投影向量 $p$ 垂直，即 $e\cdot p = 0$ 。
误差向量 $e$ 不仅垂直于 $p$ ，还垂直于列空间中的每一个向量。这些性质进一步验证了前文关于投影的相关介绍。

3.3 结论证明

在解方程过程中，用到了“如果矩阵 $A$ 各列线性无关，则矩阵 $A^TA$ 可逆”这一结论，之前未给出证明，下面进行证明：

写出零空间方程形式 $A^TAx = 0$ ，目的是寻找零空间内的向量 $x$ 。
引入之前学过的结论：
- 如果矩阵可逆，那么其对应的零空间仅包含零向量。
- 对于列向量 $x$ ， $x^Tx$ 表示求 $x$ 的长度。
- 若 $x^Tx = 0$ ，则 $x = 0$ （ $x$ 是列向量）。
证明过程：
- 将方程 $A^TAx = 0$ 两边同时左乘 $x^T$ ，得到 $x^TA^TAx = 0$ 。
- 根据矩阵乘法的性质 $(AB)^T = B^TA^T$ ，则 $x^TA^TAx = (Ax)^TAx = 0$ 。
- 因为向量的内积 $(Ax)^TAx = 0$ ，且向量的内积为 $0$ 时，该向量为零向量，所以可推得 $Ax = 0$ 。
- 又因为已知矩阵 $A$ 各列线性无关，根据线性无关的定义，若 $Ax = 0$ ，则 $x$ 必为零向量。
- 综上，证得 $A^TA$ 的零空间只有零向量，根据矩阵可逆的判定条件，若矩阵的零空间只有零向量，则该矩阵可逆，所以 $A^TA$ 可逆。即证明了如果矩阵 $A$ 各列线性无关，则矩阵 $A^TA$ 可逆。

四、标准正交基

这部分内容主要是为下节课做铺垫，相对较少，简单了解即可。

之前接触过的向量组 $\begin{bmatrix}1 \\ 0 \\ 0\end{bmatrix}$ ， $\begin{bmatrix}0 \\ 0 \\ 1\end{bmatrix}$ ， $\begin{bmatrix}0 \\ 1 \\ 0\end{bmatrix}$ ，它们是正交的，并且还有特殊性质——都是单位向量，长度为 $1$ 。基于此，引入“标准正交向量组”的概念，其中“标准”表示向量是单位向量。

同样属于标准正交向量组的还有 $\begin{bmatrix}\cos\theta \\ \sin\theta\end{bmatrix}$ ， $\begin{bmatrix}-\sin\theta \\ \cos\theta\end{bmatrix}$ 。