Linear Algebra-投影矩阵与最小二乘-16

一、知识概要

上一节我们学习了投影的基本概念，今天让我们把这个概念应用到一个非常实用的问题上——最小二乘法。其实你会发现，最小二乘法在本质上就是一种投影，它的目标就是找到使得误差最小的解。

本文涉及到矩阵列空间与左零空间的密切关系：向量的投影本质上就是在列空间中寻找距离原向量最近的点，而这个过程正好就是最小二乘法的核心思想。我们还会在此基础上引出标准正交向量组的概念，为后续内容做好铺垫。

二、投影矩阵回顾

上一节我们得到了投影矩阵 $P$ ，其公式为：

$P = A(A^TA)^{-1}A^T$

当时推导这个公式时，我们假设 $A = [a_1\ a_2]$ ，其中 $a_1$ 、 $a_2$ 是平面上的两个基向量，此时 $A$ 的列空间就是整个 $R^2$ 平面。当我们计算 $Pb$ 时，其实就是把向量 $b$ 投影到 $A$ 的列空间中，得到列空间中距离 $b$ 最近的点。

现在，让我们通过两个典型问题来加深对投影矩阵性质的理解：

若 $b$ 在矩阵 $A$ 的列空间里，则 $Pb =?$

此时答案是： $Pb = b$ 。因为 $b$ 本身就在 $A$ 的列空间中，它在列空间中最近的点就是它自己，所以投影自然就是它本身。
- 证明过程：
  - 由于 $b$ 在 $A$ 的列空间里，所以一定可以写成 $Ax = b$ 的形式。
  - 将其代入投影矩阵可得： $A(A^TA)^{-1}A^TAx$ ，根据矩阵乘法结合律， $A(A^TA)^{-1}A^TAx = (A(A^TA)^{-1}A^T)Ax$ ，而 $A(A^TA)^{-1}A^T = P$ ，所以 $A(A^TA)^{-1}A^TAx = PAx$ ，又因为 $Ax = b$ ，所以 $PAx = Pb = b$ 。
若 $b$ 垂直于 $A$ 的列空间，则 $Pb =?$

此时答案是： $Pb = 0$ ，即投影结果为零向量。想象一下，如果一个向量本身就垂直于平面，那么它在平面上根本就没有分量，投影自然就是零向量。
- 证明过程：
  - 因为 $b$ 垂直于 $A$ 的列空间，所以 $b$ 垂直于 $A$ 的所有列向量，那么 $b$ 必然在左零空间中。
  - 代入投影矩阵公式： $A(A^TA)^{-1}A^Tb$ ，由于 $b$ 在左零空间，所以 $A^Tb = 0$ ，则 $A(A^TA)^{-1}A^Tb = A(A^TA)^{-1}×0 = 0$ 。

通过这两个问题，我们可以总结出投影矩阵的核心作用：任意一个向量 $b$ 都可以分解为两个正交分量，一个分量在 $A$ 的列空间中，另一个分量垂直于 $A$ 的列空间。投影矩阵的作用就是保留列空间中的分量，去除垂直于列空间的分量。

我们可以用公式 $b = p + e$ 表示这种分解关系，其中 $p$ 是投影矩阵作用于 $b$ 上得到的向量， $e$ 是左零空间中的分量。如果用类似投影矩阵表示，有：

$p = Pb$ $e = b - p = b - Pb = (I - P)b$

这里有意思的一点是： $(I - P)$ 本身也可以看作一个投影矩阵，它将向量 $b$ 投影到左零空间中，正好和 $P$ 分工合作，把向量分到两个正交的子空间中。

Linear_Algebra160

这个分解关系非常重要，它是我们理解最小二乘法的基础。

三、最小二乘法

好了，现在让我们进入正题——最小二乘法。其实最小二乘法我们在中学统计课程中就接触过，当时用它来做线性回归。现在从线性代数的视角，让我们重新理解它的本质。

3.1 最小二乘解题

【例】 继续探讨上节课的例子，求解过三个点 $(1,1)$ 、 $(2,2)$ 、 $(3,2)$ 拟合的直线方程。

列出方程：假设最优直线方程为 $y = C + Dx$ ，将三个点代入可得方程组：

$\begin{cases}C + D = 1 \\ C + 2D = 2 \\ C + 3D = 2\end{cases}$

将其转化为矩阵方程 $Ax = b$ 的形式为：

$\begin{bmatrix}1 & 1 \\ 1 & 2 \\ 1 & 3\end{bmatrix}\begin{bmatrix}C \\ D\end{bmatrix}=\begin{bmatrix}1 \\ 2 \\ 2\end{bmatrix}$

很明显，这三个点不共线，该方程无解。这就是我们面临的问题：方程无解，但我们依然想要找到一个”最优”的近似解。

计算误差并拟合：由于三点不共线，先计算直线与各点之间的误差（偏移量），用 $|Ax - b|$ 表示。为便于计算，我们研究它们的平方和 $|e|^2 = |Ax - b|^2$ 。

从几何意义上讲，这个过程本质就是将向量 $b$ 投影到 $A$ 的列空间中，也就是在列空间中找到距离 $b$ 最近的点，这个最近点对应就是最优拟合直线。

使用上节课介绍的方程 $A^Tb = A^TA\hat{x}$ 来拟合直线。在这个例子中， $A=\begin{bmatrix}1 & 1 \\ 1 & 2 \\ 1 & 3\end{bmatrix}$ ， $\hat{x}=\begin{bmatrix}\hat{C} \\ \hat{D}\end{bmatrix}$ ， $b=\begin{bmatrix}1 \\ 2 \\ 2\end{bmatrix}$ ，代入方程求解：

$A^TA=\begin{bmatrix}1 & 1 & 1 \\ 1 & 2 & 3\end{bmatrix}\begin{bmatrix}1 & 1 \\ 1 & 2 \\ 1 & 3\end{bmatrix}=\begin{bmatrix}3 & 6 \\ 6 & 14\end{bmatrix}\\ A^Tb=\begin{bmatrix}1 & 1 & 1 \\ 1 & 2 & 3\end{bmatrix}\begin{bmatrix}1 \\ 2 \\ 2\end{bmatrix}=\begin{bmatrix}5 \\ 11\end{bmatrix}$

则方程 $A^TA\hat{x} = A^Tb$ 变为 $\begin{bmatrix}3 & 6 \\ 6 & 14\end{bmatrix}\begin{bmatrix}\hat{C} \\ \hat{D}\end{bmatrix}=\begin{bmatrix}5 \\ 11\end{bmatrix}$ ，求解可得：

$\hat{C}=\frac{2}{3}，\hat{D}=\frac{1}{2}$

所以得到的直线方程为 $y=\hat{C}+\hat{D}x=\frac{2}{3}+\frac{1}{2}x$ 。

检验：分别将 $(1,1)$ 、 $(2,2)$ 、 $(3,2)$ 三个点的横坐标代入拟合直线方程，可以得到拟合直线上各点对应的位置，即 $p$ 的位置。需要注意的是，最小二乘法的有效性依赖于数据中没有误差过大的异常点。

3.2 性质讨论

上述问题也可以通过使误差最小来计算。将误差化为 $\left|e_{1}\right|^{2}+\left|e_{2}\right|^{2}+\left|e_{3}\right|^{2}=(C + D - 1)^{2}+(C + 2D - 2)^{2}+(C + 3D - 2)^{2}$ ，从微积分的角度，对 $C$ 和 $D$ 求偏导并令偏导为零求极值，也能求得相同的拟合直线。这说明投影方法和微积分方法得到的结果是一致的。

Linear_Algebra161

将误差向量记为 $e$ ，对应的投影向量记为 $p$ （对应拟合直线上的 $y$ 值），有 $b = p + e$ （ $b$ 为给定的点的实际 $y$ 值）。在本题中：

$b=\begin{bmatrix}1 \\ 2 \\ 2\end{bmatrix}，p=\begin{bmatrix}\frac{7}{6} \\ \frac{10}{6} \\ \frac{13}{6}\end{bmatrix}，e=\begin{bmatrix}-\frac{1}{6} \\ \frac{2}{6} \\ -\frac{1}{6}\end{bmatrix}$

由此可得到以下重要性质：

误差向量 $e$ 与投影向量 $p$ 垂直：即 $e\cdot p = 0$ 。
误差向量 $e$ 不仅垂直于 $p$ ，还垂直于列空间中的每一个向量。这些性质进一步验证了前文关于投影的相关介绍，符合正交补空间的结论。

3.3 结论证明

在解方程过程中，我们用到了“如果矩阵 $A$ 各列线性无关，则矩阵 $A^TA$ 可逆”这一重要结论，之前未给出证明，下面进行证明：

我们写出零空间方程形式 $A^TAx = 0$ ，目的是寻找零空间内的所有向量 $x$ 。
证明过程中我们需要用到之前学过的几个结论：
- 如果矩阵可逆，那么其对应的零空间仅包含零向量；
- 对于列向量 $x$ ， $x^Tx$ 表示求 $x$ 的长度平方；
- 若 $x^Tx = 0$ ，则必有 $x = 0$ 。
具体证明过程：
- 将方程 $A^TAx = 0$ 两边同时左乘 $x^T$ ，得到 $x^TA^TAx = 0$ ；
- 根据矩阵乘法的转置性质 $(AB)^T = B^TA^T$ ，则 $x^TA^TAx = (Ax)^TAx = 0$ ；
- 因为向量的内积 $(Ax)^TAx = 0$ ，而向量的内积为零时，该向量必然是零向量，所以可推得 $Ax = 0$ ；
- 又因为已知矩阵 $A$ 各列线性无关，根据线性无关的定义，若 $Ax = 0$ ，则 $x$ 必为零向量；
- 综上，我们证得 $A^TA$ 的零空间只有零向量，根据矩阵可逆的判定条件，若矩阵的零空间只有零向量，则该矩阵可逆，所以 $A^TA$ 可逆。

这样就完整证明了：如果矩阵 $A$ 各列线性无关，则矩阵 $A^TA$ 可逆。这个结论非常重要，它是最小二乘法能够有效求解的理论保证。

四、标准正交基

这部分内容主要是为下节课做铺垫，内容不多，我们简单了解即可。

之前我们接触过的向量组 $\begin{bmatrix}1 \\ 0 \\ 0\end{bmatrix}$ ， $\begin{bmatrix}0 \\ 0 \\ 1\end{bmatrix}$ ， $\begin{bmatrix}0 \\ 1 \\ 0\end{bmatrix}$ ，它们两两正交，并且每个向量都是单位向量，长度为 $1$ 。基于此，我们引入“标准正交向量组”的概念，其中”标准”表示向量是单位向量。

同样属于标准正交向量组的还有 $\begin{bmatrix}\cos\theta \\ \sin\theta\end{bmatrix}$ ， $\begin{bmatrix}-\sin\theta \\ \cos\theta\end{bmatrix}$ ，这两个向量不仅正交，长度都为 $1$ ，也是一个典型的标准正交向量组。