Linear Algebra-子空间投影-15

一、知识概要

在上一节中，我们学习了正交的概念，理解了什么是正交向量和正交子空间。今天我们要把这个概念用起来，解决一个非常实用的问题：如何将一个向量投影到一个子空间上。

投影这个概念其实我们从初中几何就开始接触了——作垂线找投影。今天我们要做的，就是把这个几何直观推广到高维空间，并用矩阵的形式把它表示出来。通过投影，我们还能得到一个非常重要的应用：当方程组无解时，如何找到”最优”的近似解。这就是最小二乘法的核心思想。

让我们一步步来，从最简单的一维投影开始，慢慢推广到高维情况。

二、投影

2.1 简单的投影

先来看最简单的情况：向量 $b$ 在另一个向量 $a$ 上的投影。如下图所示， $p$ 就是 $b$ 在 $a$ 方向上的投影，它可以表示为 $p = xa$ ，其中 $x$ 是一个标量倍数。而向量 $e = b - p$ 就是 $b$ 与投影 $p$ 之间的误差向量。

Linear_Algebra150

根据我们对投影的几何直观，误差向量 $e$ 应该与 $a$ 垂直，这是整个推导的关键。利用上一节学到的正交概念，两个垂直向量的点积为 $0$ ，因此：

$a^{T} e = a^{T}(b - p) = a^{T}(b - ax) = 0$

现在我们来解这个关于 $x$ 的方程：

$a^{T}(b - ax) = 0\xrightarrow{} a^{T}b - a^{T}ax = 0\xrightarrow{} a^{T}ax = a^{T}b\xrightarrow{} x = \frac{a^{T}b}{a^{T}a}$

把 $x$ 代回到 $p = xa$ 中，我们就得到了投影 $p$ 的表达式：

$p = a\frac{a^{T}b}{a^{T}a}$

仔细观察这个表达式，我们可以把它重新排列一下：

$p = \left(\frac{aa^{T}}{a^{T}a}\right) b$

看到了吗？投影其实是通过一个矩阵作用在原向量 $b$ 上得到的。这个矩阵我们称之为投影矩阵 $P$ ，即 $p = Pb$ ，其中：

$P = \frac{aa^{T}}{a^{T}a}$

这里需要注意一下维度：当 $a$ 是列向量时， $aa^{T}$ 是一个矩阵，而 $a^{T}a$ 是一个标量（数字），所以整个表达式是合法的。在这种一维情况下，矩阵 $P$ 的秩为 $1$ ，而且是对称的。

投影矩阵 $P$ 有两个非常重要的性质，这两个性质在任何维度下都成立：

对称性： $P^{T} = P$ 。证明很简单：因为 $P = a\frac{a^{T}}{a^{T}a}$ ，分母 $a^{T}a$ 是数字，分子 $a a^{T}$ 转置后形式不变，所以 $P$ 是对称矩阵。
幂等性： $P^{2} = P$ 。从几何意义上很好理解：如果你对一个向量已经投影过一次得到 $p$ ，再对 $p$ 投影一次，结果还是 $p$ 本身，因为 $p$ 已经在 $a$ 方向上了。这两条性质是后续扩展投影概念的重要基础。

2.2 平面上的投影

理解了一维投影后，我们现在来看更一般的情况：将向量 $b$ 投影到三维空间中的一个平面上（这是一个二维子空间）。

假设平面由两个线性无关的向量 $a_1$ 和 $a_2$ 张成，那么平面上的任何投影 $p$ 都可以表示为 $a_1$ 和 $a_2$ 的线性组合：

$p=\widehat{x_{1}} a_{1}+\widehat{x_{2}} a_{2}$

如果令 $A = [a_1\ a_2]$ ， $\hat{x} = \begin{bmatrix}\widehat{x_{1}}\\\\\widehat{x_{2}}\end{bmatrix}$ ，那么上式可以简洁地写成：

$p = A\hat{x}$

几何关系如下图所示：

Linear_Algebra151

类比一维投影的思路，误差向量 $e = b - p = b - A\hat{x}$ 应该与平面中的所有向量垂直，自然也就与基向量 $a_1$ 和 $a_2$ 都垂直。将 $p = A\hat{x}$ 代入垂直关系可得：

$\begin{bmatrix}a_{1}^{T}\\\\a_{2}^{T}\end{bmatrix}(b - A\hat{x}) = \begin{bmatrix}0\\\\0\end{bmatrix}$

左边第一个矩阵正是 $A^T$ ，所以方程可以简化为：

$A^{T}(b - A\hat{x}) = 0$

你看，这个形式和一维投影非常相似！实际上一维投影就是 $A$ 只有一列时的特殊情况。

从这个方程我们还可以看出一点：误差 $e = b - A\hat{x}$ 在 $A^T$ 的零空间里。根据上节课所学，零空间与行空间正交，所以 $e$ 向量与 $A^T$ 的行向量正交，进而与 $A$ 的列向量 $a_1$ 、 $a_2$ 正交，这正好符合我们对误差向量的要求，完美验证了之前的结论。

接下来我们求平面上的投影矩阵 $P$ 。由 $A^{T}(b - A\hat{x}) = 0$ ，先化简得到：

$A^{T}b = A^{T}A\hat{x}$

这里需要特别注意：因为 $A^T$ 不一定是方阵，所以不能直接在两边左乘 $(A^{T})^{-1}$ 。但由于 $A$ 是由两个线性无关的基向量构成的矩阵，根据上节知识可知 $A^{T}A$ 可逆，因此我们可以在两边同时左乘 $(A^{T}A)^{-1}$ 来解方程：

$A^{T}A\hat{x} = A^{T}b\xrightarrow{} \hat{x} = (A^{T}A)^{-1}A^{T}b$

将 $\hat{x} = (A^{T}A)^{-1}A^{T}b$ 代入 $p = A\hat{x}$ ，可得：

$p = A(A^{T}A)^{-1}A^{T}b$

由此得到投影矩阵 $P$ 的表达式为：

$P = A(A^{T}A)^{-1}A^{T}$

这就是投影矩阵 $P$ 的一般情况，而前面计算的 $P = a\frac{a^{T}}{a^{T}a}$ 是投影矩阵的一维特殊情况。同样， $P = A(A^{T}A)^{-1}A^{T}$ 也具有 $P^{T} = P$ 和 $P^{2} = P$ 这两个性质，其证明过程与一维情况类似，在此不再详述，读者可以自行验证。

让我们用一个流程图来总结整个投影的推导过程，这样更清晰：

  flowchart LR
    A[目标：将b投影到A的列空间] --> B[设投影p = Ax̂]
    B --> C[误差e = b - p正交于列空间]
    C --> D[Aᵀ(b - Ax̂) = 0]
    D --> E[AᵀA x̂ = Aᵀb]
    E --> F[x̂ = (AᵀA)⁻¹Aᵀb]
    F --> G[p = A x̂ = A(AᵀA)⁻¹Aᵀb]
    G --> H[投影矩阵 P = A(AᵀA)⁻¹Aᵀ]

三、最小二乘法初涉

前面学习的投影知识有着重要的实际应用，投影中的 $e = b - p$ 可以看作向量 $b$ 与子空间之间偏移量的大小，这为使用最小二乘法拟合直线提供了坚实的理论基础。

【例】求解过三个点 $(1,1)$ ， $(2,2)$ ， $(3,2)$ 拟合的直线方程。

列出方程：假设最优直线方程为 $b = C + Dt$ ，将三个点代入方程可得：

$C + D = 1$ $C + 2D = 2$ $C + 3D = 2$

转化为矩阵方程并求解：将上述方程列成矩阵方程 $Ax = b$ ，我们会发现该方程无解——因为三个点不共线，找不到一条直线正好经过它们。

这时候投影就派上用场了。运用投影中讲到的方法，我们将原问题转化为求解 $A^{T}A\hat{x} = A^{T}b$ ，这个方程一定有解，而解就是我们要找的最优近似解。

这种方法的关键在于：原本无解的方程 $Ax = b$ ，经过投影处理后得到的 $A^{T}A\hat{x} = A^{T}b$ 可以求出最优解，从而实现将无解的方程转换为可求解的最优方程。最小二乘法在后续课程中还会详细讲解。

四、学习感悟

本节内容是上一节正交知识的延伸。借助正交概念计算投影，并利用投影与向量之间的偏差引入最小二乘法，从而解决方程 $Ax = b$ 无解时的最优解问题，实现直线拟合。这部分内容实际应用性较强，核心目的是求解 $A^{T}A\hat{x} = A^{T}b$ ，以获得最优解。

笔者认为，投影这个概念其实把前面很多知识点都串起来了：正交、子空间、零空间、列空间，这些概念在这里汇合到一起，给出了一个非常漂亮的结果——投影矩阵的一般表达式。在实际工程中，我们很少能遇到方程个数正好等于未知数个数、还能完美求解的情况，更多时候是观测数据很多，方程比未知数多，这时候最小二乘法就是我们的利器，而它的核心思想其实很简单：就是在子空间中找到离原向量最近的那个点，这个点就是投影。