Linear Algebra-相似矩阵和若尔当型-29

一、知识概要

在上一节我们学习了正定矩阵的概念和性质，这一节我们先对正定矩阵做一些补充讨论，然后在此基础上介绍相似矩阵和若尔当型这两个重要概念。内容偏向概念引入，主要目的是帮助大家建立对这些矩阵变换方式的初步认识，不会进行太深人的理论推导。

二、正定矩阵补充

让我们先回到正定矩阵，在上一节学习的基础上，来思考几个有意思的问题：

(1) 正定矩阵的逆矩阵是否也是正定矩阵？

我们知道，逆矩阵的特征值正好是原矩阵特征值的倒数。如果矩阵 (A) 是正定矩阵，那么它的所有特征值都大于零，它们的倒数自然也都大于零。所以结论很清晰：(A^{-1}) 的特征值也都为正，故 (A^{-1}) 也一定是正定矩阵。

(2) 假定(A)和(B)是正定矩阵，那么(A + B)呢？

这个问题也可以用正定矩阵的基本定义来判断。由于 (A)、(B) 都是正定矩阵，根据正定矩阵的判据，对于任意非零向量 (x)，都有：

(x^{T}Ax > 0)，(x^{T}Bx > 0)

于是我们可以对 (A+B) 做同样的计算：

(x^{T}(A + B)x = x^{T}Ax + x^{T}Bx > 0)

所以结论同样直接：若 (A)、(B) 都是正定矩阵，则 (A + B) 也是正定矩阵。

(3) 假设(A)是(m×n)长方形矩阵，(A^{T}A)是否是一个正定矩阵？

我们还是从正定矩阵的定义出发，计算 (x^{T}A^{T}A x)：

(x^{T}A^{T}A x = (Ax)^{T}(Ax) = |Ax|^{2})

这个平方项肯定是非负的，什么时候它一定大于零呢？当且仅当 (A) 的各列向量线性无关时，零空间只包含零向量，也就是只有 (x = 0) 时才有 (Ax = 0)。对于任何非零 (x)，(Ax \neq 0)，因此 (|Ax|^{2} > 0)。

也就是说，当矩阵(A)各列线性无关（列满秩）时，可以保证(A^{T}A)是正定矩阵。

正定矩阵有一个很好的计算性质：不需要进行”行交换”，也不必担心主元过小或者等于零，这一点能简化很多数值计算过程。

三、相似矩阵

现在我们进入正题，什么是相似矩阵？对于两个 (n) 阶方阵 (A) 和 (B)，如果存在某个可逆矩阵 (M)，使得等式 (B = M^{-1}AM) 成立，我们就说 (A) 和 (B) 是相似矩阵。

来看一个例子。之前我们学习过，如果矩阵 (A) 具有 (n) 个线性无关的特征向量，那么可以对角化：(S^{-1}AS = \Lambda)。按照相似矩阵的定义，这说明 (A) 与对角矩阵 (\Lambda) 相似。但实际上，与 (A) 相似的矩阵不只有对角阵，任给一个可逆矩阵 (M)，计算出来的 (M^{-1}AM) 都与 (A) 相似。

比如，假设：
(A=\begin{bmatrix}2 & 1\1 & 2\end{bmatrix})，它的特征值为 (1)、(3)。

我们随便取一个可逆矩阵 (M) 来计算：

$M^{-1}AM = \begin{bmatrix}1 & -4\\0 & 1\end{bmatrix} \begin{bmatrix}2 & 1\\1 & 2\end{bmatrix} \begin{bmatrix}1 & 4\\0 & 1\end{bmatrix} =\begin{bmatrix}-2 & -15\\1 & 6\end{bmatrix}$

最终得到的矩阵 (B) 就与矩阵 (A) 相似。那么问题来了，相似矩阵 (B) 和 (A) 之间有什么共同的性质呢？

答案很重要：它们具有相同的特征值。你可以自己计算一下上面例子中 (B) 的特征值来验证这个结论。

结论：相似矩阵特征值相同（事实上，它们线性无关的特征向量数目也一样）。

我们来简单证明一下这个结论：

首先写出 (A) 的特征方程 (Ax = \lambda x)。因为 (A = AI = AMM^{-1})，代入得 (AMM^{-1}x = \lambda x)。
两边同时左乘 (M^{-1})，得到：(M^{-1}AMM^{-1}x = M^{-1}\lambda x)。
再根据 (B = M^{-1}AM) 替换一下，就得到：(BM^{-1}x = \lambda M^{-1}x)。

这个式子说明什么？说明 (\lambda) 也是 (B) 的特征值，对应的特征向量是 (M^{-1}x)。所以 (A) 与 (B) 特征值相同，线性无关的特征向量数目也相同。不过要注意，特征向量本身不一定相同，(B) 的特征向量是 (M^{-1}x)，不是原来的 (x) 了。

四、若尔当型

4.1 重特征值的相似情况

上面我们说到，相似矩阵一定有相同的特征值。那反过来呢？特征值相同的矩阵一定相似吗？我们通过一个简单的二阶矩阵例子来讨论。

假设二阶矩阵的两个特征值相等 (\lambda{1}=\lambda{2}=4)，具有此特征值的二阶矩阵其实可以被分为两类：

(1) 第一类只有一个矩阵，就是对角矩阵 (\begin{bmatrix}4 & 0\0 & 4\end{bmatrix})。我们来做一下相似变换：

$M^{-1}\begin{bmatrix}4 & 0\\0 & 4\end{bmatrix}M = 4M^{-1}IM = \begin{bmatrix}4 & 0\\0 & 4\end{bmatrix}$

不管你取什么可逆矩阵 (M)，结果还是它自己。所以，与 (\begin{bmatrix}4 & 0\0 & 4\end{bmatrix}) 相似的矩阵只有它自身。

(2) 其他特征值为 (4) 的矩阵都属于第二类，比如 (\begin{bmatrix}4 & 1\0 & 4\end{bmatrix})、(\begin{bmatrix}5 & 1\ -1 & 3\end{bmatrix})、(\begin{bmatrix}a & \ & 8 - a\end{bmatrix}) 等等。这一类里面最有代表性的就是 (\begin{bmatrix}4 & 1\0 & 4\end{bmatrix})，我们称之为若尔当标准型。这一类矩阵都不能相似对角化，如果它们能对角化，就会和第一类相似了。

结论：对于那些不能完成相似对角化的矩阵，我们仍然可以通过某种特殊方法，得到近似的”对角化”形式，若尔当标准型就是其中最经典的一种。

4.2 若尔当型

从上面的例子我们看到，会出现特征值相同但矩阵不相似的情况。若尔当型正是为了解决这个问题。让我们再看两个具有四重特征根的例子：

【例 1】给定矩阵：

$\begin{bmatrix}0 & 1 & 0 & 0\\0 & 0 & 1 & 0\\0 & 0 & 0 & 0\\0 & 0 & 0 & 0\end{bmatrix}$

这个矩阵的四个特征值都是 (0)，对应的线性无关特征向量有几个呢？零空间的维数为 (n - r = 4 - 2 = 2)，所以 (Ax = 0) 的解空间是二维的，(A) 有两个线性无关的特征向量。

【例 2】给定矩阵：

$\begin{bmatrix}0 & 1 & 0 & 0\\0 & 0 & 0 & 0\\0 & 0 & 0 & 1\\0 & 0 & 0 & 0\end{bmatrix}$

这个矩阵的四个特征值同样都是 (0)，也有两个线性无关的特征向量。但是，这个矩阵和例 1 的矩阵并不相似。

要理解为什么它们不相似，我们需要引入若尔当块的概念。正是因为它们的若尔当块不同，所以矩阵不相似。

若尔当块：(J_{i}) 表示 (i) 阶的若尔当块，它只有一个重复的特征值，形式如下：

$J_{i}=\begin{bmatrix}\lambda_{i} & 1 & 0 & 0\\0 & \lambda_{i} & \cdots & 0\\0 & \cdots & \cdots & 1\\0 & 0 & 0 & \lambda_{i}\end{bmatrix}$

怎么记呢？若尔当块的对角线上都是同一个数，也就是这个重特征值 (\lambda_{i})；对角线右上方紧邻的位置都是 (1)，其他地方全是 (0)。记住这个结构就好。

另外注意，一个若尔当块的特征向量只有一个。多个若尔当块放在一起就构成了若尔当矩阵，形式如下：

$J=\begin{bmatrix}[J_{1}] & & \\ & \cdots & \\ & & [J_{d}]\end{bmatrix}$

关于若尔当矩阵，有几个关键结论需要记住：

(1) 若尔当块的个数等于矩阵特征向量的个数，因为每一块对应于一个线性无关的特征向量。

(2) 如果矩阵所有特征值互不相同，那么它本身就是可对角化矩阵，对应的若尔当阵就是我们熟悉的对角阵 (\Lambda)，这时候每个若尔当块都是一阶的。

(3) 每个方阵都相似于唯一的一个若尔当阵 (J)。这就是若尔当标准型定理。

回到我们之前的两个例子，现在就能说清楚为什么它们不相似了：两个矩阵虽然特征值相同、特征向量个数相同，但它们的若尔当块分块方式不同，所以矩阵并不相似，如下图所示：

QuU6b9GONoVfyUxoAEQcl9Xqnmb

本节课我们不展开讨论如何具体求出若尔当矩阵，只需要建立概念认识就好。

4.3 应用场景

若尔当型的主要作用是什么呢？其实当我们遇到一些性质不太好的方阵，也就是那些不能对角化的矩阵，我们至少还可以采用这种近似对角化的形式：(A=MJM^{-1})，其中 (J) 是若尔当矩阵，不是对角阵，但比原矩阵结构简单多了。

所以，如果你需要计算 (A^k)，而正好 (A) 不能对角化，那就可以用这个近似对角化形式来计算：(A^k=MJ^kM^{-1})。计算 (J^k) 比直接计算原矩阵的 (k) 次方要容易得多。

不过实话实说，若尔当标准型在实际应用中的广泛程度确实不如普通对角化或者正交对角化，主要原因是它的数值计算稳定性不太好，实际工程中用得相对少一些。

五、学习感悟

本节介绍了相似矩阵和若尔当块的相关知识，从正反两方面探讨了矩阵相似时对应的特征值情况，进而引出了若尔当阵的判断方法。不过，对于若尔当矩阵的求解过程并未深入了解。

需要记住最重要的结论：相似矩阵的特征值相同。