基本概念
- 对称矩阵:A=[aij]n×n,∀i,j 有aij=aji。
- 对角矩阵:主对角元外的元素均为零。
- 纯量矩阵:对角元均相等的对角矩阵。
- 单位矩阵:对角元为1的纯量矩阵。记为In。
- 三角矩阵:主对角线上方或者下方只有零元素的矩阵。若零元素在对角线上方,则称之为下三角矩阵。
矩阵代数的基本运算
一、矩阵相等
A=B,当且仅当 A与B的维数相同,且对应的元素相同。
二、矩阵转置
A=[aij]m×n,则A′=[aji]n×m。显然,如果矩阵A对称,则A=A′。
三、矩阵加法
A=[aij]m×n,B=[bji]m×n,则 C=A+B=[aij+bij]m×n。
注:
- 只有矩阵阶数相同时,才可以定义加法。
- 零矩阵0,A+0=A。
- 减法:A−B=[aij−bij]m×n。
五、矩阵乘法
- 两个向量的内积和外积:设两个n维向量an×1,bn×1;a和b维数相同。
- 内积:
a′b=a1b1+a2b2+⋯+anbn
- 外积:
ab′=(a1b1a1b2⋯a1bna2b1a2b2⋯a2bn⋮⋮⋱⋮anb1anb2⋯anbn)
为一个矩阵。
- 两个矩阵的相乘: 设Am×n,Bn×k,则C=AB,C为m行n列的。记
A=(a1a2⋮am)=(a1a2⋯an)B=(b1b2⋮bn)=(b1b2⋯bk)
则
C=[cij]m×k=[aibj]m×k=[ai1b1j+ai2b2j+⋯+ainbnj]m×k
C=n∑i=1aibi=n∑i=1(a1ibi1a1ibi2⋯a1ibika2ibi1a2ibi2⋯a2ibik⋮⋮⋱⋮anibi1anibi2⋯anibik)
注:
- 矩阵相乘可以写成内积形式也可以写成外积形式。
- 乘积矩阵AB的第ij个元素等于A的第i行与B的第j列对应元素的乘积之和,因此只有当A的列数等于B的行数时,A和B才可以相乘。
- 矩阵乘法不满足交换律:AB≠BA。
- 矩阵和向量相乘:c=Ab,Am×n,bn×1;c为m×1 的列向量。一般的,有
c=Ab=(a1,a2,⋯,an)(b1b2⋮bn)=b1a1+b2a2+⋯+bnan
对矩阵乘积,就有
C=AB⟺(c1,⋯,ck)=A(b1,⋯,bk)=(Ab1,Ab2,⋯,Abk)Abk=ck=Abk=(a1,a2,⋯,an)(b1kb2k⋮bnk)=b1ka1+b2ka2+⋯+bnkan
于是乘积矩阵的每一列都是A的各列的线性组合。
矩阵乘法规则
- 结合律:(AB)C=A(BC)
- 分配率:A(B+C)=AB+AC
- 矩阵乘积的转置:(AB)′=B′A′
六、数值的和:Sum of values
记向量
i为元素全为
1的列向量,
Xn×1=(x1,x2,⋯,xn)′Yn×1=(y1,y2,⋯,yn)′
则
n∑i=1xi=x1+x2+⋯+xn=i′X=n¯xn∑i=1x2i=X′Xn∑i=1xiyi=X′Y
七、幂等矩阵:Idempotent Matrix
幂等矩阵
M:
M2=M;若
M对称,则
M′M=M。 记
X=(x1x2⋮xn),i=(11⋮1)n∑i=1(xi−¯x)=i′(X−i¯x)=i′(X−i[1ni′X])=i′(X−1n(ii′)X)=i′M0X
其中,
M0=[I−1nii′]
M0对称、幂等。
M0X=(x1−¯x,⋯,xn−¯x)′
M0i=0,
i′M0=0。 因此
n∑i=1(xi−¯x)=i′(X−i¯x)=i′M0X=0
平方和:
n∑i=1(xi−¯x)2=(X−i¯x)′(X−i¯x)=(M0X)′(M0X)=X′M0X
矩阵的秩、迹、行列式
一、矩阵的秩:Rank of a Matrix
矩阵A的行秩=A的行向量组中最大无关组的个数=A>的列秩=A的列向量组中最大无关组的个数=A的秩=A中非零子式的最大阶数。
设Am×n,Bn×k。几个有关的结论:
- A的秩等于A′的秩。
- 0≤R(A)≤min(m,n)。
- R(AB)≤min(R(A),R(B))。
- 对Am×n,左乘(或者右乘)某一满秩方阵Cm×m,若R(C)=m,则 R(CA)=R(A)。
证明: 由于
R(CA)≤R(A),R(A)=R(C−1CA)≤R(CA)
则
R(CA)=R(A)
- ∀Am×n,R(A)=R(AA′)=R(A′A)。
二、矩阵的迹:Trace of a Matrix
方阵An×n,A的迹:trace(A)=∑ni=1aii。
- tr(A±B)=tr(A)±tr(B)
- tr(A)=tr(A′)
- k×tr(A)=tr(kA)
- tr(In)=n
- 对An×m、Bm×n,有: tr(AB)=tr(A)tr(B)。 证明: 记C=AB,则
cii=aibi⟹tr(AB)=n∑i=1aibi=n∑i=1m∑j=1aijbji
记D=BA,则
djj=bjaj⟹tr(BA)=m∑j=1bjaj=m∑j=1n∑i=1bjiaij
于是,
tr(AB)=tr(A)tr(B)
- 对Am×n,有
tr(AA′)=tr(A′A)=n∑i=1m∑j=1a2ij
三、行列式:Determinant of a Matrix
方阵A的行列式|A|定义为:|A|等于所有取自不同行不同列的n个元素的乘积。 记τ(j1,j2⋯jn)为排列j1,j2⋯jn的逆序数。即
|A|=∑(−1)τ(j1j2⋯jn)a1j1a2j2⋯anjn。
- 行列式的拉普拉斯展开定理:
|A|=n∑i=1aij(−1)i+j|Aij|
|Aij|为 A去掉元素aij所在的第i行与第j列后剩余的元素构成的n−1阶方阵的行列式。
- 行列式的乘法定理:An×n,Bn×n;则|AB|=|A||B|。
- 如果A是正定的,那么A所有的特征值都是正的,如果A 是半正定的,那么 A所有的特征值都是非负的,并且A正的特征值的数目等于A的秩。
逆矩阵
已知An×n,若存在Bn×n,使得AB=BA=I,则A可逆,且A−1=B。
- 若A可逆,则其逆矩阵唯一。
- 对A=(a11a12a21a22) 可以得到:
A−1=1|A|(a22−a12−a21a11)
- 计算逆矩阵的伴随矩阵公式:
A−1=1|A|A∗
其中A∗为A的伴随矩阵:
A∗=((−1)i+j|Aij|)
- 只有行列式不为零的方阵才可逆。若|A|≠0,则称A为非奇异的。
- 与逆矩阵有关的一些计算公式:
|A−1|=1|A|,(A−1)−1=A,(A−1)′=(A′)−1
若A对称,则A−1也对称;若A−1、B−1存在,则
(AB)−1=B−1A−1
分块矩阵:Partitioned Matrix
在利用矩阵进行运算时,往往将矩阵的元素分组;比如:
A=[145293896]=[A11A12A21A22]
如果
A=[A1100A22]
则为分块对角矩阵,其中 A11 和 A22 为方阵。
一、分块矩阵的加法和乘法
A=[A11A12A21A22];B=[B11B12B21B22]
则
A+B=[A11+B11A12+B12A21+B21A22+B22]AB=[A11B11+A12B21A11B12+A12B22A21B11+A22B21A22B12+A22B22]
二、分块矩阵的行列式
设
A=[A11A12A21A22];A11,A22为可逆方阵
则有
|A|=|A11||A22−A21A−111A12|=|A22||A11−A12A−122A21|
特别的,
A11 和
A22 为可逆方阵,
如果A=[A11A120A22];|A|=A11A22如果A=[A110A12A22];|A|=A11A22如果A=[A1100A22];|A|=A11A22
三、分块矩阵的求逆
设
A=[A11A12A21A22];A11,A22为可逆方阵
则有
A−1=[A−111(I+A12F2A21A−111)−A−111A12F2−F2A21A−111F2]
其中F2=(A22−A21A−111A12)−1同样,可以定义F1=(A11−A12A−122A21)−1,逆矩阵的左上角块为F1。
证明: 设
B=[B11B12B21B22];满足AB=[I1100I22]
从而得到矩阵方程:
A11B11+A12B21=I11;A11B12+A12B22=0A21B11+A22B21=0;A22B12+A22B22=I22
可以求得逆矩阵
B。
证毕。 特别的,
[A1100A22]−1=[A−11100A−122]
特征根与特征向量
对于方阵A,存在一个数λ和一个非零向量Xn×1,满足AX=λX。则λ和X分别称为A的特征根和特征向量。
一、特征方程
由
AX=λX,得到
AX−λIX=0⟺(A−λI)X=0
仅当|A−λI|=0时,X才有非零解。
对方阵A,λ的n次方程
|λI−A|=0
称之为方阵A的特征方程。λ是方阵A的特征根,也可以称作λ是方阵A的特征方程的根。
定理 设方阵
A的特征根为
λ1,λ2,⋯,λn;则
|A|=n∏i=1λi;tr(A)=n∑i=1λi
二、正交矩阵
对方阵A,若满足
A′A=I
则称A为正交矩阵。
记
A=(a1a2⋯an)
如果
A正交,则
A′A=(a′1a1a′1a2⋯a′1ana′2a1a′2a2⋯a′2an⋮⋮⋱⋮a′na1a′na2⋯a′nan)=(10⋯001⋯0⋮⋮⋱⋮00⋯1)
于是,有
a′iaj={1i=j0i≠j
- 方阵A正交,则|A|=±1;
- 方阵A正交⟺A′=A−1;
- 方阵A正交⟺A−1也正交。
三、对角化与谱分解
由特征方程求得特征根之后,可以由
Ac=λc导出特征向量。即
(A−λI)c=0
如果c是对应于λ的特征向量,则kc(k≠0)也是对应于λ的特征向量。
如果An×n为实对称方阵,则对应于A的n个特征根(允许重根和零根)的n个特征向量是正交的。
证明: 记
An×n的特征根和相应的特征向量为:
λ1,λ2,⋯,λn;c1,c2,⋯,cn
则有
Aci=λici,i=1,2,⋯,n
令
ci已经标准化,记
C=(c1c2⋯cn),Λ=(λ1λ2⋯λn)
则有
AC=CΛ⟹C−1AC=Λ
C为正交矩阵。 证毕。
实对称矩阵可以正交的对角化: A对称,总存在正交矩阵C,使得C′AC=Λ。 事实上,Λ的对角元即为A的特征值;C的各列为其相应的特征向量。
谱分解 A对称,由AC=CΛ,得
A=CΛC′=n∑k=1λkckc′k
则A=CΛC′称为A的谱分解。
实对称矩阵的性质:
- tr(C′AC)=tr(ACC′)=tr(A)=tr(Λ);
- |C′AC|=|C′|×|A|×|C|=|C′|×|C|×|A|=|C′C|×|A|=|A|=|Λ|;
- R(A)=R(Λ),由Λ=C′AC可以立刻得到。
四、方阵的幂运算
若
An×n对称,则
A=CΛC′,而且
C′=C−1。对任意正整数
k,有
Ak=A×A×⋯×A=CΛkC′
显然,如果A的特征根为λ1,λ2,⋯,λn,则Ak的特征根为λk1,λk2,⋯,λkn。
与方阵的幂有关的结论:
- 如果A为非奇异的对称矩阵,则A−1=CΛ−1C′;
- 如果A对称,而且其n个特征根均严格为正,则任意实数r,有
Ar=CΛrC′
- 设A为对称幂等的矩阵,则
- A的特征根为0或者1;
- I−A也是对称、幂等的;
- 若A有k个根为0,n−k个根为1;则$ - 有n-k$个根为1,k个根为0;
- tr(A)=R(A),tr(I−A)=R(I−A)。
二次型与正定矩阵
一、二次型
形如
q=n∑i=1n∑j=1xixiaij
形式的求和,这就是。记
A=(a11a12⋯a1na21a22⋯a2n⋮⋮⋱⋮an1an2⋯ann),X=(x1x2⋮xn)
其中,
aij=aji,即
A为对称矩阵,则
q=X′AX
一般来说,q可正、可负,也可以为零,这依赖于A和X。
二、正定矩阵
对称矩阵An×n,任意向量Xn×1≠0; 如果X′AX>0(<0),则A正(负)定; 如果X′AX≥0(≤0),则A非负(正)定或者半正(负)定的。
正定矩阵有关的结论:如果A对称,则
- A的所有特征根为正(负)⟺A是正(负)定的;
- 若A非负定,则|A|≥0;
- A正定⟹A−1正定;
- 单位矩阵I是正定矩阵;
- Xn×K,n≥K,若X列满秩,则X′X正定;XX′非负定;
- A正定,B非奇异,则B′AB正定;
- 若A为对阵幂等矩阵,则A非负定(A所有的特征根均为0或者1)。
三、矩阵比较
若A与B阶数相同而且均对称,若 A−B正定,则A>B。 易知,如果A>B,对任意Xn×1≠0,有
X′AX−X′BX>0
如果A正定,B非负定,则A+B≥A; 如果A>B,且A与B均可逆,则B−1>A−1。
微分与矩阵代数
一、泰勒近似
如果
f(x)有直到
n阶的连续导数,则
f(x)在
x0的泰勒展开为:
f(x)=f(x0)+f′(x0)(x−x0)+f′′(x0)2!(x−x0)2+⋯+fn(x0)n!(x−x0)n+o((x−x0)n)
线性近似:
f(x)≈f(x0)+f′(x0)(x−x0)=(f(x0)−f′(x0)x0)+f′(x0)x=β1+β2x
二阶近似:
f(x)≈f(x0)+f′(x0)(x−x0)+f′′(x0)2!(x−x0)2=[f(x0)−f′(x0)x0+12f′′(x0)x20]+[f′(x0)−f′′(x0)x0]x+12f′′(x0)x2=β1+β2x+β3x2
二、多元函数的泰勒近似
对多元函数
y=f(X),其中
X=(x1x2⋯xr)′为列向量。
梯度向量:∂f(X)∂X=(∂y∂x1∂y∂x2⋮∂y∂xr)
二阶微商矩阵(海塞矩阵)为:
H=(∂2y∂x21∂2y∂x1x2⋯∂2y∂x1xr∂2y∂x2x1∂2y∂x22⋯∂2y∂x2xr⋮⋮⋱⋮∂2y∂xrx1∂2y∂xrx2⋯∂2y∂x2r)
H是一个对称的方阵,其每一行和每一列都是梯度向量关于某一变量的微分:
H=(∂[∂y∂X]∂x1∂[∂y∂X]∂x2⋯∂[∂y∂X]∂xr)=∂[∂y∂X]∂X′=∂2y∂X∂X′
一阶(线性)近似:
y≈f(X0)+[∂f(X)∂X|X0]′(X−X0)=f(X0)−[∂f(X)∂X|X0]′X0+[∂f(X)∂X|X0]′X=β1+β′2X
二阶近似:
y≈f(X0)+[∂f(X)∂X|X0]′(X−X0)+12(X−X0)′H0(X−X0)=f0+g0′(X−X0)+12(X−X0)′H0(X−X0)=[f0−g0′X0+12X0′H0X0]+[g0−H0X0]′X+12X′H0X=β1+β′2X+12X′H0X
其中,f0=f(X0),g0=∂f(X)∂X|X0。
三、线性函数、二次型以及行列式的微商
- y=aX,其中
a=(a1a2⋮an),X=(x1x2⋮xn),
则
∂y∂X=∂∑ni=1aixi∂X=(a1a2⋮an)=a
Y=AX,其中
A=(a11a12⋯a1na21a22⋯a2n⋮⋮⋱⋮an1an2⋯ann),Y=(y1y2⋮yn)=(a1Xa2X⋮anX)
则
∂Y∂X′=(∂y1∂X′∂y2∂X′⋮∂yn∂X′)=(a1a2⋮an)=A
- 考虑二次型$^{} $:
∂X′AX∂X=(A+A′)XA对称=2AX;∂X′AX∂A=XX′
四、最优化
- 一元函数y=f(x)的极值: 一阶必要条件(FOC):
f′(x)=0
二阶充分条件(SOC):
f′′(x)<0为最大值点f′′(x)>0为最小值点
- 多元函数y=f(X)的极值:X=(x1x2⋮xn), 一阶必要条件(FOC):
∂f(X)∂X=0
二阶充分条件(SOC):
H=∂2f(X)∂X∂X′
若H负定,则为最大值处;若H正定,则为最小值处。
约束最优化
maxf(X)SubjectTo{C1(X)=0C2(X)=0⋮CJ(X)=0
构造拉格朗日函数:
\begin{align*}L= f (\mathbf{X})+\sum_{i=1}^{J}\lambda_j C_j(\mathbf{X}) \end{align*}
一阶条件:
\begin{align*}
&\frac{ \partial L }{ \partial \mathbf{X} }=\frac{ \partial f (\mathbf{X}) }{ \partial \mathbf{X} } +\mathbf{C}^{\prime} {\lambda} =\mathbf{0}\\
&\frac{ \partial L }{ \partial {\lambda}}= \left( \begin{array}{c} C_1( \mathbf{X} ) \\ C_2( \mathbf{X} ) \\ \vdots \\C_J( \mathbf{X} ) \end{array}\right)=\mathbf{0}
\end{align*}
其中
\begin{align*} \mathbf{C}= \left( \begin{array}{c} \frac{ \partial C_1( \mathbf{X} ) }{ \partial \mathbf{X}^{\prime} } \\ \frac{ \partial C_2( \mathbf{X} ) }{ \partial \mathbf{X}^{\prime} } \\ \vdots \\ \frac{ \partial C_J( \mathbf{X} ) }{ \partial \mathbf{X}^{\prime} } \end{array}\right) , \quad {\lambda}= \left( \begin{array}{c} \lambda_1 \\ \lambda_2 \\ \vdots \\ \lambda_J \end{array}\right) \end{align*}
二阶条件:
\begin{align*}\frac{ \partial^2 L }{ \partial \mathbf{X} \partial \mathbf{X} ^{\prime} } \textrm{负定 }\end{align*}
返回课程主页。