Processing math: 98%
  • 基本概念
  • 矩阵代数的基本运算
    • 一、矩阵相等
    • 二、矩阵转置
    • 三、矩阵加法
    • 四、数乘
    • 五、矩阵乘法
    • 六、数值的和:Sum of values
    • 七、幂等矩阵:Idempotent Matrix
  • 矩阵的秩、迹、行列式
    • 一、矩阵的秩:Rank of a Matrix
    • 二、矩阵的迹:Trace of a Matrix
    • 三、行列式:Determinant of a Matrix
  • 逆矩阵
  • 分块矩阵:Partitioned Matrix
    • 一、分块矩阵的加法和乘法
    • 二、分块矩阵的行列式
    • 三、分块矩阵的求逆
  • 特征根与特征向量
    • 一、特征方程
    • 二、正交矩阵
    • 三、对角化与谱分解
    • 四、方阵的幂运算
  • 二次型与正定矩阵
    • 一、二次型
    • 二、正定矩阵
    • 三、矩阵比较
  • 微分与矩阵代数
    • 一、泰勒近似
    • 二、多元函数的泰勒近似
    • 三、线性函数、二次型以及行列式的微商
    • 四、最优化
    • 约束最优化

基本概念

  • 矩阵:是一个矩形的排列。记为A=[aij]m×n,或者 A=(a11a12a1na21a22a2nam1am2amn)
  • 向量:是一个有序数组,可以按行排列,也可以按列排列。是一种特殊的矩阵。矩阵可以看作一个行向量组或者列向量组。

  • 几种特殊类型的方阵:
  1. 对称矩阵:A=[aij]n×ni,jaij=aji
  2. 对角矩阵:主对角元外的元素均为零。
  3. 纯量矩阵:对角元均相等的对角矩阵。
  4. 单位矩阵:对角元为1的纯量矩阵。记为In
  5. 三角矩阵:主对角线上方或者下方只有零元素的矩阵。若零元素在对角线上方,则称之为下三角矩阵。

矩阵代数的基本运算

一、矩阵相等

A=B,当且仅当 AB的维数相同,且对应的元素相同。

二、矩阵转置

A=[aij]m×n,则A=[aji]n×m。显然,如果矩阵A对称,则A=A

三、矩阵加法

A=[aij]m×nB=[bji]m×n,则 C=A+B=[aij+bij]m×n

:

  • 只有矩阵阶数相同时,才可以定义加法。
  • 零矩阵0A+0=A
  • 减法:AB=[aijbij]m×n

四、数乘

cA=[caij]m×n

五、矩阵乘法

  • 两个向量的内积和外积:设两个n维向量an×1bn×1ab维数相同。
  1. 内积: ab=a1b1+a2b2++anbn
  2. 外积: ab=(a1b1a1b2a1bna2b1a2b2a2bnanb1anb2anbn)

    为一个矩阵。

  3. 两个矩阵的相乘: 设Am×nBn×k,则C=ABCmn列的。记 A=(a1a2am)=(a1a2an)B=(b1b2bn)=(b1b2bk)C=[cij]m×k=[aibj]m×k=[ai1b1j+ai2b2j++ainbnj]m×k C=ni=1aibi=ni=1(a1ibi1a1ibi2a1ibika2ibi1a2ibi2a2ibikanibi1anibi2anibik)

:

  • 矩阵相乘可以写成内积形式也可以写成外积形式。
  • 乘积矩阵AB的第ij个元素等于A的第i行与B的第j列对应元素的乘积之和,因此只有当A的列数等于B的行数时,AB才可以相乘。
  • 矩阵乘法不满足交换律:ABBA
  1. 矩阵和向量相乘:c=AbAm×nbn×1cm×1 的列向量。一般的,有 c=Ab=(a1,a2,,an)(b1b2bn)=b1a1+b2a2++bnan 对矩阵乘积,就有 C=AB(c1,,ck)=A(b1,,bk)=(Ab1,Ab2,,Abk)Abk=ck=Abk=(a1,a2,,an)(b1kb2kbnk)=b1ka1+b2ka2++bnkan

    于是乘积矩阵的每一列都是A的各列的线性组合。

  2. 矩阵乘法规则

  • 结合律:(AB)C=A(BC)
  • 分配率:A(B+C)=AB+AC
  • 矩阵乘积的转置:(AB)=BA

六、数值的和:Sum of values

记向量i为元素全为1的列向量, Xn×1=(x1,x2,,xn)Yn×1=(y1,y2,,yn)ni=1xi=x1+x2++xn=iX=n¯xni=1x2i=XXni=1xiyi=XY

七、幂等矩阵:Idempotent Matrix

幂等矩阵MM2=M;若M对称,则MM=M。 记 X=(x1x2xn),i=(111)ni=1(xi¯x)=i(Xi¯x)=i(Xi[1niX])=i(X1n(ii)X)=iM0X 其中, M0=[I1nii] M0对称、幂等。 M0X=(x1¯x,,xn¯x) M0i=0iM0=0。 因此 ni=1(xi¯x)=i(Xi¯x)=iM0X=0 平方和ni=1(xi¯x)2=(Xi¯x)(Xi¯x)=(M0X)(M0X)=XM0X

矩阵的秩、迹、行列式

一、矩阵的秩:Rank of a Matrix

矩阵A的行秩=A的行向量组中最大无关组的个数=A>的列秩=A的列向量组中最大无关组的个数=A的秩=A中非零子式的最大阶数。

Am×nBn×k。几个有关的结论:

  1. A的秩等于A的秩。
  2. 0R(A)min(m,n)
  3. R(AB)min(R(A),R(B))
  4. Am×n,左乘(或者右乘)某一满秩方阵Cm×m,若R(C)=m,则 R(CA)=R(A)
证明: 由于 R(CA)R(A),R(A)=R(C1CA)R(CA)R(CA)=R(A)
  1. Am×nR(A)=R(AA)=R(AA)

二、矩阵的迹:Trace of a Matrix

方阵An×nAtrace(A)=ni=1aii

  • tr(A±B)=tr(A)±tr(B)
  • tr(A)=tr(A)
  • k×tr(A)=tr(kA)
  • tr(In)=n
  • An×mBm×n,有: tr(AB)=tr(A)tr(B)证明: 记C=AB,则 cii=aibitr(AB)=ni=1aibi=ni=1mj=1aijbjiD=BA,则 djj=bjajtr(BA)=mj=1bjaj=mj=1ni=1bjiaij 于是, tr(AB)=tr(A)tr(B)
  • Am×n,有 tr(AA)=tr(AA)=ni=1mj=1a2ij

三、行列式:Determinant of a Matrix

方阵A行列式|A|定义为:|A|等于所有取自不同行不同列的n个元素的乘积。 记τ(j1,j2jn)为排列j1,j2jn的逆序数。即

|A|=(1)τ(j1j2jn)a1j1a2j2anjn

  • 行列式的拉普拉斯展开定理|A|=ni=1aij(1)i+j|Aij| |Aij|A去掉元素aij所在的第i行与第j列后剩余的元素构成的n1阶方阵的行列式。
  • 行列式的乘法定理:An×nBn×n;则|AB|=|A||B|
  • 如果A是正定的,那么A所有的特征值都是正的,如果A 是半正定的,那么 A所有的特征值都是非负的,并且A正的特征值的数目等于A的秩。

逆矩阵

已知An×n,若存在Bn×n,使得AB=BA=I,则A可逆,且A1=B

  • A可逆,则其逆矩阵唯一。
  • A=(a11a12a21a22) 可以得到: A1=1|A|(a22a12a21a11)
  • 计算逆矩阵的伴随矩阵公式: A1=1|A|A 其中AA的伴随矩阵: A=((1)i+j|Aij|)
  • 只有行列式不为零的方阵才可逆。若|A|0,则称A为非奇异的。
  • 与逆矩阵有关的一些计算公式: |A1|=1|A|,(A1)1=A,(A1)=(A)1A对称,则A1也对称;若A1B1存在,则 (AB)1=B1A1

分块矩阵:Partitioned Matrix

在利用矩阵进行运算时,往往将矩阵的元素分组;比如: A=[145293896]=[A11A12A21A22] 如果 A=[A1100A22]

则为分块对角矩阵,其中 A11A22 为方阵。

一、分块矩阵的加法和乘法

A=[A11A12A21A22];B=[B11B12B21B22]A+B=[A11+B11A12+B12A21+B21A22+B22]AB=[A11B11+A12B21A11B12+A12B22A21B11+A22B21A22B12+A22B22]

二、分块矩阵的行列式

A=[A11A12A21A22];A11,A22为可逆方阵 则有 |A|=|A11||A22A21A111A12|=|A22||A11A12A122A21| 特别的, A11A22 为可逆方阵, 如果A=[A11A120A22];|A|=A11A22如果A=[A110A12A22];|A|=A11A22如果A=[A1100A22];|A|=A11A22

三、分块矩阵的求逆

A=[A11A12A21A22];A11,A22为可逆方阵 则有 A1=[A111(I+A12F2A21A111)A111A12F2F2A21A111F2]

其中F2=(A22A21A111A12)1同样,可以定义F1=(A11A12A122A21)1,逆矩阵的左上角块为F1

证明: 设 B=[B11B12B21B22];满足AB=[I1100I22] 从而得到矩阵方程: A11B11+A12B21=I11;A11B12+A12B22=0A21B11+A22B21=0;A22B12+A22B22=I22 可以求得逆矩阵B证毕。 特别的, [A1100A22]1=[A11100A122]

特征根与特征向量

对于方阵A,存在一个数λ和一个非零向量Xn×1,满足AX=λX。则λX分别称为A特征根特征向量

一、特征方程

AX=λX,得到 AXλIX=0(AλI)X=0

仅当|AλI|=0时,X才有非零解。

对方阵Aλn次方程 |λIA|=0

称之为方阵A的特征方程。λ是方阵A的特征根,也可以称作λ是方阵A的特征方程的根。

定理 设方阵A的特征根为λ1,λ2,,λn;则 |A|=ni=1λi;tr(A)=ni=1λi

二、正交矩阵

对方阵A,若满足 AA=I

则称A正交矩阵

A=(a1a2an) 如果A正交,则 AA=(a1a1a1a2a1ana2a1a2a2a2anana1ana2anan)=(100010001) 于是,有 aiaj={1i=j0ij
  • 方阵A正交,则|A|=±1
  • 方阵A正交A=A1
  • 方阵A正交A1也正交

三、对角化与谱分解

由特征方程求得特征根之后,可以由Ac=λc导出特征向量。即 (AλI)c=0

如果c是对应于λ的特征向量,则kck0)也是对应于λ的特征向量。

如果An×n为实对称方阵,则对应于An个特征根(允许重根和零根)的n个特征向量是正交的。

证明: 记An×n的特征根和相应的特征向量为: λ1,λ2,,λn;c1,c2,,cn 则有 Aci=λici,i=1,2,,nci已经标准化,记 C=(c1c2cn),Λ=(λ1λ2λn) 则有 AC=CΛC1AC=Λ

C为正交矩阵。 证毕

实对称矩阵可以正交的对角化: A对称,总存在正交矩阵C,使得CAC=Λ。 事实上,Λ的对角元即为A的特征值;C的各列为其相应的特征向量。

谱分解 A对称,由AC=CΛ,得 A=CΛC=nk=1λkckck

A=CΛC称为A的谱分解。

实对称矩阵的性质:

  • tr(CAC)=tr(ACC)=tr(A)=tr(Λ)
  • |CAC|=|C|×|A|×|C|=|C|×|C|×|A|=|CC|×|A|=|A|=|Λ|
  • R(A)=R(Λ),由Λ=CAC可以立刻得到。

四、方阵的幂运算

An×n对称,则A=CΛC,而且C=C1。对任意正整数k,有 Ak=A×A××A=CΛkC

显然,如果A的特征根为λ1,λ2,,λn,则Ak的特征根为λk1,λk2,,λkn

与方阵的幂有关的结论:

  • 如果A为非奇异的对称矩阵,则A1=CΛ1C
  • 如果A对称,而且其n个特征根均严格为正,则任意实数r,有 Ar=CΛrC
  • A为对称幂等的矩阵,则
  1. A的特征根为0或者1
  2. IA也是对称、幂等的;
  3. Ak个根为0nk个根为1;则$ - n-k$个根为1k个根为0
  4. tr(A)=R(A)tr(IA)=R(IA)

二次型与正定矩阵

一、二次型

形如 q=ni=1nj=1xixiaij 形式的求和,这就是。记 A=(a11a12a1na21a22a2nan1an2ann),X=(x1x2xn) 其中,aij=aji,即A为对称矩阵,则 q=XAX

一般来说,q可正、可负,也可以为零,这依赖于AX

二、正定矩阵

对称矩阵An×n,任意向量Xn×10; 如果XAX>0(<0),则A正(负)定; 如果XAX0(0),则A非负(正)定或者半正(负)定的。

正定矩阵有关的结论:如果A对称,则

  • A的所有特征根为正(负)A是正(负)定的;
  • A非负定,则|A|0
  • A正定A1正定;
  • 单位矩阵I是正定矩阵;
  • Xn×K,nK,若X列满秩,则XX正定;XX非负定;
  • A正定,B非奇异,则BAB正定;
  • A为对阵幂等矩阵,则A非负定(A所有的特征根均为0或者1)。

三、矩阵比较

AB阶数相同而且均对称,若 AB正定,则A>B。 易知,如果A>B,对任意Xn×10,有 XAXXBX>0

如果A正定,B非负定,则A+BA; 如果A>B,且AB均可逆,则B1>A1

微分与矩阵代数

一、泰勒近似

如果f(x)有直到n阶的连续导数,则f(x)x0的泰勒展开为: f(x)=f(x0)+f(x0)(xx0)+f(x0)2!(xx0)2++fn(x0)n!(xx0)n+o((xx0)n) 线性近似: f(x)f(x0)+f(x0)(xx0)=(f(x0)f(x0)x0)+f(x0)x=β1+β2x 二阶近似: f(x)f(x0)+f(x0)(xx0)+f(x0)2!(xx0)2=[f(x0)f(x0)x0+12f(x0)x20]+[f(x0)f(x0)x0]x+12f(x0)x2=β1+β2x+β3x2

二、多元函数的泰勒近似

对多元函数y=f(X),其中X=(x1x2xr)为列向量。 梯度向量:f(X)X=(yx1yx2yxr) 二阶微商矩阵(海塞矩阵)为: H=(2yx212yx1x22yx1xr2yx2x12yx222yx2xr2yxrx12yxrx22yx2r) H是一个对称的方阵,其每一行和每一列都是梯度向量关于某一变量的微分: H=([yX]x1[yX]x2[yX]xr)=[yX]X=2yXX 一阶(线性)近似: yf(X0)+[f(X)X|X0](XX0)=f(X0)[f(X)X|X0]X0+[f(X)X|X0]X=β1+β2X 二阶近似: yf(X0)+[f(X)X|X0](XX0)+12(XX0)H0(XX0)=f0+g0(XX0)+12(XX0)H0(XX0)=[f0g0X0+12X0H0X0]+[g0H0X0]X+12XH0X=β1+β2X+12XH0X

其中,f0=f(X0)g0=f(X)X|X0

三、线性函数、二次型以及行列式的微商

  • y=aX,其中 a=(a1a2an),X=(x1x2xn),yX=ni=1aixiX=(a1a2an)=a Y=AX,其中 A=(a11a12a1na21a22a2nan1an2ann),Y=(y1y2yn)=(a1Xa2XanX)YX=(y1Xy2XynX)=(a1a2an)=A
  • 考虑二次型$^{} $: XAXX=(A+A)XA对称=2AX;XAXA=XX

四、最优化

  • 一元函数y=f(x)的极值: 一阶必要条件(FOC): f(x)=0 二阶充分条件(SOC): f(x)<0为最大值点f(x)>0为最小值点
  • 多元函数y=f(X)的极值:X=(x1x2xn), 一阶必要条件(FOC): f(X)X=0 二阶充分条件(SOC): H=2f(X)XXH负定,则为最大值处;若H正定,则为最小值处。

约束最优化

maxf(X)SubjectTo{C1(X)=0C2(X)=0CJ(X)=0 构造拉格朗日函数: \begin{align*}L= f (\mathbf{X})+\sum_{i=1}^{J}\lambda_j C_j(\mathbf{X}) \end{align*} 一阶条件: \begin{align*} &\frac{ \partial L }{ \partial \mathbf{X} }=\frac{ \partial f (\mathbf{X}) }{ \partial \mathbf{X} } +\mathbf{C}^{\prime} {\lambda} =\mathbf{0}\\ &\frac{ \partial L }{ \partial {\lambda}}= \left( \begin{array}{c} C_1( \mathbf{X} ) \\ C_2( \mathbf{X} ) \\ \vdots \\C_J( \mathbf{X} ) \end{array}\right)=\mathbf{0} \end{align*} 其中 \begin{align*} \mathbf{C}= \left( \begin{array}{c} \frac{ \partial C_1( \mathbf{X} ) }{ \partial \mathbf{X}^{\prime} } \\ \frac{ \partial C_2( \mathbf{X} ) }{ \partial \mathbf{X}^{\prime} } \\ \vdots \\ \frac{ \partial C_J( \mathbf{X} ) }{ \partial \mathbf{X}^{\prime} } \end{array}\right) , \quad {\lambda}= \left( \begin{array}{c} \lambda_1 \\ \lambda_2 \\ \vdots \\ \lambda_J \end{array}\right) \end{align*} 二阶条件: \begin{align*}\frac{ \partial^2 L }{ \partial \mathbf{X} \partial \mathbf{X} ^{\prime} } \textrm{负定 }\end{align*}

返回课程主页