记录一下学习到的简单的矩阵方程求解的知识:
矩阵方程:Ax=b, 根据b∈Rm×1, A∈Rm×n的不同,有以下三种形式:
- 超定方程 m>n,且A和b均已知,其中之一或者二者可能存在误差和干扰
- 盲矩阵方程 均b已知,A未知
- 欠定方程 m<n,A和b均已知,但x为稀疏向量
最小二乘法,是最常用的线性参数估计方法,常用于对平面上的点拟合直线,对高维空间的点拟合超平面。
普通最小二乘
考虑超定矩阵方程Ax=b, 其中b∈Rm×1, A∈Rm×n, 且m>n。
假定b存在加性观测误差或噪声,即b=b0+e,其中b0为无误差数据向量,e为误差向量。
为了抵消误差对矩阵方程的求解的影响,我们引入一校正向量Δb,使得b+Δb=b0+e+Δb→b0,从而实现
Ax=b+Δb⇒Ax=b0
的转换。也就是说,选择校正向量Δb=Ax−b,并使校正向量“尽可能小”,则可以实现无误差的矩阵方程Ax=b0的求解。
矩阵方程的这一求解思想可以用下面的优化问题描述
minx∣∣Δb∣∣2=∣∣Ax−b∣∣22=(Ax−b)T(Ax−b)
这一方法被称为普通最小二乘(Ordinary least squares, OLS)法,一般称为最小二乘法。
于是,矩阵方程的Ax=b的最小二乘解为
x^LS=argminx∣∣Ax−b∣∣22
展开ϕ=(Ax−b)T(Ax−b)得
ϕ=xTATAx−xTATb−bTAx+bTb
求ϕ相对于x的导数,并令结果等于零,则有
dxdϕ=2ATAx−2ATb=0
也就是说,x必然满足
ATAx=ATb
当矩阵Am×n具有不同的秩时,上述方程的解不同:
-
超定方程(m>n)列满秩时,即rank(A)=n
由于ATA非奇异,所以方程有唯一解
xLS=(ATA)−1ATb
-
对于不满秩(rank(A)<n)的超定方程,则最小二乘解为
xLS=(ATA)†ATb
其中†表示该矩阵的Moore-Penrose逆矩阵,即伪逆。
Gauss-Markov定理
在参数估计理论,称参数向量θ的估计θ^的数学期望等于未知的参数向量,即E{θ^}=θ,则θ^为无偏估计。进一步地,若一个无偏估计还具有最小方差,则称这一估计为最优无偏估计。
在统计学中,高斯-马尔可夫定理(Gauss-Markov Theorem)陈述的是:在线性回归模型中,如果误差满足零均值、同方差且互不相关,则回归系数的最佳线性无偏估计(BLUE, Best Linear unbiased estimator)就是普通最小二乘法估计。
- 这里最佳的意思是指相较于其他估计量有更小方差的估计量,同时把对估计量的寻找限制在所有可能的线性无偏估计量中。
- 值得注意的是这里不需要假定误差满足独立同分布(iid)或正态分布,而仅需要满足零均值、不相关及同方差这三个稍弱的条件。
关于Gauss-Markov定理更详细内容见此:Wiki
放入最小二乘法中,对于数据向量b含有加性噪声的超定方程Ax=b0+e,当e的期望和协方差矩阵分别为E{e}=0, Cov{e}=E{eeT}=σ2I
当且仅当rank(A)=n时,x的最优无偏解x^存在,最小二乘解即为最优无偏解。
也就是说当e满足Gauss-Markov定理的假设条件时,即e零均值,且各个分量互不相关,并且具有相同的方差σ2时,最小二乘解为无偏和最优的。
最小二乘法与最大似然解
若加性误差向量e=[e1,⋅⋅⋅em]T为独立同分布的高斯随机向量,则其概率密度函数为
f(e)=πm∣Γe∣1exp[−(e−μe)TΓe−1(e−μe)]
其中,∣Γe∣表示协方差矩阵Γe=diag(σ12,⋅⋅⋅,σm2)的行列式。
在Gauss-Markov定理条件下(即误差向量e的各个独立同分布的高斯随机变量均具有零均值和同方差σ2),加性噪声向量e的概率密度函数简化为
f(e)=(πσ2)m1exp(−σ21eTe)=(πσ2)m1exp(−σ21∣∣e∣∣22)
其似然函数为
L(e)=logf(e)=−πmσ2(m+1)∣∣e∣∣221=−πmσ2(m+1)1∣∣Ax−b∣∣22
于是,Ax=b的最大似然解为
x^=argmaxxπmσ2(m+1)−1∣∣Ax−b∣∣22=argminx21∣∣Ax−b∣∣22=x^LS
也就是说,在Guass-Markov定理的条件下,矩阵方程Ax=b的最小二乘解与最大似然解等价。
Reference
矩阵分析与应用——张贤达