记录一下学习到的简单的矩阵方程求解的知识:

矩阵方程:Ax=bAx=b, 根据bRm×1b\in R^{m\times 1}, ARm×nA\in R^{m\times n}的不同,有以下三种形式:

  1. 超定方程 m>nm>n,且AAbb均已知,其中之一或者二者可能存在误差和干扰
  2. 盲矩阵方程 均bb已知,AA未知
  3. 欠定方程 m<nm<nAAbb均已知,但xx为稀疏向量

最小二乘法,是最常用的线性参数估计方法,常用于对平面上的点拟合直线,对高维空间的点拟合超平面。

普通最小二乘

考虑超定矩阵方程Ax=bAx=b, 其中bRm×1b\in R^{m\times 1}, ARm×nA\in R^{m\times n}, 且m>nm>n

假定bb存在加性观测误差或噪声,即b=b0+eb=b_0+e,其中b0b_0为无误差数据向量,ee为误差向量。

为了抵消误差对矩阵方程的求解的影响,我们引入一校正向量Δb\Delta b,使得b+Δb=b0+e+Δbb0b+\Delta b=b_0+e+\Delta b\rightarrow b_0,从而实现

Ax=b+ΔbAx=b0Ax=b+\Delta b\Rightarrow Ax=b_0

的转换。也就是说,选择校正向量Δb=Axb\Delta b=Ax-b,并使校正向量“尽可能小”,则可以实现无误差的矩阵方程Ax=b0Ax=b_0的求解。

矩阵方程的这一求解思想可以用下面的优化问题描述

minxΔb2=Axb22=(Axb)T(Axb)\mathop{min}_x ||\Delta b||^2=||Ax-b||^2_2=(Ax-b)^T(Ax-b)

这一方法被称为普通最小二乘(Ordinary least squares, OLS)法,一般称为最小二乘法。

于是,矩阵方程的Ax=bAx=b的最小二乘解为

x^LS=argminxAxb22\hat{x}_{LS}=arg\mathop{min}_x||Ax-b||^2_2

展开ϕ=(Axb)T(Axb)\phi =(Ax-b)^T(Ax-b)

ϕ=xTATAxxTATbbTAx+bTb\phi = x^TA^TAx-x^TA^Tb-b^TAx+b^Tb

ϕ\phi相对于xx的导数,并令结果等于零,则有

dϕdx=2ATAx2ATb=0\frac{d\phi}{dx}=2A^TAx-2A^Tb=0

也就是说,xx必然满足

ATAx=ATbA^TAx=A^Tb

当矩阵Am×nA_{m\times n}具有不同的秩时,上述方程的解不同:

  • 超定方程(m>nm>n)列满秩时,即rank(A)=nrank(A)=n

    由于ATAA^TA非奇异,所以方程有唯一解

    xLS=(ATA)1ATbx_{LS}=(A^TA)^{-1}A^Tb

  • 对于不满秩(rank(A)<nrank(A)<n)的超定方程,则最小二乘解为

    xLS=(ATA)ATbx_{LS}=(A^TA)^\dagger A^Tb

    其中\dagger表示该矩阵的Moore-Penrose逆矩阵,即伪逆。

Gauss-Markov定理

在参数估计理论,称参数向量θ\theta的估计θ^\hat{\theta}的数学期望等于未知的参数向量,即E{θ^}=θE\{\hat{\theta}\}=\theta,则θ^\hat{\theta}为无偏估计。进一步地,若一个无偏估计还具有最小方差,则称这一估计为最优无偏估计。

在统计学中,高斯-马尔可夫定理(Gauss-Markov Theorem)陈述的是:在线性回归模型中,如果误差满足零均值、同方差且互不相关,则回归系数的最佳线性无偏估计(BLUE, Best Linear unbiased estimator)就是普通最小二乘法估计

  • 这里最佳的意思是指相较于其他估计量有更小方差的估计量,同时把对估计量的寻找限制在所有可能的线性无偏估计量中。
  • 值得注意的是这里不需要假定误差满足独立同分布(iid)或正态分布,而仅需要满足零均值不相关同方差这三个稍弱的条件。

关于Gauss-Markov定理更详细内容见此:Wiki

放入最小二乘法中,对于数据向量bb含有加性噪声的超定方程Ax=b0+eAx=b_0+e,当ee的期望和协方差矩阵分别为E{e}=0E\{e\}=0, Cov{e}=E{eeT}=σ2ICov\{e\}=E\{ee^T\}=\sigma^2I

当且仅当rank(A)=nrank(A)=n时,xx的最优无偏解x^\hat{x}存在,最小二乘解即为最优无偏解。

也就是说当ee满足Gauss-Markov定理的假设条件时,即ee零均值,且各个分量互不相关,并且具有相同的方差σ2\sigma^2时,最小二乘解为无偏和最优的。

最小二乘法与最大似然解

若加性误差向量e=[e1,em]Te=[e_1,···e_m]^T为独立同分布的高斯随机向量,则其概率密度函数为

f(e)=1πmΓeexp[(eμe)TΓe1(eμe)]f(e)=\frac{1}{\pi^m|\Gamma_e|}exp[-(e-\mu_e)^T{\Gamma_e}^{-1}(e-\mu_e)]

其中,Γe|\Gamma_e|表示协方差矩阵Γe=diag(σ12,,σm2)\Gamma_e=diag(\sigma_1^2,···,\sigma^2_m)的行列式。

在Gauss-Markov定理条件下(即误差向量ee的各个独立同分布的高斯随机变量均具有零均值和同方差σ2\sigma^2),加性噪声向量ee的概率密度函数简化为

f(e)=1(πσ2)mexp(1σ2eTe)=1(πσ2)mexp(1σ2e22)f(e)=\frac{1}{(\pi\sigma^2)^m}exp(-\frac{1}{\sigma^2}e^Te)=\frac{1}{(\pi\sigma^2)^m}exp(-\frac{1}{\sigma^2}||e||^2_2)

其似然函数为

L(e)=logf(e)=1πmσ2(m+1)e22=1πmσ2(m+1)Axb22L(e)=logf(e)=-\frac{1}{\pi^m\sigma^{2(m+1)}||e||^2_2}=-\frac{1}{\pi^m\sigma^{2(m+1)}}||Ax-b||^2_2

于是,Ax=bAx=b的最大似然解为

x^=argmaxx1πmσ2(m+1)Axb22=argminx12Axb22=x^LS\hat{x}=arg \mathop{max}_{x}\frac{-1}{\pi^m\sigma^{2(m+1)}}||Ax-b||^2_2=arg\mathop{min}_x\frac{1}{2}||Ax-b||^2_2=\hat{x}_{LS}

也就是说,在Guass-Markov定理的条件下,矩阵方程Ax=bAx=b的最小二乘解与最大似然解等价。

Reference

矩阵分析与应用——张贤达