其中Φ 是设计矩阵,其元素为 Φₙₖ=фₖ(xₙ) 。根据上述定义,可知函数 y 就是一个高斯过程,我们的目标就是找出它的概率分布。由于 y 是参数 ω 的元素给出的服从⾼斯分布的变量的线性组合,因此它本⾝也服从⾼斯分布,于是只需找到其均值和⽅差。根据 ω 先验分布定义, y 均值和⽅差为
𝔼[y]=Φ𝔼[ω]=0 (18)
1
cov[y]=𝔼[yyᵀ]=Φ𝔼[ωωᵀ]Φᵀ=─ ΦΦᵀ=K (19)
α
其中K 为上一节中定义的 Gram 矩阵,元素为
1
Kₙₘ=k(xₙ,xₘ) ─ ф(xₙ)ᵀф(xₘ)。
α
这就是高斯过程在线性回归模型上的表示,通常来说,⾼斯过程被定义为函数 y(x) 上的⼀个概率分布,使得在任意点集 x₁,. . .,xɴ 处计算的 y(x) 值的集合联合起来也服从⾼斯分布。在输⼊向量 x 是⼆维时,这也可以被称为⾼斯随机场 (Gaussian random field)。更⼀般地,可以⽤⼀种合理的⽅式为 y(x₁),. . .,y(xɴ) 赋予⼀个联合概率分布,来确定⼀个随机过程 (stochastic process) y(x) 。
⾼斯随机过程的联合概率分布通过均值和协⽅差唯一确定,实际应⽤中,关于y(x) 的均值没有任何先验,因此根据对称性令其等于零。这等价于基函数中,令权值 p(ω) 的先验均值为 0。之后,⾼斯过程通过给定两个变量 xₙ,xₘ 处函数值 y(xₙ),y(xₘ) 的协⽅差确定,这个协⽅差由核函数计算
𝔼[y(xₙ)y(xₘ)]=k(xₙ,xₘ) (20)
1. 高斯过程线性回归
前面我们通过一个回归问题引出高斯过程,现在将高斯过程应用到回归模型,确定高斯随机过程分布并用于预测模型,考虑观测目标值的噪声,其中tₙ=yₙ+ϵₙ, yₙ=y(xₙ) ,且 ϵₙ 是一个高斯随机噪声变量,且对于不同的训练数据点 xₙ 随机噪声都是独立的,考虑服从高斯分布的噪声过程,即
p(tₙ|yₙ)=N(tₙ|yₙ,β⁻¹) (21)
由于每个数据的观测噪声相互独立,因此y=(y₁,. . .,yɴ)ᵀ 为条件, t=(t₁,. . .,tɴ)ᵀ 的高斯分布是各向同性的,其联合概率分布为
p(t|y)=N(t|y,β⁻¹lɴ) (22)
根据高斯过程定义,边缘概率分布p(y) 是一个均值为 0,协方差为 Gram 矩阵 K 的高斯分布,即 p(y)=N(y|0,K) 。为了确定核函数 K ,我们需要明确,高斯过程是一种非参模型,不同于线性回归或分类模型中通过训练数据学习参数 ω 后再进行预测,从核方法的定义中就可以看出,这里的协方差需要计算输入数据两两之间的相关性才能确定协方差矩阵,而对于新输入数据点的预测,也是需要与训练数据逐一进行相关性计算后再做出预测,这有点类似于 K 近邻算法。在核方法中,我们确定核函数 K 的方法是,对于相似的点 xₙ 和 xₘ ,对应的值 y(xₙ) 和 y(xₘ) 的相关性要⼤于不相似的点,这里的相似性通过构造核函数定义。
为了找到p(t) ,我们需要对 y 积分,根据第九章公式 (22) (23) 条件概率分布的性质,可得
p(t)=∫ p(t|y)p(y)dy=N(t|0,C=β⁻¹lɴ+K) (23)
其中C(xₙ,xₘ)=k(xₙ,xₘ)+β⁻¹ ,由于 y(x) 与 ϵ 相关的⾼斯分布是独⽴的,它们的协⽅差可以简单地相加
对于⾼斯过程回归,⼀个⼴泛使⽤的核函数为指数项的⼆次型加上常数和线性项,即
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。