θ₁
k(xₙ,xₘ)=θ₀ exp{–─||xₙ – xₘ||²}↓
2
→+θ₂+θ₃xᵀₙxₘ (24)
接下来考虑在给定⼀组训练数据的情况下,对新的输⼊变量的预测。假设训练集D 包含输入变量 {x₁,. . .,xɴ} 以及对应的目标值集合 t={t₁,. . .,tɴ} ,我们对新的输⼊变量 xɴ₊₁ 预测⽬标值 tɴ₊₁ 。根据公式 (23) 可以记作 p(tɴ₊₁|t) ,联合概率分布形式为 p(tɴ₊₁) ,记作
p(tɴ₊₁) ∼ N(tɴ₊₁|0,Cɴ₊₁) (24)
其中Cɴ₊₁ 是一个 (N+1) × (N+1) 的协方差矩阵,形式为
Cɴ k
Cɴ₊₁=( ) (25)
kᵀ c
这表示变量之间的相关性,其中k 的元素为 kₙ(xₙ,xɴ₊₁) , c=k(xɴ₊₁,xɴ₊₁)+β⁻¹ ,根据第九章 1.4 节条件概率分布,我们将 tɴ₊₁,t 分别代入 xα,xb ,可得均值和方差为
m(tɴ₊₁|t)=kᵀC⁻¹ɴt (26)
σ²(tɴ₊₁|t)=c – kᵀC⁻¹ɴk (27)
由于k 是测试输⼊向量 xɴ₊₁ 的函数,预测分布也是⼀个⾼斯分布,其均值和⽅差都依赖于 xɴ₊₁ 。预测分布均值可以写成 xɴ₊₁ 的形式,为
ɴ
m(tɴ₊₁|t)=∑ αₙk(xₙ,xɴ₊₁) (28)
ₙ₌₁
其中αₙ 是 C⁻¹ɴt 的第 n 个元素。
使⽤⾼斯过程的核⼼计算涉及到对N × N 的矩阵求逆。标准的矩阵求逆法需要 O(N³) 次计 算,而在基函数模型中,对⼀个 M × M 的矩阵 Sɴ 求逆,需要 O(M³) 次计算;给定训练数据后,矩阵求逆的计算必须进⾏⼀次,对于每个新的预测,两种⽅法都需要进⾏向量-矩阵的乘法,在⾼斯过程中对应向量 kᵀ 与矩阵 C⁻¹ɴt 的运算,两者都是 N 维,因此需要 O(N²) 次计算;线性基函数模型中变换后的特征矩阵 ф(x) 与参数向量 ω 都是 M 维,因此需要 O(M²) 次计算。如果基函数的数量 M ⽐数据点的数量 N ⼩,那么使⽤基函数计算会更⾼效。但是,正如我们一开始就假设高斯过程是多元高斯分布在无限维的扩展一样,⾼斯过程可以处理那些只能通过⽆穷多的基函数表达的协⽅差函数。
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。