核方法 (Kernel Method)
本文的核方法与第一章的线性基函数模型联系甚紧。我们在前文中已经提及,对于一些回归问题中无法使用线性公式拟合,或者分类问题中线性不可分的输入数据,可以使用一个非线性变换的基函数ф(·) ,将原始数据映射到高维,比如多项式拟合,就是将原始输入 x 映射到一个高维空间 [x²,x³,. . .,xⁿ] ,这样几乎可以拟合任意的曲线,或者使任何数据都可分。映射到高维空间,可以看做是一种特征提取,这时我们的问题就转化成如何选取合适的基函数。理论上,任何形式的有限维度的数据都可以通过非线性变换映射到高维空间从而线性可分,但是选取这样的非线性变换需要的代价很大,这时核方法就可以巧妙地解决这个问题。
为了避免显式的在线性模型的预测函数中出现基函数ф(·) ,我们需要引入一个核函数,核函数的形式很简单
k(x,x')=ф(x)ᵀф(x') (1)
可以看做是对两个输入向量x,x' 分别做基函数的非线性映射,然后对映射后的高维向量做内积转换到一维空间。由于核函数的输出是个标量值,很容易进行计算操作。
1. 对偶表示 (Dual Representation)
我们所引入的核函数都是具有固定形式的,最简单的是选取基函数ф(x)=x 时,得到核函数 k(x,x')=xᵀx' ,这被称为线性核,后面还会介绍其他更常用的核函数。这样引入核函数是因为,如果从正向思维推导,在第一步选择基函数时我们可选的类型就有很多,仅仅是幂级数的选择就很难确定也很难做到精确,并且如果基函数映射后的空间维度较高,正向计算的运算量也是巨大的;相反,核函数的形式确定相对比较容易,我们会在下文展开讨论,其次,可以避免基函数映射的复杂计算,这相当于一个逆向过程,我们先确定核函数的形式,再倒推出映射关系。这时候如果有一种方法能使核函数替换掉线性模型中的基函数 ф(·) ,就可以有效解决这些问题,于是我们引出对偶表示 (dual representation)。
许多线性参数模型可以被转化为⼀个等价的对偶表示,对偶表示中,原模型的预测函数就被转化为训练数据点处计算的核函数的线性组合。使⽤对偶表示形式,核函数可以⾃然生成。考虑⼀个线性基函数模型y(x)=ωᵀф(x) ,其参数通过最⼩化正则化的平⽅和误差函数来确定。正则化的平⽅和误差函数为
1 ɴ
E(ω)=─ ∑ {ωᵀф(xₙ) – tₙ}²↓
2 ₙ₌₁
λ
+─ ωᵀω (2) ←
2
其中λ ≥ 0 。令 E(ω) 关于 ω 的梯度等于零,可得 ω 的解是向量 ф(xₙ) 的线性组合,其形式为
1 ɴ
ω=–─ ∑ {ωᵀф(xₙ) – tₙ} ↓
λ ₙ₌₁
ɴ
ф(xₙ)=∑ αₙф(xₙ)=Φᵀα (3) ←
ₙ₌₁
其中Φ 是设计矩阵,第 n ⾏为 ф(xₙ)ᵀ ,即代表一个训练数据,向量 α=(α₁,. . .,αɴ)ᵀ ,其中
1
αₙ=–─ {ωᵀф(xₙ) – tₙ} (4)
λ
然后将ω=Φᵀα 代入最小平方公式,可得
1 1 λ
E(α)=─ αᵀΦΦᵀΦΦᵀα – αᵀΦΦᵀt+─ tᵀt+─
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。