2 2 2
αᵀΦΦᵀα (5)
其中t=(t₁,. . .,tɴ)ᵀ 。定义 Gram 矩阵 K=ΦΦᵀ ,它是一个 N × N 的对称矩阵,其中 Kₙₘ=ф(xₙ)ᵀф(xₘ)=k(xₙ,xₘ) ,这样我们就引入了公式 (1) 定义的核函数,现在回到最开始引入核函数的问题,我们的目的就是用核函数替换基函数变换,所以此处就将 Gram 矩阵代入平方差公式 (2),可得
1 1 λ
E(α)=─ αᵀKKα – αᵀKt+─tᵀt+─ αᵀKα (6)
2 2 2
将公式 (3) 代入公式 (4) 可得
α=(K+λlɴ)⁻¹t (7)
然后将公式 (3) (7) 代入线性基函数回归模型,对于新的输入x ,可得
y(x)=ωᵀф(x)=αᵀΦф(x)=k(x)ᵀ(K+λlɴ)⁻¹t (8)
其中kₙ(x)=k(xₙ,x) ,它表示新输入的预测向量 x 与训练集中每一个数据做核函数内积,对偶公式使得最⼩平⽅解完全通过核函数表式,这被称为对偶公式,可知对 x 的预测由训练集数据的⽬标值的线性组合给出。向量 α 可以被表示为基函数 ф(x) 的线性组合,从⽽可使⽤参数 ω 恢复出原始公式。
在对偶公式中,我们通过对⼀个N × M 的矩阵求逆来确定 α ,⽽在原始参数空间公式中, 我们要对⼀个 M × M 的矩阵求逆来确定 ω ,其中 M 为基函数变换后的空间维度,由于训练数据数量 N 通常远⼤于 M ,对偶公式似乎没有实际⽤处。然⽽,对偶公式可以完全通过核函数 k(xₙ,x) 来表示,于是就可以直接对核函数进⾏计算,避免了显式地引⼊基函数特征向量 ф(x) ,从而隐式地使⽤⾼维特征空间。
2. 核函数 (Kernel Method)
如果⼀个算法的输⼊向量x 只以标量积的形式出现,那么我们可以⽤⼀些其他的核来替换这个标量积,这就涉及到所谓的核技巧 (kernel trick) 或核替换 (kernel substitution),我们需要构造合法的核函数,所谓合法,即构造的核函数对应于某个特征空间的标量积。假设有一个核函数
k(x,z)=(xᵀz)² (9)
取⼆维输⼊空间x=(x₁,x₂) 的情况,可以展开为基函数非线性特征映射
k(x,z)=(xᵀz)²=(x₁z₁+x₂z₂)²
=x²₁z²₁+2x₁z₁x₂z₂+x²₂z²₂
=(x²₁,√2x₁x₂,x²₂) (z²₁,√2z₁z₂,z²₂)ᵀ
=ф(x)ᵀф(z) (10)
⼀般情况下,我们不会去直接构造基函数ф(·) ,而是需要找到⼀种⽅法去检验⼀个函数是否是合法的核函数。核函数 k(x,x') 是合法核函数的充要条件是其 Gram 矩阵 Kₙₘ=k(xₙ,xₘ) 对所有训练数据 {xₙ} 都是半正定的,即对于实对称 Gram 矩阵 K ,若任意向量 x ,都有 xᵀKx ≥ 0 恒成立,则 K 是一个半正定矩阵。
常见的核函数有多项式核函数
k(x,x')=(xᵀx')ᴹ (11)
高斯核函数
||x – x'||²
k(x,x')=exp(────)
2σ²
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。