可以将事件看作某个时间点的世界状态[4],但仅将事件视为任何索引观测的变量也未尝不可,而无需进一步的物理意义[5]。我们可以说观测索引的联合分布本身就是柏拉图的现实。
在这个理想化的世界中,了解ℙ(Z) 对许多种预测是有用的;这将构成对导致我们观测的事件的世界模型。接下来我们将展示某些对比学习者是如何恢复ℙ(Z) 的特定表示的。
人类感知的感知
来自Bxef的视觉
语言从蒙版语言对比学习(SimCSE)
from屏蔽语言预测学习(罗伯塔)
逐点互信息
图8.视觉和语言中的颜色共现产生感知组织
视觉和语言中的颜色共现产生知觉组织:相似的颜色表示通过,从左到右,CIELAB颜色空间的知觉布局,CIFAR-10图像中的共现,以及语言共现建模; 大致按照计算)。详细信息见 Appendix D。
一类对比学习者趋同于ℙ(Z) 的表示
考虑一个对比学习者,它建模\textit{共同发生}的观测。为了简化讨论,我们使用以下定义的共现概率 Pcoor 来表示两个观测 xα 和 xb 在某个时间窗口 Twindow 内同时发生的概率:
Pcoor(xα,xb) ∝∑ ℙ(Xₜ=xα,Xₜ'=xb).
(t,t'):|t–t'|≤Twindow
类似地,我们可以为Z 和其他观测模态定义 Pcoor 。注意, Pcoor是对称的。
考虑正样本对为时间上接近的两个观测(从 Pcoor 采样)和负样本对为从任何时间点独立采样的观测。我们的对比学习者试图通过学习表示 fx:X → ℝᵈ 来分类一个样本对是正样本还是负样本,使得点积核近似于对数赔率比,最多有一些偏移:
Pcoor(xα│xb)
=log ──────+cx(xα)
Pcoor(xα)
=Kpmi(xα,xb)+cx(xα),
其中 Kpmi是逐点互信息(PMI)核,且 cx(xα) 对 xb 是常数。我们注意到这是具有NCE目标的自监督对比学习者的常见设置,例如SimCLR和SimCSE。
在世界足够平滑的温和条件下,选择fx 可以精确表示 Kpmi:
〈fx(xα),fx(xb)〉=Kpmi(xα,xb)+cx,
其中我们观察到=Kpmi(xα,xb)+cx(xα),中的 cx(xα) 必须是常数,因为两边都是对称的。
因此,我们考虑的对比学习者通过表示 $f_X$ 最小化其核是Kpmi (最多有一个常数偏移)。随着足够的数据和优化,我们将观察到趋同到这一点。
因此我们趋同于 $X$ 的统计表示,但 $Z$ 呢?回想一下,我们的理想化世界由\textit{双射}观测函数组成,这些函数在离散随机变量上保持概率。所以我们有:
Pcoor(xα,xb)=Pcoor(zα,zb)
Kpmi(xα,xb)=Kpmi(zα,zb),
这里我们以模态无关的方式使用Pcoor 和 Kpmi 来强调不同模态共享相同的量。
数学联邦政治世界观提示您:看后求收藏(同人小说网http://tongren.me),接着再看更方便。