作者提出了一个基于能量的模型 Energy-Based Model (EBM),该模型定义了一个函数 F(x, y) 来预测两个输入的相容性(compatible),如果是相容的,则会输出一个较低的值(energy),不然就输出一个高的值(energy),这里的 x 和 y 可以是一个值或者一段信息,也可以是不同的模态。
其中 x 定义为可以观测到的输入,而 y 定义为没有被观测到的哪一部分信息。从图片的角度来看,x可以看做是一个mask过之后的图片,y是被mask掉的那部分信息,从时间序列来看,x可以是过去和现在关于序列的观测,y可以是对未来序列观测的预测。
JEPA架构是世界模型的核心,由简单的双流架构构成,作用是对 x 和 y 的依赖关系进行捕捉,其架构如下图所示:
首先,x 和 y 会被分别送入到两个Encoder中,并得到关于它们的表征 sx 和 sy,而这里会有一个预测模块,通过 x 的表征 sx 来预测 y 的表征 sy, 在预测的过程中,还会使用一个潜变量(上文中介绍过),之后会使用能量模型,计算预测之后的表征~Sy和原始表征 Sy 的能量值,其定义为:
Ew (x,y,z) =D (sy,Pred(sx,z))
注意这里:
而最终的能量模型为:
需要注意的是,这里的Encoder模块不仅仅是对x和y进行表征,同时还起到了抽取关键信息的作用,也就是会过滤掉一些与当前任务无关的信息。举个例子,如果 x 是一段视频,其内容为一个汽车接近一个分叉路口,那么 Sx和 Sy可能代表过去和未来的位置、方向、速度和汽车的特征,忽略无关的细节,如路边的树木或人行道的纹理等。