一、认知的鸿沟:从模式识别到物理理解
差距一:统计相关性不等于因果逻辑
当前世界模型大多基于海量数据训练,擅长捕捉像素或状态之间的统计关联。例如,一个模型看到球滚动,能记住“球位置变化”与“时间推移”的相关性,但它并不理解牛顿力学或动量守恒。通用仿真则需要内置因果关系:推一下桌子上的杯子,它应沿着力的方向倒下,而非随机移动。缺乏物理直觉的模型,在遇到训练分布外的场景时——比如不同摩擦力的桌面——就会产生荒谬的预测。
差距二:常识与物质恒常性缺失
人类知道物体不会凭空消失、水往低处流。但现有世界模型常常忽略这些基本常识。在视频预测任务中,模型可能让一个行人突然“融入”墙壁,或者让雨滴向上飞溅。通用仿真必须保证物质的恒常性:每个实体的存在、状态变更都需要合法的物理过程。这种对世界底层运作的再现,远非当前基于模式识别的模型所能企及。
二、尺度的困局:局域模拟与宇宙级复杂性
差距一:有限场景与无限细节
最先进的世界模型往往针对特定领域:城市街道、机器人手臂、Atari游戏画面。它们能模拟有限种类的物体和交互。而通用仿真需要涵盖从夸克到星系的所有尺度,同时处理固体、流体、生物体等异构元素。例如,模拟一杯咖啡,不仅要展现液体波纹,还要反映热量传递、杯子材质的光滑度、甚至咖啡豆的产地特征。当前项目只能给出模糊的像素块。
差距二:组合爆炸与计算瓶颈
现实世界的状态空间近乎无限。一个简单的房间内,物品的位置、姿态、温度、纹理……组合数远超原子数量。所有世界模型都通过降维(如潜在变量)来压缩信息,但这必然丢失细节。通用仿真理论上需要精确跟踪每个自由度,这需要超越经典计算机的算力。虽然神经方法可以近似,但在复杂场景下误差会迅速累积,导致仿真崩溃。
三、时间的裂缝:短时预测与长期演变的矛盾
差距一:几秒内的可信与几分钟后的疯狂
当前模型在短时预测(如未来2~3秒的视频)中表现尚可,但若延长至数分钟,输出往往陷入混沌:球体反复跳跃、人物重影叠加。这是因为模型没有内置时间微分方程,而是通过有限历史帧外推。通用仿真需要支持任意时间长度的连续演化,并且保持能量守恒、熵增等热力学方向性。例如,打碎的鸡蛋不能自动复原,而现有模型难以保证这种时间箭头的单一性。
差距二:长期规划的累积误差
在强化学习和机器人控制中,世界模型用于规划多步行动。每步预测都会引入误差,经过几十步后,模型想象的世界可能与真实环境完全脱节。通用仿真必须具有自洽性:即便存在微小扰动,长期行为也应符合统计规律(如气候模拟)。当前项目往往通过“重置”或“短视”来回避此问题,无法支撑真正意义上的持续仿真。
四、交互的缺失:被动观测与主动干预的隔阂
差距一:无法处理“反事实”操作
现有世界模型多数是生成式:给定过去,输出未来。但它们很难回答“如果我此时推动石头,会发生什么?”这类反事实问题。因为训练数据中缺乏对同一场景的人工干预记录。通用仿真天然支持主动操纵:用户可以随时改变任意物体的状态,系统根据物理法则实时计算后果。这是科幻电影中“全息沙盘”的核心能力,而当前模型至多允许改变个别控制参数。
差距二:实时交互与响应速度
即便某些模型支持交互,延迟也往往在数百毫秒以上,且每次干预都需要重新运行前向传播。通用仿真要求人类操作者感觉不到滞后(<16ms),并能同时响应成千上万的并发交互。此外,交互的细粒度也是一个难题:用户可能想轻轻触碰羽毛,也可能是用力锤击铁块。现有模型很难覆盖如此宽广的力反馈范围,往往只能输出离散的动作类别。
五、价值的迷思:工具性仿真与通用智能的彼岸
差距一:我们真的需要“通用”吗?
一个尖锐的问题是:通用仿真是否是伪需求?现有世界模型已在自动驾驶、游戏AI等领域创造了实际价值。它们不需要模拟海啸或太阳风暴,只需覆盖任务相关的场景。然而,追求通用仿真的意义在于:只有真正理解世界运行规律的系统,才能具备鲁棒性和迁移能力。当一辆自动驾驶汽车遇到训练数据从未出现过的、由塑料袋引发的意外滑行时,基于物理的仿真能推理出正确应对,而统计模型可能乱打方向盘。
差距二:通往通用仿真的路径迷雾
目前有两种路线:一是基于第一性原理的物理引擎(如刚体动力学、流体仿真),二是完全由数据驱动的神经网络世界模型。前者精确但规则僵化,后者灵活但缺乏约束。真正的通用仿真可能需要二者的深度融合,并且要解决符号落地、组合泛化等基础难题。更重要的是,我们需要反思:通用仿真是否是强人工智能的必要条件?或许,一个能够高效模拟“对人类有意义的尺度”的世界模型,就已经足够接近目标了。但在那一天到来前,现有项目与理想之间,仍隔着几座珠穆朗玛峰。