近年来,大语言模型(LLM)展现出惊人的语言生成与知识整合能力。然而,当被问及“如果把冰块放进热油会怎样?”或“为什么推倒第一块多米诺骨牌会导致连锁反应?”,许多模型仍会给出违反物理常识的答案。
这种“纸上谈兵”式的智能,暴露出一个深层问题:当前大模型缺乏对真实世界的内部模拟机制——即“世界模型”(World Model)。
本文将从认知科学与人工智能交叉视角,探讨:什么是世界模型?大模型为何难以构建它?这一缺失又如何划定其认知边界?
一、什么是世界模型?——智能体的“内在模拟器”
“世界模型”最早由控制论先驱卡尔·冯·韦伯(Karl Friston)和机器人学家Jürgen Schmidhuber提出,指智能体在脑中(或系统中)构建的关于环境动态规律的内部表征,用于预测行动后果、规划未来、解释过去。
人类的世界模型包含:
· 物理直觉(重力、摩擦、碰撞);
· 因果逻辑(A导致B);
· 社会规则(礼貌、合作);
· 时间演化(事件如何随时间展开)。
正是这个“内在模拟器”,让我们无需真实尝试就能预判“从三楼跳下会受伤”,或“说错话可能冒犯他人”。
对AI而言,世界模型是具身智能、自主决策与可靠推理的基石。
二、大模型有世界模型吗?——统计关联 vs 因果机制
当前主流大模型(如GPT、Qwen、LLaMA)本质上是强大的模式匹配引擎。它们通过海量文本学习词语共现规律,但无法区分相关性与因果性,更缺乏对连续时空动态的建模能力。
典型认知盲区包括:
1. 物理常识缺失
· 模型知道“水在0°C结冰”,但无法模拟“一杯热水放在雪地里多久会凉”;
· 面对“用纸杯装沸水会怎样?”,可能忽略材料强度与热传导的耦合效应。
2. 时间与状态演化的不可靠性
· 在长对话中,模型常忘记之前设定的角色状态(如“你是一个盲人”);
· 无法追踪多步操作后的环境变化(如“开门→进屋→关门”后门的状态)。
3. 反事实推理薄弱
· 问:“如果牛顿没被苹果砸到,经典力学会延迟出现吗?”
模型可能基于历史文本拼接答案,而非模拟“科学发现依赖多重条件”的复杂因果链。
根本原因:训练数据是静态快照(离散文本),而世界是连续动态系统。大模型学到的是“人们怎么说世界”,而非“世界本身如何运行”。
三、世界模型的构建路径:从文本到具身
要突破认知边界,研究者正探索三条融合路径:
▶ 1. 引入显式世界模型模块
· 在LLM外部集成物理引擎(如MuJoCo、NVIDIA PhysX)或符号推理器;
· 生成前先在模拟环境中“试运行”,再输出结果。
例如:Google 的 SayCan 框架中,LLM 提出动作,仿真器验证可行性。
▶ 2. 多模态具身预训练
· 让模型在第一视角视频+动作+语言数据中学习(如Ego4D、BridgeData);
· 通过观察“手推盒子→盒子移动”的视觉-动作对,建立因果直觉。
代表工作:VIMA、RT-2、OpenVLA。
▶ 3. 神经符号混合架构
· 用神经网络处理感知,用符号系统编码物理规则与逻辑;
· LLM 负责语言接口,世界模型负责状态更新与预测。
如 MIT 的 “Neuro-Symbolic Concept Learner” 在视觉问答中显式建模对象属性与关系。
这些方法的核心思想是:让模型不仅“读世界”,更要“体验世界”。
四、大模型的认知边界在哪里?
基于世界模型视角,可清晰界定当前大模型的能力边界:

简言之:大模型擅长“描述已知”,但不擅“模拟未知”。
五、未来方向:迈向“ grounded ”的大模型
要弥合这一鸿沟,未来研究或将聚焦:
· 构建大规模具身预训练数据集:收集人类与环境交互的多模态轨迹;
· 开发可微分世界模型:使物理模拟可端到端训练,与LLM联合优化;
· 设计“世界模型提示”机制:在推理时动态注入环境状态与规则;
· 评估体系革新:用 PHYRE、VirtualHome 等动态仿真环境测试模型推理能力,而非仅靠静态问答。
值得注意的是,世界模型不等于完全模拟现实,而是构建一个足够支撑任务决策的简化内部模型——正如人类也无法精确计算抛物线,但能凭直觉接住飞来的球。
结语
大模型是人类知识的镜子,但镜子无法替代身体去触摸世界。
真正的通用智能,需要一面镜子,更需要一双能感知、能行动、能在失败中学习的眼睛和手。
世界模型,正是连接语言与行动、符号与物理、想象与现实的桥梁。而在这座桥建成之前,我们必须清醒认识到:大模型的认知,止步于文本的边界;而世界的真相,藏在交互的深处。