2025-12-19 10:10:369浏览
源自:arxiv
端到端自动驾驶框架在泛化性、训练效率和可解释性方面持续面临挑战。现有方法通常通过在大规模数据集上进行监督学习来利用视觉语言模型以提升推理能力,但在新场景中往往缺乏鲁棒性。相反,基于强化学习的方法虽增强了适应性,却仍存在数据效率低下和决策过程不透明的问题。为突破这些局限,我们提出COVLM-RL——一种融合关键对象导向推理与VLM引导强化学习的新型端到端驾驶框架。具体而言,我们设计了一种思维链提示策略,使VLM能够对关键交通要素进行推理并生成高层语义决策,从而将多视角视觉输入有效转化为结构化的语义决策先验。这些先验不仅降低了输入维度,还将任务相关知识注入强化学习循环,从而加速训练并提升策略可解释性。然而,如何将高层语义指导与连续的低层控制无缝衔接仍具挑战。为此,我们引入一致性损失函数,以促进VLM的语义规划与智能体控制输出之间的对齐,从而增强可解释性与训练稳定性。在CARLA仿真环境中进行的实验表明,COVLM-RL在已训练驾驶环境中的成功率提升30%,在未见环境中的成功率提升50%,充分凸显了其强大的泛化能力。