2026-01-09 10:01:1716浏览
深度强化学习 / 强化学习培训 / 数字孪生培训 / 大模型培训 / 智能体培训 / 具身智能培训

我们提出视觉语言模拟模型(VLSM),通过统一视觉与文本理解能力,能够根据布局草图和自然语言提示生成可执行的FlexScript代码,从而为工业仿真系统实现跨模态推理。为支撑这一新范式,本研究构建了首个面向生成式数字孪生的大规模数据集,包含超过12万个“提示–草图–代码”三元组,支持文本描述、空间结构与仿真逻辑间的多模态学习。同时,我们针对该任务专门提出三项新型评估指标——结构有效率(SVR)、参数匹配率(PMR)与执行成功率(ESR),以全面评估生成结果的结构完整性、参数保真度及仿真器可执行性。通过对视觉编码器、连接模块及代码预训练语言主干网络进行系统性消融实验,所提模型实现了近乎完美的结构准确率与较高的执行鲁棒性。这项工作为生成式数字孪生奠定了重要基础,将视觉推理与语言理解能力融合于可执行的工业仿真系统中。