0 引言
试验鉴定是推动装备发展、提升装备质量与战斗力的关键环节和重要支撑。通过全面检测、评估装备性能指标与作战效能,验证其是否满足设计要求与作战使用需求,试验鉴定为装备立项、研制、定型、列装及改进升级等各阶段提供科学依据。美军在二战后极力发展传统装备试验能力,建成了完善的试验鉴定体系[1]。随着人工智能技术的迅猛发展及在装备上的广泛运用,智能装备已成为现代战争的重要组成部分,并成为赢得未来战争的战略制高点。美军为保持军事优势和战略平衡,不断加强智能装备的研发与应用[2-3],并积极探索智能装备试验鉴定方法路径。
与传统装备不同,智能装备具有动态性、复杂性和不可解释性等特性,传统试验鉴定流程、测试指标等难以满足其试验鉴定要求。为应对智能装备试验鉴定面临的试验指标不全面、试验程序不规范、试验结果难追溯等问题,美国防部于2022年发布《负责任的人工智能战略和实施途径》和包含测试清单与案例库的工具包,确保人工智能技术在开发和应用过程中遵循伦理和安全标准,但缺乏可操作的测试指标;2024年发布《人工智能赋能和自主系统的试验鉴定》手册,首次明确智能装备系统试验鉴定程序,但仍需进一步构建动态、协作、透明的试验鉴定生态,确保智能装备系统的安全部署和有效应用。
本文通过系统梳理美军智能装备试验鉴定相关政策文件、标准清单、会议材料等,重点从顶层规划、架构建设、试验实施3个维度,分析美军智能装备试验鉴定发展现状,为我军智能装备试验鉴定发展提供启示建议。
1 基本概念
1.1 智能装备
智能装备是指应用人工智能技术的武器,通常由信息采集与处理系统、知识库系统、辅助决策系统和任务执行系统等组成,能够自行完成侦察、识别、瞄准、攻击目标和收集、整理、分析、综合情报等军事任务[4-5],主要分为军用机器人、智能指控系统、智能无人系统、智能坦克、智能导弹等[6],应用领域已覆盖陆、海、空、天等作战域。其具备自动化、自主决策强,打击精准,信息处理快,战场感知全面,自适应能力强,能与其他作战单元协同的优势,在近年来逐渐成为战场上的主力装备。
1.2 试验鉴定
试验鉴定是为获取和评价装备数据而设计的规范化、组织化和流程化的综合性活动[7-8],旨在为装备的论证、研制、采购、列装、使用与管理等各环节提供科学依据,确保装备具备良好作战效能。
智能装备与传统装备在试验鉴定上存在显著差异。传统装备试验鉴定侧重于基本性能指标,在可控环境下用直接测试等方法。智能装备则因其智能特性导致试验鉴定要求远超传统装备,如表1所示,智能装备与传统装备试验鉴定的区别,可从试验对象、试验内容、试验环境、试验方法、鉴定标准、试验人员要求等方面进行比较。

与传统装备相比,智能装备试验环境既要模拟自然环境,又要涵盖复杂电磁干扰和动态战场态势等动态变化场景,模拟难度极大;测试方法因性能随学习训练动态改变,难以精准量化,且数据来源复杂、获取难度大;测试结果因非线性和自适应性,传统分析方法难以适用。所以,智能装备试验鉴定需考虑其智能特性,在数据获取上结合仿真模拟等多渠道数据,分析评估时运用大数据、机器学习、数字孪生、多源信息融合、概率风险评估等技术,以全面评估复杂战场环境下的作战效能。
2 发展概况
智能装备试验鉴定是关乎战争胜败及国防安全的复杂系统工程,是自顶向下的国家级工程项目,需国家出台政策法规与标准规范,汇聚社会资源,推进测试技术与方法革新,形成标准化试验鉴定体系。下面重点分析美军智能装备试验鉴定体系建设中的顶层规划、架构建设、试验实施情况,通过剖析美军实践经验,加深我军对智能装备试验鉴定的认识与思考。
2.1 顶层规划
美军为提升军事实力和应对未来挑战,将智能装备作为主要发展方向,同时也意识到智能装备的潜在风险,重点围绕可信智能提出发展战略和实施途径,加强顶层规划。
将测试评估作为发展可信智能的重要途径。美国防部将测试评估作为发展可信智能的重要途径,针对智能系统不确定性、不可解释性等潜在风险,提出以可信为目标、负责任为核心的发展战略。2020年2月发布《人工智能伦理原则》,明确负责任、公平、可追溯、可靠、可控等原则[9]。其中,可靠性原则明确需保证智能系统具有明确和清晰的用途,要在全生命周期内测试和验证其安全性、保密性和有效性;可控性原则明确需保证智能系统能够履行预期功能,具备检测和避免意外后果的能力,能够直接关闭或停用出现意外行为的智能系统。2022年6月发布《负责任的人工智能战略与实施途径》,指出实现负责任人工智能的测评和评估工具,涵盖可信度、对抗性攻击和抗自然干扰等工具和技术[10]。
将测评技术和工具开发列入实施计划。美试验鉴定局积极开展智能装备试验鉴定相关政策制定、技术研究和工具开发,但尚未见公开发布的可操作文件和实施标准。《2022年作战试验鉴定战略更新》提出针对智能系统重新设计试验鉴定需求,应持续开展作战能力、性能和伦理评估,并制定试验鉴定政策、标准、指标和基于风险的管理框架[11];《2022财年年度报告》指出,国防部将人工智能作为试验鉴定重要部分,需准确设置复杂和动态的典型作战环境评估智能作战能力[12];《战略实施计划-2023》提出改革创新测试与评估基础设施、工具、流程和人才等相关内容,重点关注优化测评流程、改进自动化测试技术等随时间演进的武器系统的测评方法,落实五大战略支柱实施计划[13]。
将试验技术与人才培养作为战略方向。为推进人工智能技术在装备中的应用,美军改革装备立项论证机制、试验鉴定流程并扩展合作伙伴。2023年5月,美国防部发布的《2023年国家国防科技战略》提出,将联合仿真试验左移,通过原型构建和试验验证,在立项论证阶段分析智能装备发展投资重点;通过快速持续迭代,提升新技术向战斗力转化效率[14]。快速的技术变革对试验鉴定人员所需的技能和规模提出更高要求,美试验鉴定局一方面通过建立合作研发试验平台,提升新兴技术研发所需的试验能力,吸纳全球专业技术人才;另一方面加强与人事战备部、采办维持部等部门合作,强化人才管理和人才招聘,提升试验鉴定现有工作人员的能力,招聘符合要求的技术人才,以满足任务需求。
顶层规划是智能装备试验鉴定体系建设的纲领。美军明确的战略定位和发展目标为整个体系建设指明方向,使资源能够有针对性地投入。对风险的提前考量和应对策略制定,有助于降低智能装备在研发、使用过程中的不确定性,保障其安全性和可靠性。将测评技术与工具开发、试验技术与人才培养纳入战略层面,为后续的架构建设和试验实施提供了技术支撑和人力保障,从根本上决定了整个体系建设的高度和可持续性。
2.2 架构建设
美军积极探索智能装备试验鉴定架构,制定智能装备测评相关指令法规、开展重点问题研讨,推动各军兵种逐步形成智能装备试验鉴定模式。
美国防部指令提出基本要求和原则,为明确智能装备合规性并加速研制武器部署,不断完善相关法规。 2019年5月,美国参议院提出1558号法案《人工智能倡议法》,要求明确军事智能相关测试指标并形成标准,用于评估军事智能算法效果和数据集质量。美国2023年1月更新《3000.09武器系统中的自主性》指令[15]。首次明确智能装备试验鉴定要求,具备人工智能能力的自主和半自主武器系统,需在传统与网络安全测评基础上,遵循《人工智能伦理原则》和《负责任的人工智能战略与实施途径》。规定了自主和半自主武器系统的验证、确认、测试和评估的指导方针,严格测评智能能力和避免意外行为的能力,关注系统对新数据的适应性和更改后的安全性。明确自主武器系统审查内容,包括设计偏差、防护系统、力量属性及评审要求。
美国防部明确智能装备试验测试集、指标集具体要求。2024年,美国防部首次发布《人工智能赋能和自主系统的试验鉴定》手册,明确智能装备试验鉴定中测试集、指标集等关键要素的具体要求[16]。如表2所示,测试集方面,重点针对数据管理与验证计划、智能模型试验测试、与系统集成的智能模型测试等方面提出要求。指标集方面,重点从智能模型性能、装备系统性能和测试数据充分性等方面提出要求。



通过更新迭代要求确保软件安全可靠。美军对软件更新迭代提出严格的规定和要求,以确保其可靠性、安全性和互操作性。根据美国防部指令5000.87《软件获取途径》[17],所有软件更新必须采用持续集成/持续交付流程,并嵌入自动化安全测试(如静态代码分析和动态渗透测试),以符合国防部网络安全标准。《软件开发和文档》要求版本控制采用语义化版本规范,并完整记录变更内容,确保可追溯性。此外,国防部指令8 510.01《风险管理框架》规定,任何更新部署前必须重新评估安全风险,并获得新的临时或正式运行授权[18]。对于涉及人工智能或机器学习的更新,国防部指令3000.09《武器系统的自主性》要求额外提交算法可解释性报告和伦理合规性审查,以防止偏见和不可预测行为。同时, NIST SP 800—171标准要求所有更新后的软件在处理受控非密信息时,必须保持数据加密和访问控制机制的有效性[19]。这些规定共同确保美军智能试验装备的软件更新在高效迭代的同时,满足严格的国防安全和作战效能要求
多维度规则设定确保软件成本核算的合理性、可分配性和可验证性。美国防部指令5000.87对软件分类提出要求,商用现成品需提供市场价格对比分析,而定制开发软件则需按MIL—STD—3022标准核算独立验证与确认费用[17]。在成本结构上, FAR 31.205—7允许预留不超过总成本10%的风险储备金,但需提交合理性分析报告[20]。同时, DFARS 252.215—7007规定,所有成本数据必须保存至少6年,并接受国防合同管理司令部的审计。对于涉及人工智能的软件组件,还需参照进行额外伦理审查,相关费用需单独列支。最终,成本数据须按国防成本与资源中心指定格式提交,以确保数据一致性和可追溯性。
智能装备试验鉴定难点问题初步达成共识。为推进智能装备试验鉴定政策、程序、方法和工具发展,美试验鉴定局积极开展人工智能和自主系统相关研讨。2023年8月,召开人工智能和自主系统测试与评估研讨会,聚焦智能系统测评,从测评计划、模型测评、系统测评、作战测评、使用后测评等维度,探讨如何充分测评。强调智能系统试验鉴定要在设计阶段开展,明确构建测试环境和获取测试数据是首要任务。提出测试数据的作战相关性、噪声干扰性、动态性、可变性等具体要求,推广模型测评和系统测评相结合的方法,明确智能模型推理、智能系统互操作性等测评重点及试验设计方法。
多部门联合推进智能装备测试技术研究。为推动智能装备测试落地,美首席数字与人工智能办公室联合多部门开展相关研究。其与国防部研究与工程副部长办公室、测试与评估办公室合作,开发融入智能系统全生命周期的试验鉴定框架,制定持续测试方法和文档报告标准;建立测试评估模板和最佳实践,编制指导性文件和军用标准。与国防部测试资源与管理中心构建测试环境和工具中心,发布“负责任人工智能工具清单”,如“抗鲁棒性测评工具(ART)”“可解释性分析工具(XAI Toolkit)”“不确定性量化工具(IBM Uncertainty Quantification 360)”等,提供便捷持续测试能力。另外,联合军事服务实验室和国防部首席信息官分别开展智能测试新兴技术研究与智能安全管理指南研究。
美空军将智能装备试验鉴定改革列入日程。为加快形成智能装备试验鉴定模式,美军兵种努力探索人工智能试验鉴定方法路径。2023年9月,美空军发布《空军人工智能系统试验鉴定挑战》,建议空军试验中心领导优先考虑人工智能试验鉴定工作,提出智能能力的研制试验与作战试验之间界限模糊;试验单位应重视数据的收集、整理和高端计算能力;持续学习能力会不断改变智能系统,有必要在投入使用后持续试验;在已投入使用的人工智能系统中增加设备以监控其性能变化。
架构建设是智能装备试验鉴定体系的核心。美军全力构建全面、系统的智能装备试验鉴定体系架构。制定并更新指令法规,明确智能装备测评指导方针、审查内容等基础要求,规范测试集与指标集关键要素,严格管控软件更新迭代与成本核算。范围涵盖装备从研发立项、设计、生产到部署使用的全生命周期,覆盖软件、硬件及单一模型到系统集成的全领域。举措上,针对试验鉴定难点召开研讨会,推动多部门联合开发全生命周期鉴定框架,促进各军兵种开展试验鉴定改革。这一系列工作大幅完善了美军智能装备试验鉴定体系,有力推动智能装备发展,为提升未来作战能力筑牢根基。
2.3 试验实施
美军采用数字化平台开展智能装备和自主武器试验,积极开展多项智能赋能无人装备试验验证,检验智能装备试验鉴定体系落地应用。
美空军采用开放式飞行平台开展智能装备试验。2023年3月,美空军第96测试联队在埃格林空军基地自主数据和人工智能实验场,利用数字化概念和开放式飞行平台开展智能装备试验,试图摆脱繁琐军事流程。其中包括两项重点工作:一是“毒蛇”战斗机实验,基于下一代作战模型改装F-16以提升其自主能力,由人类飞行员在其飞行过程中对其进行能力评估;二是快速开放实验平台项目,通过在原机载系统中建立开放软件区,可将新的应用程序直接安装到飞机上进行试验,以实现实时数据分析、有人/无人编队和机器学习等多种任务增强功能。
美空军验证无人机智能驾驶模型。2023年8月,美空军研究实验室宣布,在1架F-15E战斗机的伴飞下,由智能模型控制的XQ-58A“女武神”无人战斗机,在美国佛罗里达州埃格林测试和训练场成功进行了3h试飞。该智能模型通过高性能计算、建模仿真,进行了数百万小时训练和测试。此次试飞是美空军“天空博格”计划历经两年研究的成果,标志着人工智能代替驾驶员执行现代空对空、空对地任务成为可能。
美英澳等国联合测试智能蜂群系统。2023年5月,美英澳组成“奥库斯”联盟开展首届“奥库斯人工智能和自主系统”作战试验。此次试验由英国国防科学技术实验室组织,在英国空军基地进行,使用英国和澳大利亚的无人机,重点测试目标识别和跟踪能力。试验中,团队对机器学习模型进行应用测试与评估,并在不同国家无人机上使用。
美公司开展无人机自主飞行试验。2023年4月,美国通用原子航空系统公司开展MQ-20“复仇者”无人机自主实时空战演示。演示采用LVC技术创建联合训练环境,验证基于智能算法的自主飞行能力与开放系统架构。试验时,地面操作员通过控制台发指令,经低轨卫星传至自主控制系统,该系统完成任务并反馈状态。同时,收集的智能体性能数据用于重新训练,再通过卫星传输回无人机实现更新升级。
试验实施是检验智能装备试验鉴定体系落地应用的必经途径。美军通过多种主体(空军部队、研究实验室、国际联盟、企业等),采用不同技术手段和试验模式(数字化与开放式平台、国际合作等),为智能装备探索新的试验模式与应用场景,有效提升了试验效率。同时,为装备的智能化升级提供了实践依据,有助于鉴定装备在智能算法、自主控制等方面的性能,推动装备向更高水平的智能化发展,提升其在现代战争中的作战效能。
3 启示建议
智能装备在现代军事领域的重要性日益凸显,其试验鉴定工作直接关系到装备性能、作战效能以及国防安全。美军在此领域的探索和实践为我军提供了参考。当前,我军智能装备试验鉴定工作虽有进展但也面临诸多挑战与机遇。为进一步提升我军智能装备试验鉴定水平,需从顶层规划、标准制定、技术研究以及试点建设等多个关键维度发力,以适应不断变化的现代战争需求。
强化顶层规划,明确智能装备试验鉴定实施要求。目前美军智能装备的试验鉴定仍处于探索阶段,但通过《负责任的人工智能战略与实施途径》《2023年国家国防科技战略》等顶层文件引导,已初步明确智能装备试验鉴定的总体要求和基本架构。建议结合实际,从顶层制定智能装备试验鉴定发展战略,全面系统地开展顶层设计与规划布局,出台制定智能装备试验鉴定指导性文件,充实完善智能装备试验鉴定法规体系,明确智能装备试验考核的主要内容、基本程序和实施要求,规范各领域智能装备试验鉴定工作,确保智能装备的试验鉴定工作有法可依。
推进标准制定,构建智能装备试验鉴定标准体系。美军正在推进智能系统测评方法、文档报告等方面标准规范拟制工作,将其作为智能装备试验考核落地实施的重要内容。建议在借鉴相关国际标准、国家标准、行业和团体标准的基础上,结合军用智能特点,尽快研究形成智能装备试验考核标准体系,优先编制试验鉴定要求、试验内容、测评方法、过程管理以及测评机构评价等共性标准规范,逐步细化构建各领域智能装备考核标准规范,并随技术发展和需求变化逐步修订、补充和细化。
深化技术攻坚,突破智能装备试验鉴定支撑技术。人工智能的安全可信已成为国际关注焦点,军用智能系统的安全性、可靠性问题更为突出。从美军相关报告、研讨会情况看,美军主要关注智能装备的鲁棒性、透明性、性能和边界条件、异常行为和故障模型等。建议针对数据集、智能模型、智能装备等不同测评对象,从试验设计、指标设置、场景构建等方面,突破智能安全性、鲁棒性、可解释性等测评技术,建立数实融合的智能装备试验设计方法体系、智能作战能力和智能技术特征的测评指标体系,以及涵盖各领域测评需求的工具手段集,支撑全军规范化开展智能装备测试试验。
加紧试点建设,推进智能装备试验鉴定稳步实施。智能装备试验鉴定属于创新性工作,难以一蹴而就形成共识,结合典型智能装备试验探索方法路径、完善方法手段,是世界主要国家推进智能装备测评工作的有效方式。建议选取典型智能装备作为应用试点,涵盖主战平台类、集群类、纯软件类等装备形态,结合试点装备试验鉴定安排,试行智能装备试验要求、标准规范和方法工具,在实施过程中总结经验、发现问题,逐步理顺流程机制、深化理论方法、完善评估手段,稳步快速推进智能装备试验鉴定工作落地实施。