首页/人工智能/美国防部发布人工智能模型测试评估框架/
美国防部发布人工智能模型测试评估框架
2025-09-08 11:26:0322浏览
源自:红山开源

模型算法作为智能装备的核心与“灵魂”,其质量、可用性、可靠性至关重要。美国防部首席数字与人工智能办公室(CDAO)作为美军人工智能与数据战略的主责机关,负责美军兵种与国防系统人工智能与数据领域“政策—预算——采购—落地”的全链条管理与实施,主导了超过180项生成式AI用例评估、系统搭建了美军Advana数据平台、与OpenAI签署数亿美元合同开发前沿AI工具流代理等多项关键任务;近期,CDAO组织开展了人工智能赋能能力(AI-enabled capabilities,AIEC)测试评估工作,为测试和评估人工智能的赋能能力提供全面指导。该测试评估框架涵盖了人工智能模型、系统集成(SI)、人机系统集成(HSI)、作战等4个方面;其中,首次介绍了如何测试评估独立的以及集成到系统中的人工智能模型,这为模型开发与测试人员开展模型评测提供了权威指导。本文简介该测评框架的性能指标体系、主要方法、关键测试要素、文档记录等重点,以飨读者。

人工智能模型测评的性能指标体系类似于一个“冰山”模型。其中,浮于“冰山”上方的是正确性指标(如准确率、精确率或召回率等),该指标最为明显和直观,也最受关注;但尚有很多不那么受关注却极为重要的“冰山”下指标,主要包括:表征模型对不同来源的错误的应对能力的偏差和漂移2个指标、表征对输出和推理的解释能力的可解释性和不确定性2个指标、表征对不同的情况和输入应对能力的延迟和鲁棒性2个指标,表征对现实世界的问题和数据表现能力的代表性和弹性2个指标。这上述9个性能指标相互关联且关系复杂,篇幅所限不再赘述。

图  人工智能模型测评的性能指标体系“冰山”

人工智能模型的主要评测方法包括对比测试、对抗威胁测试等。对比测试方法可用成对测试法、A/B测试法、背对背测试法等。成对测试法主要用于生成测试用例,确保成对的任意2个变量(或参数)的所有可能组合至少被覆盖一次;该法保证了在显著减少测试用例数量的情况下,仍能发现使用穷举测试时可能发现的大部分缺陷。A/B 测试法主要比较程序的两个变体(A 和 B)对相同输入的响应,以确定哪个变体更优,通常需要比较多个测试的结果来确定程序之间的差异。背对背测试法将被测模型与不同的模型进行比较,通常是通过对比两个模型的性能来识别缺陷。对抗威胁测试方法可用对抗测试法、红队测试法、经验测试法、蜕变测试法等;在考虑优先级和可用资源的情况下,根据数据和模型的不同可灵活以上具体方法。值得注意的是,模型测试中,必须重点关注训练数据中覆盖较少的区域,要综合使用各种测试范式,了解各自优缺点,不可挂一漏万,需根据具体场景和目标选择适用的方法。

数据、模型、测试场景是模型评测的三要素。与传统软件不同,数据是人工智能模型的基础,任何数据缺陷都可能导致模型性能的大幅下降。测评过程必须确保数据完整、多样且真实,并且数据的全生命周期(采集、清洗、特征化、拆分、整理、验证和校核等)都要有记录、经过验证且可重复。模型作为被评测的主要对象,首先要考虑评测方案与模型拟解决问题的目标和要求的一致性,并需考虑解决方案的约束和限制,以及偏差、过拟合、可解释性等机器学习特殊的问题和困难,最后要完整记录整理模型全生命周期(模型类型选择、特征选择、训练与测试、评估、部署、监控与维护)的全部测试数据。测试场景主要包括测试用例和环境,测试用例是对如何使用模型将及其能解决哪些问题的全面、详细描述,为评估模型的有效性提供关键场景。测试用例一般由开发者创建,测试人员给予审查及必要改进。测试环境包括测试所需的计算资源、网络限制、安全环境等,需要考虑这些环境要素如何驱动测试需求。

模型测评必须要有全面的文档记录,详尽的数据文档记录和模型文档记录对于提高测试透明度、增强可重复性、促进对模型的理解以及实现负责任的应用至关重要。所有文档必须进行版本化管理,采用自动化工具,详细记录说明模型在标准指标下的性能,也应包含模型用例、局限性、潜在风险等内容。

友情链接: