摘 要
深度学习作为人工智能领域的战略级技术,在2024年持续取得突破性进展,持续重构现代战争规则,成为大国军事智能化竞争的核心角力点。对2024年深度学习技术热门领域的主要发展进行了综合评述。研究了深度学习技术的发展现状,其中多模态推理技术、空间计算技术、鲁棒深度学习技术成为当前研究的热点方向;探讨了深度学习技术的军事应用前景,在战场侦察、态势感知、辅助决策、指挥控制等诸多军事领域任务中,深度学习技术的应用潜力较大并已经开始为实战赋能;分析了深度学习技术的发展趋势,多模态信号处理、模型压缩、小样本学习以及模型评测环境构建,将成为未来深度学习进一步赋能军事应用的重要发展方向。
关键词
深度学习;机器学习;人工智能;多模态推理;空间计算;鲁棒深度学习
1 引 言
深度学习作为人工智能的一个重要分支,是一种基于计算模型的学习方法,能够通过多个相互连接的单元(神经元)从原始输入数据中直接学习复杂的表示和模式[1]。凭借其独特的自学习能力,深度学习能够从大量数据中自动提取特征从而完成复杂的任务,已成为解决各类复杂问题的有效工具,并在众多突破性技术和创新领域发挥着核心作用。在军事应用领域,深度学习的影响和意义尤为显著,其通过培育新域新质作战力量、赋能军事装备和系统,推动了军事技术的现代化、智能化发展。随着深度学习技术的不断发展和完善,其在军事领域的应用前景将更加广阔。在此背景下,本文对2024年度深度学习技术发展态势与应用现状进行了梳理和总结,并对下一步深度学习的发展趋势进行了预测,从而为加速深度学习技术驱动的新域新质作战力量培育与军事赋能进程提供了参考方向。
2 深度学习技术发展态势分析
2024年,深度学习技术持续突破,多模态推理技术、空间计算技术、鲁棒深度学习技术成为三个进展较为显著的方向,成为深度学习技术当前研究热点。其中,多模态大模型和多模态知识图谱的结合,有效推动基于深度学习的多模态理解和生成能力提升;随着深度学习技术对机器人的赋能力度加深,机器人空间操作研究正在迈向三维空间感知认知新阶段;鲁棒深度学习技术进步,提升深度学习模型的安全性、可信性,从而为人工智能应用拓展奠定基础。
2.1 大模型驱动的多模态推理技术,提升多模态数据理解与生成能力
2024年,多模态推理技术主要沿着基于多模态大模型的推理路径和基于多模态知识图谱的推理路径发展。
在基于大模型的多模态推理方面,多模态大模型作为一种典型的深度学习模型范式,依托其复杂的神经网络架构、强大的算力底座和高质量的多模态数据资源,在多模态推理方面展现出强大的技术优势[2]。5月,美国OpenAI公司推出了一款具有里程碑意义的多模态推理大模型GPT-4o[3]。GPT-4o不仅能够处理文本,还能理解音频、图像,甚至视频输入,并能生成相应的多模态输出,这种能力使得GPT-4o在多模态场景中表现出色,能够准确识别和理解各种类型的数据,从而实现高效的推理和决策。GPT-4o的多模态能力得益于其训练数据的广泛性和多样性,其训练数据涵盖了大量的公开可用的网络信息(包括网页、代码、数学公式等),这为GPT-4o提供了广泛的逻辑和推理能力;同时,GPT-4o从图像、音频和视频中汲取了大量信息,学会了如何解读和生成复杂的图像、声音和视频内容,从而实现了真正的视听合一。6月,作为将检索增强生成技术引入多模态大模型的首创性工作之一,普林斯顿大学、亚马逊人工智能实验室等联合团队发布多任务检索增强的多模态推理大模型框架RAVEN[4],通过针对特定任务的微调来增强基础多模态大模型能力。具体而言,如图1所示,给定一个输入图像,从外部存储器中检索“图像-文本”对,随后使用多任务预训练的基础视觉-语言模型对检索到的样本以及查询进行编码,并通过处理查询和检索到的数据进行解码以生成输出结果。该成果通过在不需要额外检索特定参数的情况下整合检索增强的样本,模型获得了在多个任务上有效的检索特性。
▲ 图1 多任务检索增强的多模态推理大模型框架RAVEN
▲ Fig.1 A multimodal reasoning large model framework RAVEN enhanced by multitask retrieval
在基于知识图谱的多模态推理方面,通过将知识图谱(尤其是多模态知识图谱)融入深度学习模型架构,实现对语义关系的明确化、歧义的消除以及理解的深化,提升了基于深度学习的视觉问答系统的理解力和回答的精确度。2月,三星印度研发院提出名为KAM-CoT的深度学习框架,揭示知识图谱在增强大型语言模型多模态能力方面的作用。该框架整合了思维链推理、知识图谱以及多种模态信息,以提升大型语言模型对多模态任务的综合理解能力。在多模态视觉问答任务(图2)中,该框架在训练参数较少的情况下,取得了当前最优的性能表现[5]。该成果致力于解决多模态理解及幻觉问题,力求在仅使用较少的可训练参数的情况下,实现与大型模型相媲美的高效能,其主要创新之处在于将知识图谱与思维链推理有效结合,通过在推理过程中引入外部知识,显著提高了模型处理复杂问题的能力及答案的准确性。8月,文献[6]提出一种基于多模态知识图谱的多模态推理方法MR-MKG,该方法通过利用多模态知识图谱进行跨模式学习,从而获取丰富的语义知识,显著增强了大型语言模型的多模态推理能力。具体而言,该成果采用关系图注意力网络对多模态知识图谱进行编码,并设计了一个跨模态对齐模块,以优化图像与文本之间的对齐。该成果被认为是首次尝试利用多模态知识图谱中衍生的知识来扩展大模型的多模态推理能力。
▲ 图2 基于知识图谱的多模态推理帮助解决视觉问答任务
▲ Fig.2 Multimodal reasoning based on knowledge graph, for helping solve visual question answering tasks
2024年,涌现出大量用于多模态推理研究的评估基准数据集,重点考验和评价模型处理复杂场景、复杂任务的多模态推理能力,为相关技术研发提供试验场和评判依据。6月,美国卡耐基梅隆大学、普林斯顿大学等联合团队发布用于评估多模态模型在执行大规模、多学科任务时表现的评估基准MMMU(图3)。面向全面性、高度异构的图像类型、交错的文本和图像、基于深度学科知识的专家级感知和推理等四项挑战,该成果集合了从大学考试测验、教科书等来源精心挑选的11500个多模态问题,覆盖了艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程共六个核心学科领域,问题横跨30个学科和183个子领域,包含了30种不同类型的图像,如图表、图解、地图、表格、乐谱和化学结构等[7],与现有的基准测试不同,该基准侧重于评估模型在运用特定领域知识进行高级感知和推理方面的能力,从而挑战模型执行类似专家所面临的复杂任务。8月,美国Meta公司基础人工智能研究团队发布一款创新型评估框架UniBench,其核心目标是对视觉-语言模型的性能进行全面评估[8]。该框架通过统一实现了超过50 个细致分类的基准测试,涵盖了从物体识别到计数等多个领域,为研究者深入剖析视觉-语言模型的能力提供了有力工具。该框架的显著特点在于,能够揭示模型在不同任务中的优势和不足,尤其是能够指出模型在推理和关系理解等任务上单纯依赖模型规模或数据量增加的局限性。同期,为了验证视觉语言模型是否能够仅通过视觉线索达到与它们在文本模式内已成功实现同样的因果推理理解水平,澳大利亚悉尼大学提出了一种驱动式图像合成方法[9],能够生成内含语义因果关系和视觉线索的镜像图像,从而有效地对视觉-语言模型的因果推理能力进行评估。通过广泛的实验研究发现,当前最前沿的视觉-语言模型在多模态因果推理方面的表现可能并未达到预期的高标准。
▲ 图3 支撑多模态推理技术研发的MMMU 数据集概览
▲ Fig.3 Overview of the MMMU dataset for supporting multimodal reasoning technology development
2.2 空间计算技术与机器人紧密耦合,提升三维空间感知认知能力
将深度学习技术嵌入并赋能机器人等实体空间终端设备,一直是深度学习领域近年的研究热点,重点强调在三维场景中进行空间感知和推理决策,催生出空间计算这一深度学习的新兴研究方向[10]。2024年度的相关研究,着重探索将视觉-语言模型应用于机器人的空间感知认知任务,重点解决有效融合视觉与语言信息、有效应对机器人操作中的时序性问题等,在逻辑框架和关键技术层面均有标志性进展。
在逻辑框架层面,大模型架构的理解生成与规划统筹能力,迎合机器人的各类具身操作任务对语言指令理解、场景感知和时空规划的强需求,众多研究在探索充分将大模型能力迁移到机器人领域、直接规划底层动作序列,形成全新的视觉驱动的空间感知认知学习框架。5月,文献[11]基于开源的多模态语言视觉大模型OpenFlamingo,开发了一款开源且易于使用的机器人操作框架RoboFlamingo,仅需单机即可完成训练。通过简单的少量微调,即可将视觉-语言模型转换为适用于机器人操作任务的模型,实现语言交互的机器人操作。相关实验结果证实,该框架仅利用了1%带有语言标注的数据,便在一系列机器人操作任务中取得了当前最优的性能表现,成为机器人领域首个开源的视觉信号学习框架。7月,文献[12]发布名为OVGNet的创新型视觉-语言学习框架,该框架致力于解决机器人在现实环境中对未知物体类别进行抓取的难题。该框架通过融合开放词汇学习机制,使得机器人能够识别并有效地抓取已知类别及新颖类别的物体。此项技术打破了传统机器人抓取系统的界限,利用包含63385个抓取场景的权威数据集进行训练,实现了在已知物体类别上71.2%和新颖物体类别上64.4%的高准确率。
在关键技术层面,众多研究探索通过构建并引入场景模拟深度学习模块和模拟学习理念,来提升智能体在空间的自主决策、精准空间定位与行动推理能力。6月,美国伊利诺伊大学厄巴纳-香槟分校提出面向三维视觉-语言空间计算的端到端情境基础模型SIG3D(图4),重点突破智能体能够基于语言提示进行自我定位、智能体能够从其计算得出的位置角度回答开放式问题等瓶颈难题,形成了一种结合视觉语言模型来强化空间智能的全新深度学习方法论[13]。面向情景感知(人类在回答三维空间中的复杂感知、规划任务和推理任务的时候,会自然而然地从自身所处的情景出发,来做第一人称的理解和判断)需求,该深度学习框架采用稀疏体素表示对三维场景进行标记,并设计了一种基于语言的情境模拟器,其后衔接情境问答模块。6月,美国麻省理工学院提出了一种名为“模拟选择定位与放置”的新型学习技术SimPLE[14],旨在通过模拟训练,使机器人能够执行精确的拾放操作。该技术采用计算机辅助设计模型,通过模拟学习来掌握机器人拾取、重新抓握及放置不同物体的技能。该技术包含任务感知抓握模块、视觉-触觉感知模块、规划模块等核心模块,三个模块相互协作,使得机器人能够高效地处理形状和大小各异的物体。与传统的学习方法相比,该成果的优势在于机器人无需与实际物体进行交互即可完成学习过程,从而显著提升了学习效率,因此有望在自动化行业得到应用特别是在汽车制造、医疗实验室等半结构化环境中,进一步提高自动化操作的水平。7月,美国麻省理工学院、加州大学圣地亚哥分校联合团队发布机器人空间操控系统Bunny-VisionPro(图5)[15]。该系统在模拟学习框架下,借助虚拟现实技术,使人类用户能够实现对机器人在复杂、未知环境下的远程、高复杂度的操控。人类用户只需佩戴虚拟现实头盔,便能从机器人的视角进行观察、操作环境,并通过触觉反馈对其动作进行控制,仿佛亲临机器人所在位置,相较于传统深度学习技术实现了更高的成功率和更短的任务完成时间,并且在下游任务上体现出较好的泛化能力。该成果被认为在远程手术、搜索与救援以及行星探索等领域展现出广阔的应用前景。
▲ 图4 面向情景感知的SIG3D模型的框架
▲ Fig.4 Framework of SIG3D model for situational awareness
▲ 图5 空间环境感知操作系统Bunny-VisionPro的系统概览和适用的任务
▲ Fig.5 Overview and applicable tasks of spatial environment perception operating system Bunny-VisionPro
2.3 鲁棒深度学习技术,提升深度学习技术本身安全性和可信性
当前,深度学习模型及系统往往会表现出显著的脆弱性,即输入数据的微小变化便可能引发模型输出错误。即便是先进的深度学习模型,也极易受到对抗性扰动的攻击,且对此类扰动的防御极具挑战。图6展示了一个直观的遭受扰动的深度学习模型示例,模型最初将左侧的原始图像正确地分类为冰激凌,将中间像素扰动叠加到原始图像,形成右侧的扰动图像,尽管在视觉上与原版相同,但模型仍将其分类为卷饼。因此,鲁棒深度学习一直以来被各方面关注,直接决定了人工智能系统的可信度以及应用风险[16]。例如,7月,出于对新技术在伦理、法律和社会影响方面的关注,特别是对于生成式人工智能和对抗性技术可能引发的意外后果的担忧,美国DARPA宣布正在推动“伦理、法律与社会影响”(Ethical, Legal,and Societal Implications,ELSI)项目相关研究[17],旨在协助相关人员更加谨慎且负责任地引入和应用具有颠覆性的、新兴的深度学习与人工智能技术。
▲ 图6 深度学习模型受到扰动因素影响的示例
▲ Fig.6 Example of deep learning models affected by perturbation factors
面向自监督、预训练模型等新兴深度学习模型的鲁棒性增强(及评估)技术取得进展,促进相关技术的可信应用,产生多项关键技术和基础性平台。
在关键技术层面,5月,美国麻省理工学院联合团队开发了一项鲁棒深度学习新技术,旨在通过训练一系列略有差异的基础模型来评估深度学习模型(尤其是自监督学习模型)的可靠性[18]。该技术采用算法来评估不同深度学习模型在相同测试数据集上生成的特征表示向量的一致性(称为“邻域一致性”,如图7所示),进而判断深度学习模型的可靠性。与传统方法相比,该技术在众多分类任务中表现优异,特别是在涉及隐私敏感的数据集(如医疗保健领域),展现了其实际应用的重要性。研究表明,通过评估模型在相似场景下的一致性,研究者能够更加精确地量化模型的可靠性。7月,生成式人工智能全球领军企业美国OpenAI公司与美国洛斯阿拉莫斯国家实验室启动一项针对大模型安全性和鲁棒性的联合研究工作,其目标在于探究科学家如何在实验室环境中安全地使用多模态人工智能模型[19]。依据白宫发布的行政命令,美国能源部所属的国家实验室需对先进人工智能模型的能力进行评估,尤其是在生物学等学科领域的应用前景。为此,OpenAI公司与洛斯阿拉莫斯国家实验室的生物科学部门正联合对多模态大型模型进行生物安全性评估,并探讨这些模型在辅助生物科学研究中的潜在应用价值。
▲ 图7 基于邻域一致性的深度学习鲁棒性评估技术示意图
▲ Fig.7 Schematic diagram of deep learning robustness evaluation technique based on neighborhood consistency
在基础性平台层面,5月,英国人工智能安全研究所推出了一款新的针对深度学习模型及系统的安全评估平台Inspect[20]。该测试平台将面向全球人工智能社区免费开放,旨在进一步加强以深度学习为主的人工智能技术鲁棒性、安全性、可信性评估工作,为人工智能模型的安全创新奠定坚实基础。该平台是一款软件库,测试人员(包括初创企业、学术界及国际政府机构等)可利用其对各类深度学习模型的特定功能进行评估,并根据测试结果对模型的安全性进行评价。该平台适用于评估涉及人工智能核心知识、推理能力和自主能力等多个领域的模型。
尽管鲁棒深度学习领域近年来涌现出大量标志性成果,但是距离实用目标尚存距离。比利时哥特大学在关于鲁棒深度学习的最新综述[21]中提出:当前所提出的鲁棒深度学习解决方案在多个关键方面仍存在不足,例如这些方案往往增加了计算负担、对数据量的需求更为庞大、其复杂性使得正确部署变得困难,或者在准确性上无法满足具体任务的要求。
3 深度学习技术军事应用分析图片
深度学习技术在军事领域的应用前景广阔,尤其是在战场侦察、态势感知、辅助决策、指挥控制等军事任务上的应用已初见成效,在提升军事行动的智能化水平、增强作战效能的同时降低人员风险。
3.1 战场侦察:形成低成本、易部署、高敏捷的战场环境侦测新手段
在战场侦察方面,深度学习技术能够实现对无人机、卫星图像等侦察手段获取的大量数据的快速处理,自动识别并持续跟踪对方目标,进而提高情报获取的速度和准确性。6月,乌克兰特种部队成功研发和应用了名为“鹰眼”(Eagle Eyes)的低成本战场侦察软件[22],该软件使得无人机能够在不依赖全球定位系统(Global Positioning System,GPS)的情况下执行飞行任务。这款软件运用深度学习技术,将无人机下方区域的实时视频与侦察机所采集的照片和视频资料制成的地图进行比对,以此实现飞行路径的导航。此外,该软件能够识别导弹发射器、坦克等军事目标,并能在无需操作员直接指令的情况下,执行投掷炸弹或接近这些目标的行为。7月,美空军部发布了一份寻求由深度学习等前沿人工智能技术驱动的新型目标跟踪技术的招标书[23],旨在开发下一代战场目标跟踪架构,该架构将整合多种数据源,并在高性能计算环境中应用深度学习、机器学习和机器推理等人工智能算法。该计划预计投资约9900万美元,其研究范围涵盖处理和加速三维像素、矢量和点云数据,以及利用深度学习等技术从多个数据源进行识别、分类和模式学习。
3.2 态势感知:提升情报加工处理的智能化水平与风险危机预警效率
在态势感知方面,深度学习技术能够从复杂、碎片化的数据中提取高价值信息,构建战场环境的实时感知图,并通过分析多源数据(包括雷达、红外、声呐等信号),帮助军事人员更好地理解战场态势、识别潜在威胁,从而提高战场透明度。5 月,美国防部已授予美国大数据分析公司Palantir公司价值4.8亿美元的合同,促进开发“马文”(Maven)智能系统原型[24]。该系统通过整合多种数据源,旨在识别关键关注点并加速情报分析人员的工作效率。预计该项目将于2029年5月完成,美国防部希望使用包括该智能系统在内的人工智能工具来实现其联合全域指挥与控制作战架构,该架构旨在更好地将美军方和主要国际合作伙伴的平台、传感器和数据流连接在一个更加统一的网络下。6 月,美中央情报局的人工智能创新总监拉克希米·拉曼在亚马逊网络科技峰会上透露,中央情报局正积极将深度学习等人工智能技术应用于数据分类和开源信息搜集领域[25]。具体来说,中央情报局利用相关先进执行翻译、转录等任务,以协助分析师筛选和处理大量数据,以形成对于特定案件的整体态势;此外,中央情报局在涉及收集和处理公开信息的工作中,也在加大人工智能技术的辅助力度。
3.3 辅助决策:缓解决策者面临的信息过载问题,形成方案策划能力
在辅助决策方面,深度学习技术依托其对大量战场数据的即时推演与预判能力,能够帮助军事人员在短时间内从海量信息中筛选出关键情报、推导出关键结论,为战术选择和战略部署提供数据支持,同时,通过模拟和预测对方行为趋势,辅助制定更加有效的作战规划,并通过快速遍历、模拟各类可能出现的场景下的应对方案和手段,辅助作战人员制定可行性高的作战方案。1月,美国诺格公司宣布正在研发一款机器学习和深度学习驱动的辅助决策系统[26],旨在通过模式识别等途径来简化对导弹的发现分类和监测推演过程。通过分析实际发射事件,对真实事件或真实导弹进行精确分类,并提供辅助决策依据,旨在解决分析与决策人员所面临的信息过载问题,缓解虚警问题。该系统计划定期收集和更新各国武器库信息,以实现对武器系统的精确识别和判断,预计将于2025年交付美太空军,为相关项目执行与试验任务提供技术支持。4月,美国DARPA成功测试了实现了无人驾驶F-16战斗机与有人驾驶F-16战斗机在视距范围内的空中交战[27],验证了以强化学习和智能体技术为核心的深度学习技术在无人自主空战场景中进行复杂推理和辅助决策的可行性,此次测试不仅为未来战争空中缠斗、人机编组等场景提供作战支持,也为深度学习技术在时敏、复杂作战场景中的应用奠定了基础。8月,美海军研究实验室与全球海军研究办公室在现代海洋博览会上共同展示了Littoral Lens计算机视觉系统[28]。该系统具备自动实时推算沿岸水流速度和波浪参数的能力,以支持濒海战术决策,并提升有人舰艇或无人舰艇的战场感知能力。目前,该系统正在进行技术概念试验,已经作为关键技术被纳入全球海军研究办公室的“海军陆战队濒海远征行动冲浪观测工具”项目中,并最终应用于海军陆战队。
3.4 指挥控制:融合多元、复杂作战要素,优化指挥与控制操作流程
在指挥控制方面,深度学习技术通过分析历史作战数据和实时战场信息,能够为军事人员提供指挥控制方案建议,优化指挥链路的通信和决策流程、提高指挥控制的效率和准确性,此外,深度学习技术还能用于自动化指挥控制系统,实现对战场资源的智能调度和优化配置。3月,英国BAE系统公司获得了一笔8600万美元的拨款,以继续支持美海军的移动可部署“指挥、控制、通信、计算机、作战系统、情报、监视和侦察”(Command,Control,Communications,Computers,Cyber,Intelligence,Surveillance,and Reconnaissance,C5ISR)项目[29]。该项目旨在建立一个具有场景决策和指挥控制能力的网络系统,该系统能够协助部队执行各种任务和野战行动。4月,美空军向私营部门寻求关于深度学习、机器学习等人工智能技术的建议,以便将这些技术集成于基于云的指挥与控制架构中,最终应用于空军指挥与控制的现代化进程中[30]。美空军基于云的指挥与控制平台,在一个基于云的界面下集成了数百个关键的防空雷达和数据,用于制定行动计划,以帮助领导者快速做出关键决策。此次征集的人工智能技术将会发挥上述基于云的指挥与控制平台的重要“插件”作用,包括一整套工具和技术,主要目的是优化正在开发的指挥与控制应用程序,并减少指挥与控制操作所需的时间。美空军指出,将人工智能技术整合到指挥与控制系统中,能够协助指挥官做出指挥控制方案的决策。
4 深度学习技术发展趋势分析图片
从军事应用需求和科研价值角度,分别从信号处理、设备部署、任务应用、评测验证等方面,分析深度学习技术的未来主要发展趋势(图8),概述如下。
▲ 图8 深度学习技术发展趋势分析
▲ Fig.8 Analysis of deep learning development trends
4.1 信号处理:强化多源异构战场数据融合的多模态信号处理与理解技术
在全域联合作战大背景下,移动通信时代和万物互联时代所带来的战场环境数据量的激增和流媒体信号占比增加现象,以及模型架构的设计改良与硬件的性能提升,使深度学习技术研发已经不可避免地面临从以往单一模态处理开始向多模态生成方面迈进的需求,传统单模态分析技术手段已难以应对复杂电磁环境中雷达、光电、通信、声呐等多维度战场信号的实时融合解析需求[31]。因此,支撑多模态大模型预训练和微调的深度学习架构,将成为未来一段时期的研究热点,兼顾处理文本、图像、音频、视频、电磁等多种模态数据,实现跨模态特征对齐与语义关联、实现更全面的信息理解和推理,在更好地理解用户意图的基础上,根据用户需求生成多模态内容[32],提高对复杂战场场景的理解和响应能力,深刻重塑未来战场的感知、决策与对抗模式。
4.2 设备部署:适应边缘侧智能发展需求的深度学习模型压缩技术
随着无人作战集群、单兵智能装备、嵌入式电子战系统等边缘节点智能设备的大规模列装,传统高算力依赖型深度学习模型已无法满足强对抗环境下低功耗、高实时、抗扰动的作战需求。在这种情况下,为了应对深度学习模型的参数规模不断增大的现状,更好地适应侦察探测等任务对于低算力支撑的边缘侧智能需求,模型压缩和加速技术将变得至关重要,平衡计算准确率和计算资源开销,将成为未来深度学习技术发展所需要重点考虑的问题、将成为实现战术边缘强智能的核心使能手段[33]。未来,剪枝、量化、知识蒸馏等模型压缩方法将得到进一步发展[34],降低模型的计算量和存储需求,并提高模型的推理速度,使深度学习技术能够应用于资源受限的设备,从而推动形成去中心化弹性智能的新型作战范式,显著提升战场强对抗环境下的体系生存与持续作战能力。
4.3 任务适应:提升特定领域任务自适应能力的小样本深度学习技术
传统深度学习技术依赖于大量高质量训练数据,数据量和数据质量水平成为制约传统深度学习技术发展高度和赋能力度。但是,对于诸多实际应用领域(尤其是军事应用任务),难以获取或者在短期内标注大量高质量训练数据[35],因此,面对强对抗、高动态战场环境下新型威胁样本稀缺、装备迭代周期压缩、作战模式突变等挑战,为了减少对大量标注数据的依赖,基于元学习与迁移强化的小样本学习技术将在深度学习领域得到进一步发展、形成颠覆性应用价值[36],使模型能够学会“如何学习”、从而从少量样本中快速学习新的概念、技能和经验,从而提升深度学习技术对于新任务、新场景、新数据、新知识的适应性和灵活性,最终突破传统数据依赖型人工智能的局限,支撑构建“快速认知-敏捷适应”作战技术体系。
4.4 评测验证:提高深度学习技术的评估效率权威评测环境构建技术
当前,世界各国竞相发展深度学习技术,对于构建权威的、公开的深度学习技术基础性研发和评测环境的迫切需求也逐渐凸显。上述需求是由当前深度学习模型普遍存在的“黑盒”属性所导致的,因此在深度学习技术(包括大模型技术)投入态势研判、指挥控制等高风险军事决策任务中开展应用之前,必须对其安全性、可信性、鲁棒性等进行检测验证。针对上述需求,深度学习技术评测环境将提供开源数据资源、开源基线模型、评测标准、符合军事特殊性的评测指标体系及评测算法[37-38],将成为确保作战级人工智能可靠性的“质量阀门”,从而支撑新的深度学习模型在权威数据集上与权威基线模型(包括当前取得最优性能的基线模型)进行公平的比测和结果量化,同时进行安全性测试,从而验证新的深度学习模型的先进性和可行性,支撑关键领域的深度学习技术的可信认证。
5 结束语
近年来,深度学习技术取得了显著的进步,其研究成果正逐步转化为实际产品,其应用和影响范围也在不断扩大。同时,深度学习技术在军事领域的应用也具有重大战略意义,能够显著提升军事指挥与控制能力,增强态势感知和决策支持,从而提高军队的整体作战效能。为了促进深度学习技术在军事领域的创新与转化,本文在总结分析深度学习技术发展现状的基础上,深入探讨了其在军事领域的应用方向和未来技术发展趋势,从而为深度学习在军事领域的创新发展和应用研究提供了参考方向。