1 引言
随着自主化和智能化进程的不断加快,无人系统在自动驾驶、工业生产、物流运输、太空探索和军事等领域的应用日益广泛。这为各个领域的发展带来了巨大变革,与此同时也带来了诸多挑战。为了实现真正的自主化和智能化,无人系统不仅需要精准感知周围的环境信息,还需要理解高层语义信息,并通过与环境的动态交互做出灵活的决策。无人系统是指由无人平台及若干辅助部分组成,具有感知、交互和学习能力,并且能够基于知识进行自主推理、自主决策,从而利用底层控制系统达成目标的有机整体[1]。按照应用场景的不同,可以分为:地面无人系统、海洋无人系统、空中无人系统和空间无人系统,如图1所示。在工业生产、物流运输、灾害救援和日常服务等领域,无人系统已经展现出广泛应用前景。当前的无人系统具备一定的环境感知和自主决策能力,能够执行巡航导航、简单抓取、区域监控等任务[2]。然而,由于大多针对特定场景和任务定制,这些系统在未知环境下泛化能力有限,仍存在感知精度不够、对环境变化适应性差、对未见目标缺乏识别能力等不足[3]。传统无人系统的感知模块往往依赖大量人工标注数据训练的模型,对分布偏移和场景变化缺乏鲁棒性。如何让无人系统在开放环境中可靠地感知并理解世界,是人工智能和机器人领域长期追求的目标。
近年来,大模型(Large Model)在自然语言处理和计算机视觉等领域取得突破,为无人系统的智能感知带来新的思路[4]。大模型通常拥有数以亿计甚至千亿级别的参数,依托Transformer等架构在海量数据上进行预训练,展现出强大的泛化能力和特征表示[5]。通过有效挖掘和迁移视觉-语言预训练模型中所蕴含的语义知识,无人系统具备了在零样本或小样本场景下识别未见目标的能力,进而可实现对复杂环境语义的深入理解与建模,并对动态场景变化做出可靠预测。这种基于预训练模型的泛化学习框架,为解决传统方法在开放环境下的泛化性不足问题提供了重要的技术途径。与传统方法相比,引入大模型有望缓解对海量人工标注数据的依赖,提高模型对环境变化的鲁棒性和开放环境下的认知能力,使得通用无人智能体的实现成为可能。本文围绕无人系统感知技术展开综述,主要调研2005—2025年无人系统感知领域中面向四类感知任务的代表性研究成果,并重点关注基于大模型的感知技术最新进展。首先,对不同感知任务类型中的感知技术发展历程进行回顾和整理。其次,聚焦大模型在不同感知任务中的应用研究进展,梳理视觉大模型、多模态大模型、端到端感知大模型等在无人系统感知领域发展脉络。然后,讨论无人系统感知技术未来的发展趋势和大模型在无人系统感知技术研究中面临的挑战。最后,总结提出未来研究建议。
2 无人技术系统感知现状
作为无人系统接收外部信息,与环境交互的关键环节,感知层在无人系统的组成中不可或缺。感知技术的发展可以划分为两个主要阶段[21]:第一阶段是基于传统的手工设计特征与浅层模型的阶段,这一阶段特征提取高度依赖专家知识,泛化性能受限;第二阶段是以深度学习为代表的数据驱动阶段,通过自动学习特征有效解决了复杂场景感知问题,推动了感知性能的大幅提升。按照感知任务的不同,无人系统感知技术主要可以分为以下四类:目标检测与跟踪、环境感知与空间建模、场景语义理解以及动态态势感知与预测[22],因此,本文将按照感知技术发展的两个阶段,从四类不同感知任务对无人系统的感知技术发展历程进行梳理。
2.1 目标检测与跟踪
2.1.1 目标检测目标检测(Object Detection)旨在从图像或视频帧中检测并定位目标对象,同时确定对象的类别或属性。目标检测是许多其他感知任务的基础,比如,目标跟踪、实例分割等[23]。Viola和Jones[24]于2001年针对人脸检测问题提出了Viola-Jones框架,将目标检测任务转化为二分类问题,采用滑动窗口法对图像区域进行检测,判断是否包含目标。该框架首次将Haar-like特征、积分图像和级联分类器结合在一起,极大提高了检测的速度。Dalal和Triggs[25]对尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)等已有特征进行改进,于2005年提出了方向梯度直方图特征(Histogram of Oriented Gradients, HOG),通过计算图像局部区域的梯度方向直方图来提取对象的形状和外观信息,对于图像的几何和光照变换具有更好的鲁棒性,在行人检测问题上取得良好效果。Felzenszwalb等[26]于2008年提出可变形部件模型(Deformable Part Model, DPM)并在后续工作中不断完善。该模型是对HOG的扩展,遵循"分而治之"的检测理念,将训练过程看作是学习如何正确地分解目标,而推理过程则是在不同的目标部件上进行检测并将结果进行组合。DPM模型在PASCAL VOC07/08/09挑战赛上都获得了优异的成绩,代表了传统目标检测方法的巅峰水平[21]。自2012年以来,深度学习算法的引入极大地推动了目标检测技术的发展,凭借其强大的特征学习能力,以深度学习为代表的数据驱动方法在检测精度和鲁棒性方面都超越了传统的基于手工设计特征的方法[27]。其中,最具代表性的算法有基于卷积神经网络(Convolutional Neural Networks,CNN)两阶段检测器和单阶段检测器[28]。两阶段检测器先生成候选区域,再进行分类回归,完成目标检测。Girshick等[29]于2014年首次将深度卷积神经网络应用于目标检测任务,提出了RCNN(Region-CNN),首先通过选择性搜索提取一组对象候选框,然后将每个候选框重新缩放为固定大小的图像,并输入到预训练的卷积神经网络模型中提取特征。最后,使用线性支持向量机分类器对提取到的特征进行分类,从而完成目标识别。由于RCNN中的每个候选区域都需要单独裁剪并缩放到固定尺寸才能够在CNN中前向传播,这会导致计算冗余和信息丢失问题,因此He等[30]在2015年提出了空间金字塔池化网络(Spatial Pyramid Pooling Networks, SPPNet),在RCNN网络中添加了空间金字塔池化层,使得卷积神经网络能够生成固定长度的向量表示,而无需重新缩放每一个候选区域的大小,避免了重复计算以及缩放过程中的变形问题,在检测精度不受影响的情况下,检测速度比RCNN提高了20多倍。为了进一步提高检测效率,Girshick[31]在2015年又提出了Fast-RCNN检测器,整合了RCNN和SPPNet的优势,检测精度和检测效率都得到了大幅度提升。随后,Ren等[32]在Fast-RCNN的基础上引入了区域建议网络(Region Proposal Network,RPN),从而突破了目标检测的速度瓶颈,首次实现了近乎实时的深度学习目标检测。为了获取不同尺度下目标更丰富、细致的特征表示,提高目标检测质量,2017年,Lin等[33]提出了特征金字塔网络(Feature Pyramid Network,FPN),FPN利用“自上而下”和“自底向上”的双向特征传播路径,并在不同层级添加横向连接,实现了特征的多尺度融合,在检测不同尺度目标时能够获得不同分辨率和足够的语义信息。得益于FPN在多尺度特征融合过程中的优异性能,成为了后续的各类骨干网络和网络框架的重要组成部分。单阶段检测器不生成候选区域,直接在特征图上进行分类回归,完成目标检测。相比于两阶段检测器,单阶段检测器的结构相对简单,实时性更强。Redmon等[34]于2016年提出了YOLO框架,将目标检测看做一个回归问题,在网络中一次性完成目标的定位和分类。作为第一个单阶段检测器,YOLO在牺牲小部分精度的情况下,具有极快的运行速度。为了提高单阶段检测器的检测精度,尤其是在小目标检测任务中的表现,Liu等[35]在2016年提出了SSD框架,通过引入多参考和多分辨率检测技术,在多个尺度的特征图上直接预测目标的类别和边界框,在检测精度和检测速度方面都有了更好的表现。为了解决单阶段检测器精度始终落后于两阶段检测器的问题,Lin等[36]于2017年提出了RetinaNet,通过引入“焦点损失”(Focal Loss)函数,在检测器训练过程中更加关注难分类、误分类的实例,从而解决训练过程中类别不平衡问题,使得单阶段检测器在保持检测速度的同时,首次达到了与两阶段检测器相当的检测精度。Law等[37]于2018年提出了CornerNet,主张以关键点来描述目标,将检测任务视为关键点的预测问题,通过预测目标的左上角和右下角位置,从而确定目标边界框位置。该方法在多个数据集上的性能表现超过了当时大多数的单阶段检测器,目标检测自此由“锚框”检测范式转变为“无锚框”检测范式。随后,Duan等[38]基于“无锚框”思想在2019年提出了CenterNet,相比于CornerNet,它将物体视为一个中心点,根据参考中心点回归得到目标的尺寸、位姿等信息,节省了大量的后期处理,形成了一个完全的端到端检测框架,在检测精度和检测速度上都有更好的表现。Zhao等[39]于2020年提出了一种半监督3D目标检测框架—SESS,该框架引入了自集成教师学生模型,增强了3D检测模型的泛化能力,在ScanNet等室内3D目标检测数据集上仅适用50%标注数据就达到了全监督方法相当的检测性能,大幅减少了模型对于3D场景的标注要求。为了缓解伪标签偏差和过拟合问题,Liu等[40]于2021年提出了Unbiased Teacher检测框架,通过引入学生网络与随训练逐步更新的教师网络共同学习,并采用类别均衡的损失权重降低了伪标签的影响,在COCO和VOC数据集上的检测精度得到显著提升。Chen等[41]在2023年提出了MixPL半监督检测方法,通过在伪标签生成过程中引入Mixup和Mosaic数据增强,弥补漏检并平衡不同尺度目标的学习,并且对长尾类别样本在有标注数据中进行重采样,提升了各类检测器的性能,在COCO标准数据集上创造了无需额外标注的验证集平均检测精度的新纪录。2.1.2 目标跟踪目标跟踪通过对视频序列信息的处理,持续定位和识别运动的物体,并输出其运动轨迹。目标跟踪包含了目标识别、目标分类和逐帧跟踪等过程。早期的目标跟踪算法主要通过对手工设计特征进行处理来实现的。Comaniciu等[42]于1999年在目标跟踪任务中引入MeanShift算法,将目标的外观分布视为概率密度,在搜索窗口中不断迭代,定位目标的中心,实现对非刚性目标的鲁棒跟踪。随后CamShift对MeanShift进行改进,通过调整自适应窗口大小和循环处理,以更好地适应目标尺度变化,在实际应用中表现更好。受到贝叶斯滤波的启发,Blake等[43]在1998年提出将粒子滤波用于视觉跟踪,引入了“Condensation”算法。粒子滤波算法通过在状态空间中使用一组随机粒子来表示目标的可能位置和形变,根据观测结果更新每帧中的粒子权重,随后进行重采样,大大地增强了目标跟踪对于非线性运动和多模态分布的适应性,成为了目标跟踪方法中的经典框架。2010年,Bolme等[44]将相关滤波引入目标跟踪领域,提出了MOSSE算法,其核心思想是在频域中学习一个自适应相关滤波器,通过最小化滤波输出与理想响应之间的平方误差来求解。得益于循环移位和快速傅里叶变换,算法的训练与推断速度得到了极大地提高,开启了相关滤波在目标跟踪领域中的“高速”时代。Henriques[45]于2014年将相关滤波器扩展到了非线性核空间,充分利用循环移位和傅里叶变换实现高效训练,并通过融合多通道特征增强了对目标与背景的区分度,该方法在多个公开基准测试集上具有极高的速度和精度。随后,Danelljan等[46]在相关滤波框架下将位置滤波器和尺度滤波器分开训练,进行在线更新并融合,在维持实时性的同时大幅度提高了相关滤波对于快速尺度变化的适应度。Ma等[47]于2015年提出了面向视觉跟踪的分层卷积特征,通过提取预训练卷积神经网络中的不同层特征,与相关滤波进行融合,低层级卷积特征保留精细外观,高层级卷积特征保留更多语义信息,证明了融合深度特征的相关滤波比依赖传统的手工特征的跟踪精度更高。Nam等[48]于2016年提出了多域网络(Multi Domain Network,MDNet)将多个视频序列看作多个“域”,共享卷积层来学习通用的目标特征,在当时的VOT等数据集上获得了高跟踪精度,开启了“深度判别式+在线微调”的范式,但是该方法的跟踪速度较慢。同年,Held等[49]提出GOTURN算法,通过离线训练的深度回归网络实现对新目标的快速跟踪,提高了目标跟踪的速度。2017年,Song等[50]在卷积网络框架中引入了残差学习方式,提出了卷积残差学习算法CREST,通过端到端地学习相关滤波器权重,让特征提取与滤波更新有了更深度的融合,提高了目标跟踪精度,为深度判别式跟踪发展提供了新思路。随着孪生网络Siamese在目标跟踪中的应用,涌现了一大批基于孪生网络的目标跟踪算法。Bertinetto等[51]提出全卷积孪生网络SiamFC,用两个共享权重的CNN分别编码模板图像和搜索区域,无需在线更新,只需单次前向传播就可完成匹配,实时性显著提高,随后出现的CFNet[52]、DSiam[53]等网络都是在此基础上进行的改进。Li[54]等在2018年提出了SiamRPN网络,在Siamese框架中引入了RPN机制,生成高质量候选框并回归精确位置,并随后在此基础上改进,提出了SiamRPN++[55],使用更深的骨干网络并优化了特征对齐,显著提升了跟踪精度,在多个单目标跟踪基准上取得了SOTA的效果。受到SiamRPN网络的启发,Hu等[56]于2019年提出了SiamMask,通过在Siamese检测结构基础上增加分割分支,同时输出目标框和目标掩膜,既能跟踪目标位置,又能分割精准的形状轮廓,拓宽了孪生网络的应用范围,体现了“多任务融合”的发展趋势。Harley等[57]于2021年提出了一种基于期望最大化的无监督目标检测与跟踪方法(EM-Based Unsupervised Tracking),该方法利用光流与相机运动估计设计伪标签对集成模型进行训练,并在“期望-最大化”循环中不断更新模型,逐步完善对运动物体的检测与跟踪,在KITTI自动驾驶数据集上较之前的无监督跟踪方法性能得到显著提升。Meng等[58]于2023年提出了无监督多目标跟踪方法(Unsupervised Contrastive Similarity Learning for MOT,UCSL),在无监督下通过对比学习训练联合Comaniciu检测模型,以获取视频序列中目标特征的时空一致性,减轻了多目标跟踪中遮挡和干扰的影响,跟踪精度达到了全监督跟踪算法水平。Wang等[59]在2024年提出了面向无人机视角的无监督目标跟踪算法(Pseudo Label & Re-detection for UAV Tracking,PLRUT),针对无人机等移动平台场景下跟踪数据集缺乏标注的问题,设计了创新的伪标签生成策略,并引入全局再检测机制来弥补目标在运动过程中因视野丢失导致的跟踪中断,在无人机巡检和空中安防监控等目标跟踪任务中表现优秀。本节关于目标检测与跟踪技术的发展趋势总结如图2所示,目标检测与跟踪技术对比如表1所示。
2.2 环境感知与空间建模
环境感知与空间建模旨在使智能系统能够理解其周围的世界,通过分析来自各种传感器的数据,识别物体、理解场景并提取关键信息,并构建二维或三维地图,理解环境拓扑关系及语义信息,从而为无人系统的决策和行动提供支持。Tomasi等[60]最早于1992年通过对图像特征点的位置跟踪,构造特征点矩阵和相机投影矩阵,利用奇异值分解等方法分离三维点坐标和相机运动参数。该方法是最早的多视几何里程碑之一,可以在小规模数据集上重建场景三维结构,为多视角几何、SFM、BA优化等更通用的方法打下坚实理论基础。Triggs等[61]于1999年系统总结并提出了BA算法的数值优化技巧,将相机外参、内参、三维点坐标等所有参数放入同一优化框架,通过最小化重投影误差实现全局最优,成为了后续3D重建的核心后端算法。2007年,Klein等[62]首次提出PTAM将跟踪与建图并行,在单目相机下实现了小规模实时环境的3D重建与相机定位,成为视觉SLAM发展过程中的重要里程碑。在此基础上,Engel等[63]使用直接法代替特征点法,提出了LSD-SLAM算法,通过直接最小化图像灰度误差估计相机运动,实现了大规模场景下半稠密地图的构建。Mur-Artal等[64]于2015年提出的ORB-SLAM算法采用ORB特征构建前端跟踪框架,BA算法和回环检测算法进行后端优化,同时支持回环检测与重定位,实现了较完整的SLAM系统,在公开数据集中取得了领先效果,随后ORB-SLAM2和ORB-SLAM3进行了改进,引入了多地图、多线程以及多传感器融合等功能,进一步扩大了实用性。随着深度学习的不断发展,基于学习驱动的单目深度估计、神经渲染和NeRF等算法快速发展,传统几何方法与数据驱动方法的融合飞速发展。Godard等[65]使用无监督训练方法解决单目深度估计问题,训练完成后,网络可在给定单帧图像的情况下,无需依赖前期标注即可完成相机相对位姿的回归,相比于传统的多视几何算法,在数据充足的情况下具有良好的鲁棒性。Tateno等[66]在传统SLAM框架中融合了实时深度预测网络为关键帧提供初始深度估计,在较简单场景中实现了半稠密或稠密地图的在线重建,为后续许多深度学习与传统几何优化融合的方法提供了思路。Mildenhall[67]于2022年提出的NeRF使用一个多层感知器(Multilayer Perceptron,MLP)来表示场景的体素密度和辐射度函数,实现了高保真新视图的合成,开启了“神经渲染(Neural Rendering)”热潮。随后,BARF[68]、NICE-SLAM[69]、NICER-SLAM[70]等成果应运而生,将传统SLAM中的“相机位姿+地图”的联合优化替换为“相机位姿+神经网络权重”的联合优化,环境重建结果的精度和真实程度远超传统SLAM算法,为高精度的环境感知和逼真环境模型的搭建提供了强大的技术支持。本节关于环境感知与空间建模的发展趋势总结如图3所示,环境感知与空间建模技术对比如表2所示。
2.3 场景语义理解
场景语义理解通常指对图像或视频场景中的物体、背景、语义关系以及整体场景语义做出高层次理解的过程,不仅要求模型能区分场景中的对象,还要识别对象间的关系、场景的类别乃至更高层次的概念。语义分割、实例分割、目标检测等子任务都是场景语义理解的重要组成部分。传统方法在计算机视觉中经历了从图像分类到物体识别再到像素标注的演进。早期的场景理解依赖人工设计特征(HOG、SIFT)和视觉词袋模型[71]进行场景分类,仅能在小规模数据集中完成,精度与泛化能力较差,且难以完成端到端的训练,这导致了场景语义理解技术的发展极度受限。深度学习的出现为场景语义理解的发展提供了技术支持,Krizhevsky等[72]于2012年ImageNet图像分类比赛中提出深度卷积网络AlexNte,以巨大优势获得冠军,掀起了深度学习用于视觉语义理解的热潮。 Long等[73]于2015年提出全卷积网络(Fully Convolutional Network,FCN),首次实现端到端训练,直接输出与输入同尺寸的像素分类图,将深度学习应用到密集预测领域,在语义分割任务中性能远高于传统手工方法。此后,U-Net[74]、SegNet[75]等模型进一步改进网络架构,采用分辨率保持、多尺度融合等策略,提高了输出分辨率,极大地丰富了上下文信息。He等[76]于2017年提出Mask R-CNN,通过将Faster R-CNN框架拓展到像素级别的实例分割,并添加掩码区域,实现端到端的实例级分割,为实例分割提供了通用且高精度的框架。Kirillov等[77]于2019年提出了“全景分割”的概念,提出了新的全景指标(Panoptic Quality,PQ),能够支持同时进行语义分割和实例分割,开启了全新语义分割时代。随着研究的不断推进,深度学习模型在标准数据集上已经能够实现高精度的场景语义理解,然而对于现实世界中出现的新颖物体和语义,模型则难以解决,这就促使了开放集语义理解的研究。本节关于场景语义理解的发展趋势总结如图4所示,场景语义理解技术对比如表3所示。
2.4 动态态势感知与预测
无人系统运行于动态环境时,还需具备动态态势感知能力,即感知并理解动态目标(如车辆、行人、其他机器人等)的状态和意图,以及预测它们的未来运动趋势。这对确保自主系统安全避障、规划路径具有关键作用。传统动态感知主要依赖目标跟踪和轨迹预测两方面的技术:目标跟踪提供了动态目标当前位置和运动速度等信息;而轨迹预测能进一步推断目标未来的运动轨迹。传统的动态态势感知与预测方法主要基于物理模型和运动学假设。其中,匀速模型和匀加速模型利用目标当前速度和简单动力学推算短时未来位置,这类物理模型对短期直线运动的目标预测效果较好,但无法处理交互行为和突发变化,应用场景十分受限[78]。基于规则的行为预测通过定义一组由专家经验、领域知识或逻辑推理获取的“规则”来推断系统的未来行为或动作,具备更高的可解释性,适用于安全要求较高的场景,但是缺乏学习和适应能力,难以扩展到高维度、多样化场景[78]。为了模拟群体环境中不同个体间以及个体与环境的交互行为,研究人员将社交力模型(Social Force Model)引入态势感知研究中[79],通过将不同个体看作具有“社会力”相互作用的粒子系统,研究其相互作用效果,搭建通用交互模型,为个体间的交互行为提供了可解释的物理视角,但依旧无法处理高度随机行为和复杂环境中的多目标多层次行为。深度学习的爆发为轨迹预测带来了数据驱动的方法,其中Alahi等[80]于2016年将长短时记忆力机制(Long Short-Term Memory,LSTM)与社交力模型结合,提出了Social-LSTM,利用长短期记忆网络编码行人轨迹序列,并通过社交池化机制建模行人避让行为,实现了准确的多人行走轨迹预测。随后,Gupta等[81]提出的Social-GAN将生成对抗网络(Generative Adversarial Networks,GAN)用于多模态轨迹预测,通过生成多个未来轨迹有效缓解了单一预测容易失真的问题。2020年,Ivanovic等[82]将图神经网络(Graph Neural Network,GNN)与时序预测相结合提出Trajectron++,将场景中的不同个体及其交互关系建模成一个时空图,在GNN的基础上利用时序模型完成了对每个个体未来轨迹的预测,更好地捕捉不同个体间的交互影响。Social-GAN和Trajectron++都是在多智能体交互和多模态预测问题中的代表性研究,推动了动态态势感知领域的快速发展。本节关于动态态势感知与预测的发展趋势总结如图5所示,动态态势感知与预测技术对比如表4所示。
3 基于大模型的感知技术研究现状
大模型是指在海量数据上训练的、可迁移到多种下游任务的大型深度学习模型。它们通过自监督学习等方式获取了丰富的通用知识,不需要针对每个具体任务从零开始训练,在上下文学习、微调甚至零样本(Zero-Shot)设置下即可适配新任务[83]。近年来,随着无人系统向更高程度自主化和智能化的方向发展,传统以单一任务为导向训练的模型在面对复杂多变的环境时,往往难以兼顾泛化性、实时性与多模态信息融合的需求。相比之下,大模型具备预训练迁移和少样本适应能力,仅依赖少量样本微调便可满足目标检测与跟踪任务的泛化性需求。大模型的跨模态信息对齐与融合能力可以提升系统感知和建模的鲁棒性,在极端条件下仍保持较高的精度。因此,将训练好的大模型引入无人系统的感知过程,利用大模型的推理和预测能力,能够赋予无人系统感知开放世界的能力,提高系统在复杂环境下的理解能力,并促进无人系统感知和决策过程的融合,进一步提高无人系统对于信息的处理能力和决策效率。因此,在提高无人系统感知能力的过程中,大模型具备更强大的优势,为无人系统感知技术的发展提供了新的研究方向。本节将针对大模型赋能的无人系统感知研究在四类感知任务中的应用进行介绍。
3.1 大模型驱动的目标检测与跟踪
大模型技术的兴起可以追溯到2017年Transformer架构[84]的提出,最初在自然语言处理(Natural Language Processing)上取得了突破。早期感知领域中对于大模型技术的尝试集中在视觉领域,研究者通过将Transformer引入计算机视觉,尝试利用注意力机制和卷积网络融合的方式增强特征表示。随着研究的深入,Vision Transformer(ViT)的提出证明了Transformer架构可以直接应用于图像序列并在图像分类任务中取得良好效果[85]。在此基础上,Carion等[86]提出DETR模型,将目标检测转化为集合预测问题,通过Transformer编码器-解码器直接输出图像中目标集合,并创新性地引入了匈牙利匹配算法,在COCO2017基准上,目标检测达到与同等参数规模的Faster RCNN相当的检测精度和速度。后续的Deformable DETR引入可变形注意力,大幅加快训练速度的同时保持了精度,表明了Transformer架构在处理视觉感知任务中具有更加优秀的性能,为大模型在感知领域的发展打下基础。Li等[87]提出GLIP模型,使用Swin-Transformer架构作为骨干网络,在训练时使用图像-短语对学习得到了语言敏感的视觉特征表示,在零样本和小样本检测迁移上表现出色,在COCO2017基准数据集中的检测mAP达到SOTA水平,能够通过理解自然语言描述来精准检测目标。后续的Grounding DINO模型[88]进一步结合DETR和GLIP的优势,采用多阶段跨模态Transformer融合,在大规模图文配对数据集上进行弱监督训练,并通过在COCO2017、Objects365等数据集上微调,得到了优异的类别检测性能,在Open Images V6数据集检测中相比同期方法的mAP平均提升了5~7个点。相比于传统基于深度学习的目标检测与跟踪算法,大模型所带来最大的改变是开放世界识别能力的提升[89]。在引入预训练的视觉—语言模型(Vision-Language Model,VLM)后,系统可以实现开放词汇目标检测,即识别训练集中未出现过的新类别目标。Gu等[90]于2021年提出ViLD模型,通过蒸馏的方式将CLIP的视觉语义知识迁移至目标检测框架,在训练过程中用CLIP编码类别文本和区域图像并将检测器的区域特征对齐到CLIP的语义空间中,从而使得检测器能够识别文本描述的目标。ViLD模型可零样本迁移至新数据集,在PASCAL VOC上取得72.2AP、COCO上36.6AP,并在COCO新类别检测任务上较此前最佳方法总体AP提升11.4点,开辟了将视觉语言大模型蒸馏到目标检测器的新思路,展示了预训练大模型在感知领域中的高效性与通用性,为后续开放词汇目标检测的研究奠定了基础。Minderer等[91]于2022年提出的OWL-ViT模型将Vision Transformer与CLIP相结合,先用大量的图文数据预训练Transformer获得强表征,再在检测任务上微调,通过增加预训练数据规模和模型尺寸持续提升下游检测性能。该模型采用30亿图文对进行对比学习,并在COCO、LVIS、Open Images V6等数据集上进行微调,在COCO 2017 val集未见类别上取得了36.2%的mAP,相比直接使用CLIP特征的检索式方法有大幅提升。该模型强调了预训练视觉—语言大模型在感知任务中进行开放世界推理的潜力,为无人系统实现基于自然语言灵活指令完成场景感知提供了重要技术路径,极大拓宽了传统感知任务的边界。Chen等[92]于2024年将CLIP模型应用于通用物体跟踪任务,提出了PiVOT模型,通过提示生成网络,利用预训练模型提取的图像特征自动生成强化跟踪目标的“视觉提示”,再引导传统跟踪器聚焦于目标区域,在多个跟踪基准上有效抑制了相似干扰物的干扰,在LaSOT数据集上,PiVOT基于传统跟踪器如STARK、TransT,成功率AUC分别提升了3.5%~5.2%;在遮挡恢复(Re-Identification)任务中,PiVOT有效减少了跟丢和误跟现象,长期跟踪稳定性明显提高。PiVOT是首个将预训练视觉-语言模型引入目标跟踪的端到端方法,对于无人系统在复杂动态环境中保持对关键目标的持续感知提供了有力的支持。
3.2 大模型驱动的环境感知与空间建模
在环境感知与空间建模领域,大模型可以赋予系统更强的语义感知能力和推理能力。传统的SLAM系统容易混淆相似外观的目标,导致地图中出现错误的回环闭合,从而影响地图重建的精度。Hong等[93]提出的SEO-SLAM系统首次系统性地将视觉语言模型(VLM)和多模态大模型(MLLM)与传统SLAM系统融合,利用VLM和MLLM对SLAM生成的物体点云进行语义增强,并生成开放词汇语义标签,显著提升了在相似物体密集场景下系统的映射准确度和鲁棒性,在Replica数据集上相比于传统的ORB-SLAM等方法在动态遮挡环境下回环检测成功率提升35%,轨迹漂移误差减少22.7%;在ScanNet大规模室内场景中,生成的三维地图语义标签准确率(相比于人工标注)达到87.5%,相比于传统视觉特征的语义增强方法性能明显提升。大模型与传统几何感知深度融合的可行性,为未来无人系统在开放世界中进行自我定位、语义理解和认知推理奠定了重要基础。除了语义增强,大模型还可以融合不同的感知模块对场景重建算法进行优化,Oquab等[94]提出的DINOv2模型将预训练视觉模型作为深度特征提取器,采用改良版的ViT架构,配合改进的自监督训练方法,融入了点云配准、位姿估计等模块,能够在无需人工标签的情况下,学习出兼具语义丰富性与多任务适应性的视觉特征,该模型用于立体匹配可以增强视觉里程计对光照和视角变化的适应性,在ETH3D基准集中,依赖极少的标签就可以获得良好的匹配性能,特征匹配召回率(FMR,Feature Matching Recall)提升约8%,为SLAM系统提供更强的空间结构表征能力。Jiang等[95]于2023年提出的OV3D模型(Open-Vocabulary 3D Scene Understanding)将开放视觉词汇的视觉语言模型引入三维点云理解问题,是三维场景感知从固定类别标签扩展到自然语言任意描述。不同于传统三维感知方法只能识别预定义类别,OV3D能够根据自然语言提示直接预测任意点云片段的语义标签或属性,通过将三维点云投影到多个视角图像,利用2D视觉语言模型(如CLIP)提取图像特征,并通过对比学习方式将点云特征与图像特征对齐,从而将3D点云嵌入到与自然语言共享的语义空间中。在零样本场景检索任务中,OV3D能够从ScanNet数据库中检索匹配场景,准确率达到56.7%,比基于图像检索的方法提高了将近10%,证明了大模型能够将开放世界感知能力扩展到三维空间理解任务。
3.3 大模型驱动的场景语义理解
无人系统在感知环境的过程中,不仅需要获取环境信息,更重要的是理解环境信息,而大模型的场景描述和推理能力弥补传统感知技术对于场景语义理解能力不足的短板。Li等[96]提出LSeg模型,利用CLIP作为教师模型引导语义分割网络的学习,将自然语言理解能力引入到像素级语义分割任务,通过训练逐渐学习,将图像中每个像素嵌入到CLIP所构建的跨模态语义空间中,通过与类别描述的匹配完成分类,支持任意类别、任意粒度的灵活推理。LSeg模型在零样本数据集PASCAL VOC Zero-Shot中和COCO-Stuff Zero-Shot中均显示出良好的泛化能力和环境理解能力。Rao等[97]在2022年提出了DenseCLIP模型,利用冻结的CLIP模型,在不重新训练视觉骨干网络的情况下,完成开放世界的密集感知任务。该模型通过在ADE20K、COCO-Stuff等数据集上进行训练和微调,并且在PASCAL VOC-ZS、ADE20K-ZS等零样本数据集上进行测试,在未见类别场景的mIoU达到了34.5%,显著高于传统的零样本分割方法。DenseCLIP使得语义分割、区域定位等传统固定类别任务具备了任意自然语言指引、零样本泛化的能力,为无人系统在开放环境下实现灵活、泛化的感知提供了有效路径。Kirillov等[98]提出的SAM借助预训练大模型获取通用分割能力,提出了一种“Prompt-Driven”的通用分割框架,并构建大规模的掩膜数据集SA-1B用于模型训练,涵盖了室内、室外、自然、工业、医学等广泛领域,极大提升了模型的通用分割能力,能够在零样本条件下实现对物体的分割。该模型在COCO数据集上无需微调,生成的掩膜平均mIoU达到77.5%,交互式分割效率和跨领域泛化能力都达到SOTA水平。在无人系统感知中,SAM使得在复杂开放场景中,无需为每一种新物体或新场景重新标注或训练模型,就可以高效完成任意物体的分割,大幅降低了部署成本并提升系统适应性。
3.4 大模型驱动的动态态势感知与预测
动态环境的未来预测效果直接影响无人系统的决策效果,动态态势感知与预测也一直是无人系统决策过程中不确定性最高的部分。大模型的引入为解决这一问题提供新的思路,将态势感知和运动预测转化为一个包含丰富语义和尝试推理的过程,利用大模型的理解和推理能力完成态势感知与预测。Shi等[99]于2022年提出Motion Transformer(MTR),通过引入全局意图定位和局部运动细化的思想,利用Transformer架构融合多智能体历史轨迹和高清地图信息,学习动态环境中的复杂交互模式,不仅能够预测轨迹的单一未来路径,还能够同时生成多个未来轨迹,从而应对动态环境多样性带来的挑战。MTR在Waymo开放运动数据集上的最终位移误差(Final Displacement Error,FDE)降低了9.6%,成功捕捉了复杂场景下的多轨迹交互;在Argoverse数据集的复杂交互场景中,生成多个合理轨迹并评估其可行性,成功率提高了20%,成功解决了传统轨迹预测方法无法处理的复杂多智能体交互问题,为无人系统在动态环境下的感知和行为预测提供了新的思路。谷歌研究团队提出的PaLM-E(Pathways Language Model-Embodied)通过整合多模态信息,赋予无人系统更强的态势感知和预测能力,该模型将预训练的语言模型PaLM与视觉模型ViT-22B相结合,整合视觉感知和自然语言生成能力,通过大规模自监督学习和对特定任务的微调能够完成动态事件理解和轨迹预测等任务[100]。在DeepMind Control数据集上,PaLM-E能够通过自然语言描述成功指导机器人完成复杂的导航任务,成功率达到了85%,比传统方法提高了约10%。PaLM-E不仅能够理解视觉输入,还能根据自然语言指令进行动态任务执行,为无人系统在开放环境中进行动态态势感知和预测提供了强大的支持。Bae等[101]在2024年提出一种新的轨迹预测方法LMTraj,将轨迹预测任务与自然语言处理相结合,通过将数值和图像数据转换为文本提示,利用大模型的理解和推理能力,实现了对行人轨迹的高精度预测,特别是在理解社会关系和多模态预测方面表现突出。在Waymo数据集上,LMTraj在行人轨迹预测任务中将平均位移误差(Average Displacement Error,ADE)降低至0.36 m,相比于传统方法降低约15%,在ETH/UCY数据集上,面对高密度、高复杂、多交互场景中的行人轨迹预测中,LMTraj的FDE达到0.45 m,显著低于传统方法。LMTraj通过将自然语言引导与多模态感知相结合,突破了传统轨迹预测模型对简单历史轨迹数据的依赖,极大增强了系统对复杂交互场景的适应能力。本章针对基于大模型的感知技术代表性成果的汇总如图6所示,基于大模型的感知技术的对比如表5所示。
4 研究现状总结及未来发展趋势
4.1 研究现状总结
回顾无人系统感知技术的发展历程,根据核心技术特点,主要可以划分为三个发展阶段:手工特征主导阶段、深度学习驱动阶段和大模型赋能阶段,如图7所示。
(1)手工特征主导阶段早期的视觉感知高度依赖人工设计和提取图像特征的方法,如HOG特征和SIFT特征等。这一时期涌现的感知算法通常需要专家对特征进行精心设计和调整,但大多无法提取图像中的深层次信息,因此存在鲁棒性较差,对环境变化敏感以及泛化能力不足等问题,在感知过程中需要面向特定任务进行特征的设计和调整,依赖大量的人工干预,具有高昂的开发和维护成本,大大限制了无人系统感知技术的通用化和实用性。(2)深度学习驱动阶段随着深度学习算法的引入,感知技术的发展进入以深度学习为核心驱动力的时期。这一时期涌现的各类基于卷积神经网络CNN的算法框架,如RCNN系列、YOLO系列和FPN等,相比于手工特征方法在感知鲁棒性和泛化性方面取得了巨大突破。卷积神经网络能够从原始图像数据中自动学习特征,极大提升了无人系统的感知能力,这一时期系统能够通过深层网络学习获取环境中包含的更深层信息,在目标检测、环境建模和场景理解等领域取得了极大进步,使得无人系统对环境信息的理解更加深刻,对于环境变化的鲁棒性增强。然而,这一时期感知技术对训练数据存在依赖性,数据的事先标注成本高昂,并且在应对训练集未出现的场景时,系统的表现明显退化,泛化能力和鲁棒性仍需进一步提升。(3)大模型赋能阶段随着Transformer架构和视觉—语言大模型的提出,无人系统感知技术进入了新的发展阶段。得益于Transformer架构的交叉注意力机制,系统具备捕捉特征间长距离依赖关系的能力,系统通过将数据序列化来完成多模态信息的整合,能够在环境噪声干扰下捕捉关键信息,在复杂环境下的鲁棒性得到显著提升。大模型通过自监督学习与跨模态信息融合,使得无人系统首次具备了零样本和小样本条件下面向开放世界的感知能力。此外,大型语言模型、多模态大模型等不同范式的大模型具备其强大的语言理解能力和推理能力,这使得无人系统能够对复杂动态中获取的信息进行推理,实现了无人系统面向开放世界的感知,识别并处理从未见过的数据,极大缓解了系统对于标注数据的依赖。尽管当下大模型在无人系统感知应用中展现了极大的潜力,但仍然存在模型参数规模大、计算资源需求高和实时性不足等瓶颈。
4.2 未来发展趋势
根据上述的发展脉络可以看出,自主化、智能化和通用化是无人系统感知技术发展的重要趋势。结合未来无人系统实现完全自主运行的需求,大模型对感知技术发展的推动作用将进一步凸显。基于以上分析,对基于大模型的无人系统感知技术未来发展的趋势提出以下设想:(1)感知技术智能化:未来无人系统的感知模块不仅需要实现“看得到”,更需要实现“看得懂”。这意味着系统需要具备强大的语义理解和推理能力,能够对外部环境具有认知功能,并根据场景的语义信息做出高层次的推理与决策。这一目标的实现需要视觉感知与常识推理的深度融合,借助语言模型强大的推理能力,或构建领域知识图谱辅助感知决策,将成为感知智能化的重要研究方向。此外,感知技术智能化的另一重要体现是开放世界感知任务,即系统能够持续地学习新的目标类别与语义知识,而不再局限于训练数据集中已有的类型。可以预见,未来研究将进一步探索视觉与常识知识图谱的融合机制,发展以大模型为核心的持续学习框架,赋予无人系统真正的“终身学习”能力,持续优化并强化其环境理解能力与决策适应性。(2)资源部署轻量化:随着大模型参数规模的迅速膨胀,计算资源需求的增加对无人系统特别是移动平台提出了巨大挑战。大模型在嵌入式设备中的部署不仅要求模型在算法层面的高效优化(如蒸馏学习、剪枝技术和量化方法等),还需要在计算架构和硬件适配层面展开深入研究。未来的研究不仅要求模型参数压缩和高效计算,更重要的是研究轻量化大模型的表示学习方式,使其在有限计算资源条件下依然保持良好的泛化性能,可进一步结合神经架构搜索(Neural Architecture Search,NAS)自动设计轻量化大模型骨干、在线蒸馏技术以及硬件感知剪枝等方法,实现更高的能效比。此外,专门为大模型设计的嵌入式AI芯片,以及适合大模型推理的异构计算平台开发,将成为无人系统高效感知计算能力的重要支撑。(3)感知模型通用化:从解决单一任务的专用模型向处理多样化任务的通用模型转变,是无人系统感知技术发展的重要需求。无人系统在实际运行过程中往往需要应对突发情况或未见过的新任务,因此不断提高感知模型的通用性成为未来的重要研究趋势。大模型凭借海量数据驱动的预训练方式,表现出出色的零样本泛化性能和跨任务迁移能力,这种特性使其特别适合于复杂的、未知的应用环境。然而,开放世界下的场景与任务会无限扩展,难以穷举,因此,未来研究可以结合迁移学习与在线学习技术,引入动态模块化与多任务并行思路,并通过多模态注意力、条件融合等方式提升系统的跨模态系统能力,使模型能够持续在新环境中进行自适应学习,自动适配新的任务需求,进一步增强感知模型对于复杂场景的泛化能力与可迁移性。(4)感知信息多模态融合:单一传感器往往难以应对复杂环境中的多样信息,为实现系统的全局感知,多模态融合成为无人系统未来发展的必然趋势。以多模态Transformer、视觉-语言模型为代表的大模型技术,依靠其强大的注意力机制和自监督学习方式,可深入挖掘和捕捉不同模态数据之间隐含的深层次关联,实现更加精细化的跨模态融合。未来大模型在多模态融合方面的研究将向着更细粒度、更高效的融合策略发展,突破目前多模态模型融合粗粒度、泛化性不足的瓶颈,真正实现无人系统的全局感知智能化。(5)感知决策一体化:未来的无人系统不仅要提升感知的精度和智能化程度,更需要实现感知与决策的高度协同。当前无人系统中的感知模块与决策模块相对割裂,导致信息传递和决策实施过程存在延迟,难以在复杂的动态环境下实现及时、准确的响应。大模型通过将感知与决策融合在统一的架构下,结合端到端的深度学习框架,实现感知信息的自动抽取和高效决策推理,使得感知与决策一体化的实现成为可能。未来研究将进一步探索融合式大模型体系结构,将大模型驱动的语义感知与强化学习、决策推理无缝衔接,通过统一训练与联合优化提高整体决策实时性与系统性能,真正实现无人系统高效的自主决策。综上所述,未来无人系统感知技术的发展趋势,将朝着更高的智能化、更好的资源轻量化、通用化的模型能力、多模态信息融合以及感知-决策一体化方向稳步推进,以满足无人系统在更复杂、更开放的环境下对高效、自主和可靠运行的迫切需求。
5 结束语
本文通过对无人系统感知技术的三个发展阶段与四大任务类别的梳理,揭示了大模型赋能对无人系统感知所带来的技术革新,并总结了现阶段面临的挑战与未来研究方向。同时针对大模型赋能的感知技术面临的问题和未来的发展趋势进行了详细讨论。通过本文的梳理,意在为后续大模型赋能的无人系统感知技术的发展和学术研究提供参考和启发。