首页/人工智能/PentestEval:基于模块化阶段设计的大语言模型渗透测试基准评估/
PentestEval:基于模块化阶段设计的大语言模型渗透测试基准评估
2025-12-23 09:22:2528浏览
源自:arxiv

渗透测试对于评估和增强系统应对真实威胁的安全性至关重要,然而传统工作流程仍高度依赖人工,对专业知识要求高且难以扩展。尽管大语言模型的最新进展为自动化带来了广阔前景,但现有应用仅依赖简单的提示方式,缺乏任务分解或领域适配,导致其行为如同不可靠的黑盒,且难以洞察模型在渗透测试各阶段的能力。为弥补这一不足,我们提出了PentestEval——首个全面评估大语言模型在渗透测试六大分解阶段表现的基准测试框架,这六个阶段包括:信息收集、弱点搜集与筛选、攻击决策、漏洞利用生成与修正。PentestEval整合了专家标注的真实基准数据,并通过涵盖12个真实漏洞场景中所有阶段的346项任务,构建了全自动评估流程。我们对9个广泛使用的大语言模型进行了分阶段评估,结果显示其整体表现较弱,且在渗透测试工作流的不同阶段存在明显局限。端到端测试流程的成功率仅为31%,而现有的基于大语言模型的系统(如PentestGPT、PentestAgent和VulnBot)也表现出类似缺陷,其中自主代理几乎完全失败。这些发现表明,自动化渗透测试需要更强的结构化推理能力,模块化方法不仅能提升每个独立阶段的效能,还能改善整体表现。PentestEval为未来开展细粒度、分阶段的评估研究提供了必要的基准基础,从而为开发更可靠的基于大语言模型的自动化测试工具铺平道路。

友情链接: