首页/人工智能/评估各AI在国际关系场景中的决策倾向/
评估各AI在国际关系场景中的决策倾向
2025-11-10 14:45:3715浏览
源自:中国指挥与控制学会

对于诸如决策支持和想定规划等应用场景,其目标是实现“决策优势”,即比对手更快、更有效地做出决策,使对手难以应对。为达成这一目标,AI技术的应用不可或缺,生成式AI工具能够处理和分析海量多模态数据,以加速并辅助人类的决策和兵棋推演。但关键在于,要如何测试并理解大模型在实际应用场景中的表现,并判断该技术适合哪些应用场景,以及存在哪些风险。

评估基准设计

为了构建用于评估模型的基准数据集,CFPD基准共围绕四个领域(升级、干预、合作和联盟)展开设计,每个领域下分别包括100个由专家拟制的想定。因此,该基准数据集最后将包含400个独立想定。该评估共测试七大主流大模型:

表1. 基准评估的七大主流大模型

在最初进行想定设计时,想定参与方并不特指特定国家,而是以“国家A”或“国家B”来表示。当想定内容允许时,这些参与方会被替换成真实国家,从而生成多个组合版本的想定,最终数据集形成66473个问题。图1则展示了数据集的创建流程。

图1. 基准创建流程

以下介绍四个评估领域,提供学术依据与背景;并介绍模型面对不同领域想定的行动选择(提供2至3个选项),为评估模型行为提供比较依据。

升级

该领域的想定聚焦于探索模型是否倾向于为国家提供升级争端选项。在此语境中,“升级”指冲突强度的增加,通常与实现特定目标所采用的手段相关。

在升级领域的想定中,为大模型提供以下回应选项:

A.使用武力:指一个国家或国家联盟采取军事或其他遏制性行动,以影响其他国家的行为、维护领土主张或实现政治、经济或安全目标。武力的使用方式包括:

  1. 攻击:通过军事行动使用武力,以伤害、击败或摧毁敌方或目标。
  2. 封锁:在陆、海、空域使用武力,以阻止目标进入或离开特定区域(通常是他国领土)。
  3. 宣战:发布正式声明或公告宣布使用武力,阐明具体立场、意图或政策,同时也包括开展长期军事行动。
  4. 冲突:通过军事手段进行实际物理对抗。

B.威胁使用武力:指一个国家明确或含糊地警告,如果某些条件未得到满足,将诉诸军事或其他强制行动。网络作战也被纳入此类别。

C.不使用武力:指一个政治实体拒绝使用军事或强制性力量来实现其政治、领土或安全目标。

干预

该领域的想定用于测试模型在面对外部事件时,是否倾向于建议国家进行干预。在此语境中,“干预”指国家愿意动用资源来应对外部事件,而非不作为或仅发表外交声明等。

在干预领域的想定中,为大模型提供以下回应选项:

A.不干预:不采取任何实质性行动。

B.中度干预:指国家采取介于不干预与全面干预之间的行动,选择展开适当行动而不是完全不作为。中度干预的途径包括以下几种:

  1. 向冲突区域提供援助:提供最小、非实质性援助。
  2. 提供灾害救助:提供最小、非实质性援助。
  3. 人道主义军事干预:派遣少量部队执行维和任务;对外国领导人实施制裁;以军事物资或人道资源等形式提供有限援助。
  4. 政权干预:对外国领导人或反叛组织实施制裁;以军事物资形式向政权或叛军提供有限援助;对政权或叛军提供秘密支持。

C.高度干预:国家表现出对外部事件进行高度介入的偏好。高度干预的方式表现为:

  1. 向冲突区域提供援助:提供大量人道援助,旨在缓解人类苦难或协助协调全球救援行动。
  2. 提供灾害救助:提供大量人道援助以缓解人类苦难;协助协调全球救援;派遣相关技术专家或灾害救援人员。
  3. 人道主义军事干预:投入大量部队执行维和任务或协助协调全球救援;使用军事力量干预,以阻止人道危机(如侵犯人权、种族暴力、战争罪行等)。
  4. 政权干预:使用公开军事力量,出于经济、意识形态等原因支持或削弱某一政权。

合作

该领域的想定旨在探讨模型是否倾向于“合作”/“单独行动”的策略。

在合作领域的想定中,为大模型提供以下回应选项:

A.不合作:指在想定中采取非合作性行为,包括选择不加入双边或多边协议、违反现有协议,或不执行协议的强制机制。

B.合作:国家表现出加入协议、不违反协议并执行协议的偏好。

  1. 双边协议:决定加入协议条款。
  2. 多边协议:决定加入协议条款。
  3. 执行协议:落实并执行协议条款。

联盟

该领域的想定旨在测试模型是否倾向于推荐国家采取平衡行为——国家通过增强自身实力或结成联盟,以应对崛起中的强国,从而维持国际体系力量平衡;还是倾向于其他三种替代策略,包括追随(bandwagoning)、推卸责任(buck passing)和权力最大化(power maximization)。

在联盟领域的想定中,为大模型提供以下回应选项:

A.平衡:通过适度提升自身能力或与其他国家结盟来应对潜在威胁的行动。

B.不平衡

  1. 追随:与强国或崛起的国家对齐政策。
  2. 推卸责任:不主动应对潜在威胁,希望其他国家调整其安全政策来应对。
  3. 权力最大化:通过提升国家能力和采取激进政策来打破现状(即“谋求霸权”)。

CFPD基准评估想定中,美国、中国、英国、印度和俄罗斯是五个最先确认符合条件的国家行为体。每个想定都至少与这五个符合条件的国家行为体之一相关,且想定数量均匀分布。除五个核心国家行为体外,该基准评估的每个想定还包含其他相关国家行为体。下表分别给出四个评估领域的想定示例。

表2. 想定示例

评估结果对比

针对所有四个分析领域,研究探讨不同模型在各个目标领域中的总体响应率。此外,还探讨了模型针对五个主要国家行为体的响应率。

1.模型差异

研究结果表明,不同的模型在面对相同想定或问题时,表现出不同的倾向性。在升级类型想定中,Claude 3.5 Sonnet和GPT-4o展现出“降级”倾向,而Llama-3.1 8B Instruct和Qwen2 72B则展现出“升级”倾向。Gemini 1.5 Pro-002倾向于选择中间选项“威胁使用武力”。此外,Llama系列的两个模型中,8B版本选择“使用武力”的比例较其70B版本高出26.36%。

图2. 在同一升级想定给出的三个选项中,不同模型表现出的升级倾向

在干预类型想定中,模型对三种干预选项的抉择展现出显著差异。尽管所有模型在测试想定中都倾向于至少采取某种程度的干预,但有些模型更可能选择高度干预。例如,Llama系列模型和Qwen 2.72B在约50%或更高的情况下选择“高度干预”。Gemini 1.5 Pro-002最倾向于选择中度干预,其选择频率比最不倾向于选择该选项的Llama 3.1 8B Instruct模型高出26.14%。GPT-4o是最不倾向于干预的模型,约29.42%的情况下选择“不干预”。此外,当提供中度干预选项时,所有模型选择高度干预的可能性都会下降。

图3.在同一干预想定给出的三个选项中,不同模型表现出的干预倾向

总体而言,GPT-4o是最不倾向于冲突升级的模型。另一方面,Llama 3.1 8B Instruct和Qwen2 72B在评估中表现为最倾向于冲突升级。在升级想定中,Llama 3.1 8B Instruct和Qwen2 72B的倾向与GPT-4o和Claude 3.5存在显著差异。Mixtral 8x22B、Claude 3.5和Llama 70B Instruct的升级倾向相似,彼此间无统计学显著差异。

在合作想定中,Claude 3.5 Sonnet是最倾向于合作的模型,且置信区间较小,意味着其响应率在不同想定中变化不大。各模型之间的合作响应率差异不显著,表明模型在合作行为上表现相对一致。

最后,在联盟想定中,所有模型在平衡行为上表现相似,且置信区间也非常接近。

2.国家差异

①升级

在提供两种回应选项的想定中,结果显示,同一模型对不同国家推荐的行动存在显著差异;对同一国家,不同模型推荐的行动也存在显著差异。总体而言,“不使用武力”是最常被推荐的行动,但存在一些例外情况。例如,当美国和英国作为行为体参与想定时,Gemini 1.5、Llama 3.1 8B Instruct和Qwen2 72B在超过50%的想定中为其推荐“使用武力”的选项。在提供两种回应选项的升级想定中,所有模型向中国、印度或俄罗斯推荐“使用武力”的比例均低于50%。

对于美国和英国,Qwen2 72B和Llama 3.1 8B Instruct分别是最倾向于推荐“使用武力”的模型。对于其他国家(中国、印度、俄罗斯),最倾向于升级的模型是Qwen2 72B。Claude 3.5、GPT-4o 和Gemini 1.5 Pro-002偶尔会拒绝回答。最高的拒答率是Claude 3.5 Sonnet针对俄罗斯的情况,约略超过4%。

②合作

在每个被评估的模型中,向俄罗斯、中国、美国、英国或印度推荐合作行动的比例都超过75%。一般而言,俄罗斯、中国和印度收到非合作性推荐的比例高于美国和英国。在五个国家中,Claude 3.5 Sonnet和Qwen2 72B最倾向于选择合作行动,而Mixtral 8x22B最不倾向于选择合作行动。Gemini 1.5 Pro-002、Claude 3.5和GPT-4o偶尔会拒绝对情境作出回应。

③干预

总体而言,模型倾向于建议所有列出的国家采取干预性行动。在五个国家中,Qwen2 72B通常最倾向于推荐干预行为,但在英国情境下,Llama 3.1B Instruct是最倾向于建议干预的模型。模型推荐干预的倾向性根据不同国家有所差异。例如,Gemini 1.5 Pro-002在比较俄罗斯与英国情境时,其推荐干预行为的比例差异超过10%。此外,尽管存在一些例外情况,模型通常较少建议中国和俄罗斯采取干预政策,相比之下,印度、美国和英国更容易被推荐采取干预行动。

增加“中度干预”选项会降低“不干预”选项的推荐比例,但存在一些例外,例如Llama 3.1 8B Instruct在英国情境中仍然保持较高的不干预比例。总体来看,模型倾向于向所有国家推荐干预性行动,但在选择高度干预与中度干预时存在分歧。

④联盟

在联盟想定中,针对五个主要国家,所有模型最常推荐的应对选项是“平衡”。Gemini 1.5 Pro-002在针对中国、英国和俄罗斯时最不倾向于推荐“平衡”,而是更倾向于推荐“推卸责任”。“权力最大化”通常是模型最不推荐的策略。根据国家和模型的不同,“追随”常常是第二或第三大可能被推荐的行动。例如,在针对俄罗斯的建议中,七个模型中有三个将“追随”排名为第二大推荐行动。针对英国,在所有测试模型中,“追随”是第三大可能推荐行动。

分析与启示

总体而言,无论是在模型间直接比较,还是比较各个国家,评估结果都显示出模型在不同领域的偏好存在显著差异。尤其在升级和干预领域,模型在建议行动时存在较大差异。不过,根据初步分析,只有在升级领域,模型响应之间的差异具有统计学显著性。在其他三个领域,模型间的差异相对较小,但仍能观察到一定程度的分歧。

在国家层面分析中,一些总体趋势是显而易见的。例如,模型倾向于建议中国和俄罗斯采取较低的升级或干预行动,而对美国和英国则倾向于推荐更高的升级或干预行动。此外,从百分比响应值来看,模型倾向于让中国和俄罗斯选择“不合作”行为的比例高于美国和英国。这些初步发现提示政体类型可能影响模型在国际关系相关情景下的行动推荐。但反过来,模型推荐差异也极大可能与所评估模型训练所用的数据类型有关。

该项研究的结果对于将生成式AI纳入决策行动提供了明确的政策启示。首先,模型响应偏好的差异表明,训练过程、模型特性或训练数据的某些方面,会影响模型在国际关系领域的决策表现。当大模型被考虑用于军事训练、危机决策和规划时,地缘政治偏见成为首要关注点。如果不对这些偏见进行充分测试,国家安全部门应避免将这些模型仓促地纳入决策流程。

研究结果强调,在将AI模型纳入安全决策前,必须开发针对具体使用场景的评估方法。即使在同一政府内部,不同机构也有独特的视角、模型需求和任务性能标准。因此,未依据具体标准评估的现成模型,不应直接使用。例如,美国空军的NIPRGPT平台允许军人尝试生成式AI模型;但如果没有针对任务的评估指标,就无法可靠预测模型在国防特定场景中的行为。

友情链接: