首页/人工智能/MF-LLM: 通过平均场大语言模型框架模拟群体决策动态/
MF-LLM: 通过平均场大语言模型框架模拟群体决策动态
2025-11-03 17:33:225浏览
源自:社会空间计算实验室


论文标题:MF-LLM: Simulating Population Decision Dynamics via a Mean-Field Large Language Model Framework

作者:Qirui Mi , Mengyue Yang , Xiangning Yu , Zhiyu Zhao , Cheng Deng , Bo An , Haifeng Zhang , Xu Chen , Jun Wang

机构:Institute of Automation, Chinese Academy of Sciences;School of Artificial Intelligence, Chinese Academy of Sciences ;Nanyang Technological University ;University of Bristol;Tianjin University ;Shanghai Jiao Tong University;Renmin University of China;University College London

论文链接:https://arxiv.org/pdf/2504.21582

代码链接:https://github.com/Miracle1207/Mean-Field-LLM

摘要

模拟集体决策不仅仅是汇总个体行为;它源自个体之间的动态交互。虽然大语言模型 (LLMs) 在社会模拟方面具有强大潜力,但与现实世界数据实现定量对齐仍然是一个关键挑战。为了弥合这一差距,本文提出了平均场大语言模型 (MF-LLM) 框架,这是首个将平均场理论纳入基于大语言模型的社会模拟的框架。MF-LLM 通过迭代过程对个体与群体之间的双向交互进行建模,生成群体信号以指导个体决策,而个体决策又反过来更新这些信号。这种相互作用产生了集体行为的连贯轨迹。为了提高与现实世界数据的对齐度,本文引入了 IB-Tune,这是一种受信息瓶颈原理启发的新型微调方法,它保留了对未来行动最具预测性的群体信号,同时过滤掉冗余历史信息。在一个真实世界的社会数据集上进行评估时,与非平均场基线相比,MF-LLM 将与人类群体分布的 KL 散度降低了47% ,能够进行准确的趋势预测和有效的干预规划。在 7 个领域和 4 种大语言模型主干上进行泛化,MF-LLM 为社会模拟提供了一个可扩展的、高保真的基础。

引言

模拟群体层面的决策如何随时间演变对于预测舆论传播、家庭对政策冲击的反应以及紧急情况下的人群动态至关重要。与个体行为的静态汇总不同,集体决策源自个体之间的动态交互,其中每个主体的选择既受自身观察的影响,也受他人不断演变的行动的影响。反过来,这些个体决策又不断重塑群体分布,形成一个驱动群体动态的反馈回路。

目前仍有三个关键挑战阻碍了与现实世界数据相匹配的社会模拟的发展。

(1) 基于提示的启发式方法缺乏数据匹配。

(2) 监督微调忽略了交互动态。

(3) 平衡逼真度和可扩展性仍然是一个核心挑战。

为了应对定量群体模拟的挑战,本文做出了以下贡献:

(1) MF-LLM框架: 通过平均场智能体群体交互实现可扩展模拟。

(2) IB-Tune算法: 一种用于真实数据匹配的数据驱动算法。

(3) 评估和主要发现。本文在微博语料库上评估了MF-LLM的保真度和泛化能力。

方法

为了定量模拟群体动态,本文提出了平均场大语言模型 (MF-LLM) 框架——第一个将平均场理论引入基于大语言模型的社会模拟的框架。

01

通过平均场进行可扩展交互建模

MF-LLM中的平均场编码了一个以群体为中心、不断演变的信号,该信号会影响后续智能体的决策。它初始化为空字符串,并由一个大语言模型 µ 递归更新,该大语言模型称为平均场模型。

02

通过策略模型进行决策

给定当前的平均场 m 和个体状态 s ,每个智能体基于语言模型驱动的策略选择一个动作。此策略将文本输入映射到可能的文本动作上的分布。

03

环境转换动态

在所有智能体在时间步 t 完成决策后,系统转换到下一个状态。状态转换取决于当前的联合状态-动作对和平均场 m 。

04

微调算法——IB-Tune

该微调算法用于优化:(1) 平均场模型,以提取预测性的总体水平信号;以及 (2) 策略模型,以根据这些信号生成行为上逼真的动作。

实验

使用微博语料库评估 MF-LLM 模拟群体决策动态的能力。

01

评估模型的保真度和通用性

方面 A: 时间保真度——匹配现实世界的决策轨迹。为了证明 MF-LLM 随时间再现现实决策轨迹的能力,本文模拟了三个视野和智能体规模不断增加的事件:(a)短视野谣言传播,(b)中视野退休辩论,以及(c)长视野言论自由讨论。发现MF-LLM 在所有事件中都与真实数据趋势紧密匹配。

方面 B: 语义保真度——捕捉集体行为的意义。除了轨迹对齐之外,本文评估 MF-LLM 对集体决策语义结构进行建模的能力,通过五个分布度量和八个动作语义维度来衡量保真度。本文评估了 20 个涉及多达 300 个智能体的真实世界事件,比较了四个基线模型 (状态、近期、流行、SFT) 和本文的 MF-LLM(红色) 在 5 个分布指标和8个动作语义维度上的雷达图。面积越大表示性能越优,MF-LLM(红色) 显示出最高的语义保真度。

方面 C: 跨域泛化——跨不同事件域进行迁移。在验证了保真度之后,本文接下来测试 MF-LLM 在无需特定任务适应的情况下跨不同事件域的泛化能力。测试事件涵盖七个领域——犯罪、文化、健康、新闻、政治、体育和科技——每个领域都表现出独特的集体行为。值得注意的是,即使在像文化这样其他基线表现不佳的复杂领域,MF-LLM仍然表现稳健。

02

剖析平均场和 IB-Tune 机制

本文设计了消融实验以评估平均场模块和 IB-Tune算法对于确保模拟保真度的必要性。既展示了平均场模块在实现高保真模拟中的关键作用,又说明了 IB-Tune 增强了与现实世界的对齐。

03

实验结论

(1) MF-LLM 在时间变化和语义结构方面都能准确匹配现实世界的决策动态。

(2) 它在无需特定任务调优的情况下,能在不同社会领域和基础语言模型上实现良好的泛化。

(3) 平均场模块和 IB 调整都至关重要——去除任何一个都会显著降低保真度。

结论

MF-LLM 将平均场理论与语言模型相结合,以模拟个体决策与种群动态之间的相互作用,从而能够对集体行为随时间的变化进行高保真模拟。IB-Tune 进一步提高了与现实世界数据的契合度。这些结果表明,揭示集体行为原则并结合数据驱动的微调,为准确且可扩展地进行社会模拟提供了坚实基础。

友情链接: