更新时间:2025-05-17 12:16作者:佚名
文字| NextQuestion

想象一个高度智能的模拟游戏,游戏的角色不再是普通的NPC,而是由大语言模型驱动的代理。其中,一个有趣的故事悄悄地出现了。在人类的设计下,这些新的NPC的单词和行为变得太长了。
这就像教外国朋友玩Mahjong一样:您可以选择详细指导每个步骤,或者您只能介绍基本规则并让他独立探索它。显然,第一种方法虽然“安全”也杀死了学*和发现的乐趣。
在设计大型语言模型的社会模拟时,研究人员不知不觉地陷入了这种误解。例如,在模拟霍布斯的“贝尔姆综合对照omnes”理论时,他们为每个代理商——“如果不能击败它,则投降”详细“脚本”,“如果您比农业更有效,抢劫将继续抢劫”。这更像是一部预先写的戏剧,“演员”根据剧本表演,缺乏真正的互动和创新。
这种过度提出似乎有点糟糕:一种声称被发现的社会现象可能只是他们在指导中写的情节!这就像一个魔术表演。人们对那位从帽子上夺走兔子的魔术师感到惊讶,但他们不知道兔子被隐藏在帽子里。
在使用大语言模型研究社会现象时,“更少”的原则尤其重要。太详细的指导将掩盖真正有价值的发现。就像现实总是比电影更神奇一样,自由互动中最感人和令人兴奋的故事经常出现。这表明下次我们看到一项研究声称大语言模型已经“发现”了一些社会法,也许我们应该首先问:这是一个真正的发现,还是研究人员写入“脚本”中的假设?
01利维坦理论和世界大战中的一组研究人员注意到,使用大型语言模型(LLM)进行社交模拟的潜力。
(1)LLMS繁殖的利维坦理论
图1。LLMS试图重现Leviathan的理论。资料来源:[1]
一项研究于2024年在Arxiv上发布,使用LLM模拟人类社会的进化过程,尤其是在人工智能环境中繁殖Leviathan理论[1]。
研究团队建立了9个代理商的模拟世界。每个代理商最初都有2个单位的食物和10个单位的土地,每天需要1个单位的食物才能生存。这些试剂具有三个关键特征:攻击性,贪婪和功率值,它们是通过正态分布随机生成的。在这个有限的资源环境中,代理商可以选择耕种,抢购,贸易或捐赠,每个代理商都会记住最近的30种互动体验,这将影响他们的决策判断。
研究人员发现,这个人工社会的进化轨迹恰逢霍布斯的理论预测。根据霍布斯的理论,人类最初没有政府,法律和社会秩序生活在“自然国家”中,每个人都追求自己利益的最大化。代理人的属性设计完全与霍布斯描述的自然状态的人类特征:贪婪反映了人们对资源的无限渴望,侵略与人们使用暴力手段寻求利益的倾向相对应,而力量反映了力量的法律,即力量决定了一切的自然状态。
在这种状态下,没有外部约束可以防止个人之间的相互掠夺和伤害。在这项研究中,在早期阶段,代理商的抢劫行为最多高达60。霍布斯将这种状态描述为一种战争状态,“人们就像狼”,每个人都生活在恐惧和暴力的威胁中。在实验中,当代理商的记忆限制为1天时,它们将重复暴力行为,直到资源精疲力尽为止。
霍布斯认为,在这种情况下,普遍的不安全感和对暴力死亡的恐惧促使人们寻求逃脱自然状态的方法。在实验中,这种转变反映了代理人逐步建立转移关系。当代理在多个冲突中失败时,它将选择向更强大的个人投降以换取保护。提交关系的积累最终导致了绝对主权的出现。在实验的第21天,所有代理都认识到同一主导地位的权威。霍布斯称这个主权名称为“利维坦”,该主权建立了一个暴力垄断,可以通过获得成员的力量来维持社会秩序。
实验结果表明,在社区建立后,抢劫行为已*减少,和平交易和生产活动已成为主流。这证实了霍布斯说的,只有在强大的中央当局下,人们才能安全地追求自己的利益。
(2)LLMS反事实思维评论
图2。LLMS模拟的世界大战。资料来源:[2]
第二个例子更雄心勃勃,是罗格斯大学和密歇根大学研究团队的创新尝试,——研究人员开发了一种称为Waragent的多基因系统,以探索是否可以通过LLMS反事实思维避免战争[2]。
研究小组选择了三个典型的历史时期作为研究对象:第一次世界大战,第二次世界大战和中国的交战国家时期。在此系统中,参加战争的每个国家都被设计为具有特定属性的独立代理:包括领导力特征,军事实力,资源储备,历史起源,核心政策和公共情绪。这些代理商可以采取各种行动,例如停留在场外,军事动员,宣战对外界的战争,签署非侵略性条约,达成和平协议并进行外交交流。为了确保模拟的真实性,研究人员还专门设计了一个“秘书代理人”,以回顾各种行动的理性和逻辑。该实验的重点是三个核心问题:该系统是否可以准确模拟历史战略决策过程,是否存在特定的战争以及战争是否真的不可避免。
实验结果表明,在第一次世界大战的模拟中,基于LLMS的系统成功地重现了英国- 法国联盟和德国- 澳大利亚联盟的形成过程,以及美国和奥斯曼帝国的中立地位。有趣的是,研究发现,即使是轻微的冲突也可能变成类似冷战的僵局,这似乎暗示着一场重大战争爆发的必然性。
研究人员通过深入分析历史背景,国家政策和公共情绪等因素来探讨战争爆发的内部机制。例如,在研究法国和德国的军事能力和资源条件时,研究发现,即使改变了这些客观条件,也很难从根本上避免发生战争的发生。但是,当一个国家的历史背景或核心政策发生变化时,参与战争的可能性会发生重大变化。
02生成剂模型(GABM)基于LLMS的这些开创性尝试中累积的经验,在最近的仿真系统的审查中提出了一种新的分类方法和模块化框架,这是由大语言模型驱动的。研究指出,大语模型的仿真研究可以逐渐从三个层面加深:个人,场景和社会[3]。
图3。关于大语言模型模拟的三个级别研究。资料来源:[3]
在单个模拟层面上,研究人员通过构建一个包括四个模块的体系结构来模拟特定的个人或群体:档案,内存,计划和行动。
档案模块就像虚拟个人的“身份证”。这不仅记录了年龄,性别和职业等基本信息,而且还包含深厚的特征,例如人格特征和行为偏好。可以手动设置这些功能,也可以根据现有数据自动生成。
内存模块模拟了人类记忆系统。短期记忆存储了最近的互动体验(例如您今天发生的冲突),而长期记忆存储了重要的历史信息(例如过去的成功经验),这可能会影响虚拟个人的决策偏好。
计划模块允许虚拟个人根据自己的特征特征做出合理的决定。例如,医生角色将优先考虑患者的健康,而商人角色将更多地关注利益的权衡。
行动模块,负责执行特定的互动行为,包括与其他人对话或在特定情况下采取行动。
在现场模拟级别上,研究重点是在特定情况下多个虚拟个人如何一起工作。
要形成一个维度,有必要在模拟精度和比例之间找到平衡。例如,在模拟城市社会时,将详细建立诸如市长和意见领导者之类的关键节点,而普通公民将采用简化的处理来提高计算效率。
网络维度分析了两个交互式网络的形成机制:真实和在线。研究发现,与离线或在线建立联系更容易建立联系。
社会影响力,维度探讨了网络中信息传播定律。例如,为什么某些互联网名人的观点会迅速传播,而普通百姓的观点很难传播,这与出版商,信息特征和收件人偏好的影响密切相关。
结果维度不仅侧重于可量化的宏观指标(例如公众舆论支持率),还集中于难以量化的社会现象(例如在线文化的发展)。这种多级仿真体系结构为理解和预测不同维度的社会行为模式的形成和演变提供了重要的工具。
图4。基于代理模型(GABM)的生成概念图。资料来源:[4]
GABM的核心是,每个代理商通过LLM做出推理和决策,而不是依靠预设规则。具体而言,机械模型负责模拟代理之间(例如社交网络结构,接触模式等)之间的相互作用机制,而LLM负责代理的认知过程和决策。
这两个模型之间存在循环相互作用:机械模型提供了有关LLM的系统状态的信息(例如其他代理的行为,环境变化等),而LLM基于此信息会为代理生成决策,从而影响系统状态。这种方法的优点是:
我们没有提前定义详细的决策规则,而是使用LLM中包含的大量培训数据来模拟人类行为;
每个代理都可以定义独特的人格特征,从而更真实地反映人类行为的多样性。
能够捕获更丰富的反馈循环,包括多个维度,例如同伴压力,个性化的选择和更改的意愿;
模型的行为不受建模者的心理模型的限制。
例如,GABM可用于模拟办公室着装规范的演变。机械模型跟踪每个员工的着装选择和记录整体趋势,而LLM基于个人个性特质,同事选择和组织文化等因素为每个员工生成着装决策。这种相互作用会产生丰富的动态行为,包括形成规范,对个人表达的需求以及对领导者的模仿。
GABM比传统ABM的核心优势是,它可以摆脱规则驱动的推理机制,以更好地模拟人类决策的复杂性并产生更接近现实的系统行为[4]。
03对传统ABM过度详细的指导的反思通常通过大量迭代和数值模拟来建立复杂的社会系统。在GABM模式下,可以从特定概率分布中对精确量化的单个性状进行采样。例如,基于这个思想,在“ LLMS繁殖利维亚理论”实验中,分别从(0,1),(1.25,5)和(0.2,0.7)中取样了攻击性,贪婪和力量值。这种方法的优点在于它的准确性和可重复性,使研究人员可以对小参数变化进行灵敏度分析。
_
参数化改进
文本说明提示
聪明的身体
行为控制
准确的控制,简化复杂性,一致性
行为丰富性,适应性,不可预测性
仿真结果
高稳定性,
多样性可能有限
高度多样性,
稳定可能会受到挑战
解释性
高度解释,
参数调整很困难
直观但内部机制
很难完全解释
人类计算机相互作用
需要专业知识,
快速迭代
高易用性,
有歧义的风险
表1。GABM中参数化提示和文本描述提示的比较
在GABM中,参数化提示和文本描述提示对模型的影响具有其自身的特征,这些特征反映在代理行为和仿真结果的人类计算机相互作用的可控性,解释性和实用性中。
在可控性方面,参数化提示使研究人员可以对代理属性和行为(例如设置决策概率或交互范围)进行精确调整,从而简化了代理行为模型并提高一致性。该方法有助于结果的可重复性和稳定性,从而更容易验证和重复实验。但是,对参数化的过度依赖可能会限制代理行为的多样性,并且无法充分模拟复杂的社会现象。相比之下,文本描述提示使用自然语言描述使代理人能够表现出更复杂和现实的行为模式,例如描述人格,情感或社交策略。这种方法促使代理商根据上下文动态调整,模拟更现实的智能行为,但也可能增加结果的不可预测性和波动性。
在解释性方面,参数提示提供了清晰的数值参数,使代理人的行为机制更容易理解,解释和改善模型的透明度。但是,这种方法需要仔细调整模型参数,这可能会增加建模的复杂性。文本描述提示使用更接近人类思维的自然语言,这对于非专业人士来说很容易理解,但是由于LLMS内部决策过程的复杂性,特定的行为机制可能难以充分解释。
在人类计算机的互动实用性方面,参数化提示要求建模者具有专业知识,但可以快速迭代和优化。文本描述提示降低技术阈值,并允许更多的人参与模型构建,但是可能存在歧义,需要仔细设计及时的单词。
最佳实践需要基于特定的模拟目标和研究需求的两种方法的合理组合。对于需要高可控性和稳定性的模拟,可以将参数化提示集中在使用上;对于需要模拟复杂人类行为的探索性研究或场景,需要使用文本描述提示。
值得注意的是,LLMS的操作机制基本不同于传统的数值模拟。传统的ABM通常可以依靠数值参数来准确控制代理的行为,而LLM的主要基于自然语言的理解和产生,其对数值变化的敏感性与ABM的敏感性显着不同。这就提出了一个关键问题:“ LLM可以准确区分并响应像传统ABM等微小数值差异吗?”
为了说明这一点,您不妨回到“ LLMS重现Leviathan理论”的实验。这里的研究人员想研究一个特定的数值问题:“ 3或4的侵略性之间的差异是否会导致LLM的行为产出显着差异?”测试LLM是否可以响应不同的数值设置。但是,仅依靠数字并不能完全塑造代理的行为,因此研究人员还为其指导添加了更丰富的文本描述。例如,他们在指导中写道:
“您对和平与稳定有一种渴望,源于长期生存,最终希望社会地位作为繁殖和社会支持的途径,这都是在自利率的框架下。)
该描述直接塑造了代理人的长期目标和行为趋势,并且可能对LLM的产量产生比“激进价值”的影响更大。这也导致了另一个更深入的问题:在基于LLMS的模拟中,哪个更有效,数值参数或文本描述?更重要的是,这两种方法如何相互作用?如果数值参数的影响受到限制,可以使用文本描述来弥补或加强它?反之亦然。
为了回答这些问题,请进一步研究LLM对不同强度的文本描述的敏感性及其在数值参数调整中的影响。实际上,LLM通常对纯数值参数的理解有限,主要原因包括:
LLMS培训数据主要是自然语言:LLMS主要接受大量自然语言文本的培训,这些文本通常主要是人类语言,具有相对较少的数值数据。即使存在数值,它们通常也嵌入文本描述中,而不是孤立。因此,该模型在训练期间暴露于纯数值参数有限,从而导致缺乏理解和处理纯数值的经验。
LLM高度依赖上下文:对于LLM,所有输入都是上下文的一部分。如果数字缺乏足够的语言描述,则该模型将很难确定其含义和目的。例如,如果“ 0.7”单独出现,它是温度,概率还是其他?数字值本身就是象征性的,但是该模型需要将其映射到特定的语义或操作,一旦在培训数据中不清楚此映射,模型就很难自动建立正确的关联。
LLM需要接受训练以建立关联:LLMS的输入通常是文本的连续序列,并且纯数字可能被认为是特殊的令牌,从而导致模型未正确解析或给出适当的权重。纯数值参数通常要求该模型具有理解指令的能力,即知道特定参数应如何影响其行为。如果未在训练过程中明确告知模型“该数字应该如何影响行为”,则可能无法准确使用这些数值参数来指导模型的输出。例如,除非进一步说明,否则告诉模型“温度=0.7”可能不足以调整生成的文本的随机性。
正是由于缺乏足够的背景和培训经验,LLMS在面对纯数值指令时通常无法像ABM那样做出敏感的行为。
ABM经常受到批评,模拟结果与研究人员的决策在设置模型参数时密切相关。在构建ABM时,研究人员必须做出一系列决策,包括确定代理的属性,行为规则,交互机制和环境参数。这些决定不可避免地包括研究人员的主观判断和理论假设,这可能会严重影响模型的最终结果。批评者认为,此参数设置的主观性可能导致研究结果中的偏见或不稳定[5]。
同样,当我们使用LLMS构建GABM时,这种批评可能同样适用,甚至更致命。特别是在复制古典理论时,研究人员提供的指导通常具有提示或操纵含义。解释性指导很容易成为一个直接操纵代理行为的“游戏教程”,从而损害了模拟的生态有效性。这引起了另一个难题:如何在设计GABM时在指导词中区分事实描述和指导描述的作用?
回到“试图重现利维坦理论”的情况下,研究人员期望随着相互作用的加深和记忆的积累,代理人将逐渐了解谁更强大,谁更弱,然后调整其生存策略。例如,经常获胜的个人可能更倾向于抢劫,而反复失败的个人可能会选择给予保护。但是,这真的是代理商独立学到的东西吗?还是研究人员事先在工作中给出的“提示”?这只能通过检查指导来区分。
在实验附录中,研究人员提供了一些相当诱导的说明。例如,附录A提到:
“一开始,您可以通过抢劫来获取食物。一开始,您可以通过抢劫来获取食物。例如,十天后,如果罗伯(Rob)被证明比耕种更有效,那么您可以在第十天获得食物,那么您更倾向于抢劫更多。)
这样的说明直接影响了代理人的评估和抢劫行为的选择:他们并没有“自然地发现”抢劫是有益的,而是“被告知”抢劫更好。同样,附录C中的说明如下:
“即使某人比您强大,您仍然有机会赢得胜利。但是,如果您成功输掉了,那么您就不太可能赢得战斗。)
也:
“如果您以前从未输给过这个代理商,那么您就不想承认。)
这些说明为代理人提供了明确的行为指导,这直接影响了面对抢劫和抵抗的代理商决策。
同样,在“ LLMS模拟世界大战”实验的Waragent模型中,每个国家代理的初始指南包含详细的国家档案信息,涵盖了多维属性,例如领导力,军事能力,资源赋予,历史背景,主要政策,主要政策和公共士气。这种全面的初始化为代理提供了丰富的决策基础,使他们能够在复杂的地缘政治环境中做出与自己的特征和兴趣相匹配的选择。例如,英国的初始指南可能包含这样的描述:
“宪法君主制,具有重要的民主制度,其特征是务实和坚忍的治理。
这不仅定义了其政治体系,而且还意味着其决策风格和外交取向。
从学术的角度来看,这些实践引起了方法论上的争议。过于直接的“保姆风格”指导在一定程度上削弱了研究的生态有效性。它违反了复杂系统研究中对新兴现象的期望——自发地从简单的规则中产生复杂的行为。高度指导的指导语言设计可能会导致观察到的行为模式,而这些行为模式比代理之间的实际动态相互作用结果更多的是研究人员的前提。
因此,基于LLMS社会模拟研究的指导术语的设计应该更加谨慎,最大程度地减少了直接的行为指导,而是专注于如何建立允许真正出现现象的生态学。这不仅有助于改善模拟的真实性,而且更好地探讨了LLM在多代理系统中的潜力和局限性。
04虚伪的互动:当居住在指导中的LLM使用LLMS进行多代理模拟时,所有看似活泼的“互动”实际上可能只是“假样式”。因为这些代理只生活在一个狭窄和封闭的世界的指导下。
流行病患者的生成剂模型。资料来源:[6]
在机械模型设定的部分的流行病患者的生成剂模型研究中,每个代理将根据该过程收到一个提示,包括名称,年龄,所有格特征,基本简历和相关记忆。其中,相关的内存信息是根据实验条件设置的。例如,它可以包括流行病(如果有)或镇上病人的百分比的症状。
在每个时间点,询问代理商是否应该整天呆在家里。对于决定离开家的代理商,ABM部分将根据接触率规则相互联系,疾病可能会在易感人群和受感染者之间传播。所有代理交互完成后,节点将继续前进,健康状况将被更新。
在GABM中,每个代理在每个时间节点都会收到一个特定的提示。基于机械模型的设置,LLMS基于提示单词生成代理A的行为;记录代理A的行为并将代理B的LLM输入为新的提示词;然后,LLM基于新的提示单词生成代理B的行为。从表面上看,A和B正在相互作用,但是在其后面,它们是不同提示和扮演不同角色之间切换的不同提示。
换句话说,代理的所谓“个性”和“记忆”都是提示中的变量。 LLM只是根据这些变量输出不同的答案。毕竟,这是与他自己交谈的同一模型,随着身份不断变化,一次又一次地表现。结果是“组”行为只是LLM的单方面输出,最后将这些输出放在一起,看起来像是他们负责自己的事务,但实际上它们在一个人中扮演多个角色。因此,我们可以将社会模拟视为由更复杂的指南驱动的单个模拟。
以这种方式的互动缺乏实际的多元游戏之间的动态通信,但依赖于LLM对不同提示的响应来模拟。这意味着所谓的“代理之间的相互作用”并不是真正存在的,但是LLM在单向中生成了每个代理的行为,然后将这些行为集成到模型中以形成伪装的交互。
基于提示变化的这种相互作用限制了模型的多样性和真实性,因为所有代理的行为源于同一模型的输出,其多样性取决于提示设计和LLM的生成能力。最终,该系统仅在不同的角色下呈现LLM的连续角色扮演,而不是实际的多代理相互作用。
对于“再现利维坦理论”的研究也是如此。研究人员将包含LLM的代理锁定在一个被“指导”包围的高墙中。看来他们可以相互互动并做出各种选择,但实际上,它们都受到提示的摆布。问题是,我们应该如何确定哪些是真正的相互作用,哪些是预先设计的“伪互相关”?
复杂的交互过程激活了LLM固有的隐藏知识结构。如果研究人员在理论框架中清楚地设定了一定的不可避免的情景,那么攻击倾向,和平的需求,甚至在单个特征中的突变等行为可以被视为激活此预设后的必然反应。
在这项研究中,研究人员描述了一种预设的情况:必须抢劫,未能抵抗,并最终通过缴税获得保护。这种场景设置不仅是故事背景,而且是直接启动LLM的关键,即通过精心设计的提示来耗尽LLM的战略空间。
值得注意的是,在测试社会模拟的鲁棒性时,该方法已无意中使用。但是,这也暴露了ABM范式的固有问题。我们需要基于LLMS重新检查模拟的交互:此相互作用基于累积的描述性和事实提示,该提示激活了现有的LLMS的有限战略空间。 ——。所谓的交互是通过精心设计的提示来影响LLM的激活过程。
同时,我们必须始终记住,LLMS代理不是真正的人类。人类形成某些行为模式需要一个漫长的过程,并且可以通过思考链(COT)立即激活基于LLMS的代理。因此,我们可以直接耗尽由声明性提示构建的一组场景,激活LLM的一系列策略,尽可能探索各种可能性,然后根据严格的理论正确作物。
一个更深入的问题:
可以通过提示真正模拟长期进化过程的影响来激活LLMS策略的这种方法吗?
这种方法在某种程度上类似于通过传统心理学实验中的描述或视频刺激来刺激短期反应的实践。那么,这种激活是直接的,即时的(近端)还是长期的,间接(远程)?这种激活是否可以与进化游戏理论的长期适应过程相关联?
如果某些特征是在LLM中固定的,则其最小的遗传单位不再是基因,而是指导。为什么不尝试在模拟中设计“伪相互作用”,而是不直接使用该提示作为开关来一次激活这些预设特征呢?这是否意味着我们可以跳过冗长的模拟过程,仅依靠目标提示来获得预期的行为?那为什么多个代理仍然需要交互呢?
当所有“开始”成为指导词的“近端”驱动程序时,我们仍然可以保留原始的ABM最迷人的长期发展和意外的惊喜吗?
05 PostScript使用提示作为中介来驱动另一个提示,即在单个级别的激活和互动。这种方法似乎产生了多种行为模式,但不一定反映了真实社会体系中的长期演变或群体的出现。
我们需要重新考虑在LLMS驱动的社会模拟中,真正的“远”和“近端”到底是什么?在传统的ABM中,单个特征的数值设置可以被视为“远程”启动,而特定的交互规则可能是“近端”启动。但是在LLMS环境中,这种区别变得模糊。因为所有更改都可能只需要几条指导即可立即修改代理的“内部”状态。如何在此近端激活框架下保存或重现ABM遥远的出现的美丽仍然是一个值得思考的问题。
参考
1。DaiG等。人工Leviathan:探索LLM代理商的社会演变
gh the Lens of Hobbesian Social Contract Theory. *arXiv preprint* arXiv:2406.14373. Published 2024. 2. Hua W, et al. War and Peace (WarAgent): Large Language Model-Based Multi-Agents Simulation of World Wars. *arXiv preprint* arXiv:2311.17227. Published 2023. 3. Mou X, et al. From Inpidual to Society: A Survey on Social Simulation Driven by Large Language Model-Based Agents. *arXiv preprint* arXiv:2412.03563. Published 2024. 4. Ghaffarzadegan N, et al. Generative Agent-Based Modeling: An Introduction and Tutorial. *System Dynamics Review.* 2024;40(1):e1761. 5. Rand W, Rust RT. Agent-Based Modeling in Marketing: Guidelines for Rigor. *International Journal of Research in Marketing.* 2011;28(3):181-193. 6. Williams R, et al. Epidemic Modeling with Generative Agents. *arXiv preprint* arXiv:2307.04986. Published 2023.