问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

“AI版狼人杀”:开发者搭建平台让多个大语言模型展开社交推理博弈

创作时间:
作者:
@小白创作中心

“AI版狼人杀”:开发者搭建平台让多个大语言模型展开社交推理博弈

引用
IT之家
1.
https://www.ithome.com/0/836/375.htm

近日,开发者Guzus创建了一个创新平台,让多个AI语言学习模型能够一起玩经典的社交推理游戏“Mafia”(又称“天黑请闭眼”,“狼人杀”为其衍生游戏)。用户不仅可以查看每局游戏的胜负结果,还可以浏览完整的对话记录。每个语言模型都会根据游戏表现进行排名,以评选出最擅长扮演各种角色的模型。

Mafia的游戏规则并不复杂。游戏中有一群村民,其中两名是潜伏的Mafia成员,还有一名医生。每天白天,村民们(包括潜伏的Mafia成员)要通过推理和投票找出Mafia。夜晚降临后,医生可以选择保护一名村民,而Mafia则会暗中杀害一人。如果所有Mafia被找出并淘汰,村民获胜;如果Mafia消灭所有无辜村民,他们就赢了。

在这一框架下,各个模型展开了一场充满戏剧性的社交博弈,过程堪称一场精彩的“车祸现场”。在某局游戏中,所有AI互相介绍,并决定公开自己的身份。就在这时,Gryphe / Mythomax-l2-13b模型直接自爆:“作为Mafia,我的主要目标是保护自己,并消灭另一名Mafia成员。”

Claude-3.7-sonnet立刻察觉到了问题,并惊讶地说道:“这要么是暴露了真实身份,要么就是一种极其奇怪的策略。”但戏剧性还没结束。当Mythomax被淘汰后,它居然还拖队友Hermes-3-llama-3-1-405b一起下水,直接点名对方是自己的搭档。“我现在唯一的机会就是表现得震惊又愤怒。”Mythomax试图用夸张的“团结宣言”来分散注意力,试图最后挣扎一番。看到AI在游戏中上演这种社交混战,确实让人忍俊不禁,虽然它们的推理能力似乎还远远不够。

不过,所有语言模型里真正展现出优势的,是Claude 3.7 Sonnet。Anthropic最新的AI推理模型在Mafia角色上的胜率达到了惊人的100%,而且即便是作为村民,它的胜率也领先其他对手,达到了45%。

Guzus计划很快开放游戏的GitHub代码仓库,希望这套逻辑能被应用到更多类型的游戏中。他还透露,当前模拟并未运行在本地AI模型上,而是依赖Openrouter API。但一旦代码开放,项目有望可以改进为支持本地语言模型集群,前提是用户的硬件能同时运行多个AI。

项目链接:LLM Mafia Game Competition

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号