斯坦福研究:GPT-4通过图灵测试,社交能力超乎想象
斯坦福研究:GPT-4通过图灵测试,社交能力超乎想象
最近,斯坦福大学和纽约大学的一项社会学实验引起了广泛关注。他们利用GPT-4模型成功模拟了人类行为,特别是在社交互动中的表现,准确度惊人。这项实验不仅展示了AI在社会学领域的巨大潜力,也引发了关于人工智能伦理和人类行为的深入思考。
实验设计与发现
研究团队由斯坦福大学人文与科学学院的Matthew Jackson教授领导,他们使用了心理学和行为经济学的工具来评估ChatGPT的个性和行为。实验包括两个主要部分:
人格测试:研究者使用了广泛使用的OCEAN Big-5人格测试,该测试从五个基本特质(开放性、尽责性、外向性、宜人性和神经质)来评估行为倾向。
- 结果显示,GPT-4在五个特质上的得分都在正常范围内,但在宜人性方面仅处于人类分布的后三分之一。
- 相比之下,GPT-3的表现更差,宜人性仅处于后五分之一,且对新想法和经验的开放性也远低于人类平均水平。
行为游戏:研究团队设计了一系列行为游戏,包括经典的囚徒困境等经济和伦理决策场景。
- 在这些游戏中,GPT-4的选择与来自50个国家的10万多名人类参与者相比,几乎无法区分。
- 当GPT-4选择不同于常见人类行为时,它倾向于做出更合作和利他的选择。
这项研究标志着AI首次通过了严格的图灵测试。图灵测试以英国计算先驱艾伦·图灵命名,任何分配给机器的任务都可以用来评估其是否像人类一样表现。如果机器看起来像人类,就被认为通过了测试。
AI的社交智能
另一项发表在《心理学前沿》杂志上的研究进一步证实了AI在社交互动中的能力。该研究比较了大型语言模型(如ChatGPT-4、Google Bard和Bing)与人类心理学家在社会智力测试中的表现。
研究设计:研究纳入了180名来自沙特阿拉伯国王卡利德大学的男性心理学家,分为学士和博士两个教育水平组。每个参与者(包括AI和人类)需要独立回应社会智力量表中的64个情景。
测试维度:社会智力量表主要测量两个维度:
- 判断人类行为的准确性
- 在社交场合中明智行动的能力
研究发现:
- ChatGPT-4的表现超过了所有参与的人类心理学家
- Bing的表现优于超过一半的心理学家
- Google Bard的表现仅与学士学位水平的心理学家相当,远低于博士生水平
这些发现引发了对AI在心理咨询和治疗领域潜在应用的思考。研究作者、卡塔尔大学临床心理学副教授Fahmi Hassan Fadhel指出:“人工智能模型在咨询和心理治疗中的使用,对心理学家来说是一个重大挑战,因为人们担心它可能会取代这些重要任务中的人类角色。”
意义与展望
这些研究结果表明,AI在模拟人类社交行为方面取得了显著进展。GPT-4不仅能够通过图灵测试,还在某些社交场景中展现出超越人类的合作性和利他性。同时,在需要复杂情感理解的任务中,如心理咨询,AI也展现出了惊人的能力。
然而,这些发现也引发了一系列伦理和社会问题:
- AI的决策透明度:AI在做出社交决策时的思考过程和逻辑是否足够透明?
- 人类角色的替代:AI在社交和心理咨询领域的优异表现是否意味着它将取代人类专业人士?
- AI的可解释性:当AI做出与人类不同的选择时,我们如何理解和解释这些差异?
随着AI社交能力的不断提升,这些问题将成为未来研究和讨论的重要方向。斯坦福的这项研究为我们提供了宝贵的洞察,帮助我们更好地理解AI与人类在社交互动中的异同,也为未来AI在社会中的角色提供了新的思考方向。