问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

斯坦福研究：GPT-4通过图灵测试，社交能力超乎想象

创作时间:

2025-01-22 19:54:24

作者:

@小白创作中心

斯坦福研究：GPT-4通过图灵测试，社交能力超乎想象

最近，斯坦福大学和纽约大学的一项社会学实验引起了广泛关注。他们利用GPT-4模型成功模拟了人类行为，特别是在社交互动中的表现，准确度惊人。这项实验不仅展示了AI在社会学领域的巨大潜力，也引发了关于人工智能伦理和人类行为的深入思考。

01

实验设计与发现

研究团队由斯坦福大学人文与科学学院的Matthew Jackson教授领导，他们使用了心理学和行为经济学的工具来评估ChatGPT的个性和行为。实验包括两个主要部分：

人格测试：研究者使用了广泛使用的OCEAN Big-5人格测试，该测试从五个基本特质（开放性、尽责性、外向性、宜人性和神经质）来评估行为倾向。
- 结果显示，GPT-4在五个特质上的得分都在正常范围内，但在宜人性方面仅处于人类分布的后三分之一。
- 相比之下，GPT-3的表现更差，宜人性仅处于后五分之一，且对新想法和经验的开放性也远低于人类平均水平。
行为游戏：研究团队设计了一系列行为游戏，包括经典的囚徒困境等经济和伦理决策场景。
- 在这些游戏中，GPT-4的选择与来自50个国家的10万多名人类参与者相比，几乎无法区分。
- 当GPT-4选择不同于常见人类行为时，它倾向于做出更合作和利他的选择。

这项研究标志着AI首次通过了严格的图灵测试。图灵测试以英国计算先驱艾伦·图灵命名，任何分配给机器的任务都可以用来评估其是否像人类一样表现。如果机器看起来像人类，就被认为通过了测试。

02

AI的社交智能

另一项发表在《心理学前沿》杂志上的研究进一步证实了AI在社交互动中的能力。该研究比较了大型语言模型（如ChatGPT-4、Google Bard和Bing）与人类心理学家在社会智力测试中的表现。

研究设计：研究纳入了180名来自沙特阿拉伯国王卡利德大学的男性心理学家，分为学士和博士两个教育水平组。每个参与者（包括AI和人类）需要独立回应社会智力量表中的64个情景。
测试维度：社会智力量表主要测量两个维度：
- 判断人类行为的准确性
- 在社交场合中明智行动的能力
研究发现：
- ChatGPT-4的表现超过了所有参与的人类心理学家
- Bing的表现优于超过一半的心理学家
- Google Bard的表现仅与学士学位水平的心理学家相当，远低于博士生水平

这些发现引发了对AI在心理咨询和治疗领域潜在应用的思考。研究作者、卡塔尔大学临床心理学副教授Fahmi Hassan Fadhel指出：“人工智能模型在咨询和心理治疗中的使用，对心理学家来说是一个重大挑战，因为人们担心它可能会取代这些重要任务中的人类角色。”

03

意义与展望

这些研究结果表明，AI在模拟人类社交行为方面取得了显著进展。GPT-4不仅能够通过图灵测试，还在某些社交场景中展现出超越人类的合作性和利他性。同时，在需要复杂情感理解的任务中，如心理咨询，AI也展现出了惊人的能力。

然而，这些发现也引发了一系列伦理和社会问题：

AI的决策透明度：AI在做出社交决策时的思考过程和逻辑是否足够透明？
人类角色的替代：AI在社交和心理咨询领域的优异表现是否意味着它将取代人类专业人士？
AI的可解释性：当AI做出与人类不同的选择时，我们如何理解和解释这些差异？

随着AI社交能力的不断提升，这些问题将成为未来研究和讨论的重要方向。斯坦福的这项研究为我们提供了宝贵的洞察，帮助我们更好地理解AI与人类在社交互动中的异同，也为未来AI在社会中的角色提供了新的思考方向。

热门推荐

边际成本和边际效益在企业决策中的作用是什么？

边际成本和边际效益在企业决策中的作用是什么？

53岁韩红至今未婚，穷到几乎倾家荡产，真相让人赞叹！

53岁韩红至今未婚，穷到几乎倾家荡产，真相让人赞叹！

医药工业全球合作典型案例：中国创新药械闪耀国际舞台

医药工业全球合作典型案例：中国创新药械闪耀国际舞台

2025年升降桌选购指南：3大类可调高度桌子的性能评比

2025年升降桌选购指南：3大类可调高度桌子的性能评比

父母离婚不幸的往往是孩子，怎样减少对他的负面影响，健康成长呢？

父母离婚不幸的往往是孩子，怎样减少对他的负面影响，健康成长呢？

全麦面包的消费提示

全麦面包的消费提示

牛津大学研究：吃鸡肉或增加3种癌症风险，鸡肉到底能不能吃？

牛津大学研究：吃鸡肉或增加3种癌症风险，鸡肉到底能不能吃？

教你三步骤回测策略：打造高胜率交易策略，击败其他交易员的必备“神器”

教你三步骤回测策略：打造高胜率交易策略，击败其他交易员的必备“神器”

60种水果热量表排行！减肥控糖人群建议收藏

60种水果热量表排行！减肥控糖人群建议收藏

新进展！宁波地铁6号线21个站点已封顶，高桥南车辆段即将全面封顶

新进展！宁波地铁6号线21个站点已封顶，高桥南车辆段即将全面封顶

中医治疗失眠：古老智慧的新解决方案

中医治疗失眠：古老智慧的新解决方案

白领、蓝领和金领的区别详解

白领、蓝领和金领的区别详解

告别死记硬背，高效提升词汇量：掌握科学记单词技巧

告别死记硬背，高效提升词汇量：掌握科学记单词技巧

U20亚洲杯小组赛第二轮前瞻：中国vs吉尔吉斯斯坦，国青队力争两连胜

U20亚洲杯小组赛第二轮前瞻：中国vs吉尔吉斯斯坦，国青队力争两连胜

对《黑神话：悟空》及其对行业影响的思考

对《黑神话：悟空》及其对行业影响的思考

上背痛的成因与处理方法

上背痛的成因与处理方法

孔子在蘧伯玉家的日子

孔子在蘧伯玉家的日子

碱式碳酸镁在化学与材料科学中的关键应用

碱式碳酸镁在化学与材料科学中的关键应用

吸引力法则的心理学解读：科学原理与理性应用

吸引力法则的心理学解读：科学原理与理性应用

虚拟币BAT混币器跨链交易：技术挑战与解决方案

虚拟币BAT混币器跨链交易：技术挑战与解决方案

GitHub 与 GitLab：差异、应用场景与核心价值

GitHub 与 GitLab：差异、应用场景与核心价值

涂防晒霜or穿长袖？——揭秘皮肤癌预防措施的深度研究

涂防晒霜or穿长袖？——揭秘皮肤癌预防措施的深度研究

西瓜视频流量怎么分配？揭秘西瓜视频的流量分配机制

西瓜视频流量怎么分配？揭秘西瓜视频的流量分配机制

“令狐冲”职场生涯的启示

“令狐冲”职场生涯的启示

【健康之窗】骨质疏松，补钙就够了吗？

【健康之窗】骨质疏松，补钙就够了吗？

博罗龙溪：发展蓝龙虾养殖带动村民增收致富

博罗龙溪：发展蓝龙虾养殖带动村民增收致富

羽毛球亚锦赛：7连败又如何，何冰娇打了一场漂亮的翻身仗

羽毛球亚锦赛：7连败又如何，何冰娇打了一场漂亮的翻身仗

朗多一家近照，二婚妻子很美，賺2億低調退役，轉型成功

朗多一家近照，二婚妻子很美，賺2億低調退役，轉型成功

手指关节疼痛：多因解析与应对策略

手指关节疼痛：多因解析与应对策略

微陶泥的优缺点

微陶泥的优缺点

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号