AI也有MBTI？研究发现16型人格这种最常见，最容易被煽动

创作时间:

作者:

@小白创作中心

AI也有MBTI？研究发现16型人格这种最常见，最容易被煽动

引用

来源

https://www.vivepostwave.com/14454/ai-mbti-safety-alignment/

近年来，MBTI十六型人格已成为一种人际网络密码。通常，它是陌生人之间破冰的好选择——你不认识我，我不认识你，但大概知道E、I、S、N、T、F、J、P这八个英文重组合后的结果，可以进行一场不失热度的闲聊。

这股热潮背后，带出一个有意思的用途：如果MBTI可以帮助我们快速掌握一个人的特质，那是否也可以用来协助我们了解全然陌生、缺乏真身、看不见其真面目的“人物”——大型语言模型？

假如你知道与你交谈的AI的MBTI人格，会不会觉得它们更亲切，更好对话？（来源：ideogram协作）

多数大型语言模型呈现ENFJ倾向

最近，上海人工智能实验室（Shanghai Artificial Intelligence Laboratory）发表了一个有趣的研究。他们以开源大型语言模型及其部分对齐版本为主，例如Llama-2、Llama-3、Mistral-7B-v0.1、Amber、Gemma等，通过设计过的量表测试，分析其回答偏好，找出其MBTI倾向，来进行安全评估，包含毒性（Toxicity）、隐私性（Privacy）、公平性（Fairness）。

先简单说明这三点安全性项目，毒性是指回应内容具攻击性、不适当；隐私性是指大型语言模型能识别什么是隐私信息，并且懂得保护这些信息；至于公平性，则是避免歧视或偏袒特定群体。

结果发现，多数开源大型语言模型呈现ENFJ倾向，是“外向、直觉、感受、判断”的人格（但并未提及个别AI模型的MBTI）。

不同的人格特质倾向，也会导致不同的安全性能，例如具有更多外向（E）、直觉（N）和感受（F）特质的模型更容易受到越狱攻击。研究者分析，或许是由于外向、亲和度高，注重与用户的互动和反馈，使它们为了迎合用户，会给予较创新同时导致越狱的回应。

大型语言模型的MBTI特质与安全性能关系。中央是代表不同大型语言模型的标志，周围是MBTI的四个维度，例如I人格，隐私性较高，但毒性、公平性较低。（来源：arXiv）

修改大型语言模型人格，也会改变其安全性能

这份研究的目的不只是为了让人知道大型语言模型的人格倾向，更重要的是，了解哪些人格特质更容易受攻击，开发针对性的防御策略。研究指出，经由对齐（alignment）——调整或训练AI模型，使其行为更符合道德标准，更好地遵循人类指令——可以改变大型语言模型的MBTI，确保回应内容更安全。

论文中，实际调整了一个模型倾向，使它从ISTJ变成ISTP，J（判断）改成P（知觉）；在MBTI中，J（判断）倾向喜欢计划和结构，快速做出决定；而P（知觉）则更喜欢保持选项开放，倾向于收集更多信息再决策。

他们发现模型变成ISTP后，隐私性相对提高了43%，公平性相对提高了10%。不过团队并没有分析原因，只能想象：ISTJ到ISTP的转变，可能使模型在处理隐私和公平性问题时更加灵活，对上下文更敏感。不过这种改变也可能带来其他方面的影晌，比如决策变慢或较不一致。

此外，除了上文提到的ENF性格比较容易被“唆使”越狱外，也发现其他趋势：内向（I）型模型在隐私保护方面表现更好，但在公平性和毒性控制方面表现较差；感受（S）型模型在隐私和公平性方面表现更好，但在毒性控制方面表现较差；知觉（P）型模型在公平性方面表现更好。

基础版与官方对齐版大型语言模型在MBTI四个维度中的比较：对齐处理后，大多数模型在E（外向）、S（感受）和J（判断）特质上有所增强。（来源：arXiv）

这项研究提供了一个平易近人的视角，来帮助人们认识大型语言模型；通过简单的MBTI框架，快速掌握相应人格特质的优缺点，以利对齐调整。长远来看，也能防止产生会毁灭我们的智慧体。

封闭AI模型的MBTI，是未知的安全隐患？

不过要注意的是，因为研究团队需要调整大型语言模型，所以论文中只针对可修改的开源模型；其他热门的封闭AI模型如GPT（只检测人格倾向）、Claude都不在他们研究对齐可能性的范围内。

此外，研究团队也强调，MBTI在此扮演的角色是类似认识AI的工具，而不是“AI就是什么”的定论；这些人格倾向也可能是反映训练资料中人类整体特征的平均值，不代表模型有真正的“人格”。

AI成为智慧体后，对人类而言是赐福还是降祸的讨论尚未结束。尽管这份研究帮助人们更好地掌握AI动向，但最终绕不过AI公司的开源与封闭之争。此前，OpenAI关闭了超对齐计划，内部不断传出员工不满现在Sam Altman已不顾AI安全性，而“政变”失败的共同创始人Ilya Sutskever也另起炉灶，成立“Safe Superintelligence Inc.”，以打造安全的超级智慧，但仍让人忧心封闭模型AI的监管问题。

回到这份论文开篇，作者们为了致敬一般人认为的MBTI理论来源心理学大师荣格（Carl Jung），引用了他的名言：“你所抗拒的不仅会持续存在，而且会变得更强大。”当人们试图压抑或否认某些想法或欲望，它们往往会在潜意识中以更强烈的形式存在。

这让人想到，如果AI是收集人类各种数据资料训练而成的，会不会是人类集体潜意识的外显，也反映了人类的一些阴暗面呢？这样一来，人类如何引导AI安全地茁壮成长，而不是只是抗拒、排斥，似乎变得更加重要了。通过MBTI帮助人们用轻松的角度贴近大型语言模型，或许正是这项工程的小小一步。

热门推荐

DNF手游货币系统详解：点券、泰拉和金币的使用指南