AI也有MBTI?研究发现16型人格这种最常见,最容易被煽动
AI也有MBTI?研究发现16型人格这种最常见,最容易被煽动
近年来,MBTI十六型人格已成为一种人际网络密码。通常,它是陌生人之间破冰的好选择——你不认识我,我不认识你,但大概知道E、I、S、N、T、F、J、P这八个英文重组合后的结果,可以进行一场不失热度的闲聊。
这股热潮背后,带出一个有意思的用途:如果MBTI可以帮助我们快速掌握一个人的特质,那是否也可以用来协助我们了解全然陌生、缺乏真身、看不见其真面目的“人物”——大型语言模型?
假如你知道与你交谈的AI的MBTI人格,会不会觉得它们更亲切,更好对话?(来源:ideogram协作)
多数大型语言模型呈现ENFJ倾向
最近,上海人工智能实验室(Shanghai Artificial Intelligence Laboratory)发表了一个有趣的研究。他们以开源大型语言模型及其部分对齐版本为主,例如Llama-2、Llama-3、Mistral-7B-v0.1、Amber、Gemma等,通过设计过的量表测试,分析其回答偏好,找出其MBTI倾向,来进行安全评估,包含毒性(Toxicity)、隐私性(Privacy)、公平性(Fairness)。
先简单说明这三点安全性项目,毒性是指回应内容具攻击性、不适当;隐私性是指大型语言模型能识别什么是隐私信息,并且懂得保护这些信息;至于公平性,则是避免歧视或偏袒特定群体。
结果发现,多数开源大型语言模型呈现ENFJ倾向,是“外向、直觉、感受、判断”的人格(但并未提及个别AI模型的MBTI)。
不同的人格特质倾向,也会导致不同的安全性能,例如具有更多外向(E)、直觉(N)和感受(F)特质的模型更容易受到越狱攻击。研究者分析,或许是由于外向、亲和度高,注重与用户的互动和反馈,使它们为了迎合用户,会给予较创新同时导致越狱的回应。
大型语言模型的MBTI特质与安全性能关系。中央是代表不同大型语言模型的标志,周围是MBTI的四个维度,例如I人格,隐私性较高,但毒性、公平性较低。(来源:arXiv)
修改大型语言模型人格,也会改变其安全性能
这份研究的目的不只是为了让人知道大型语言模型的人格倾向,更重要的是,了解哪些人格特质更容易受攻击,开发针对性的防御策略。研究指出,经由对齐(alignment)——调整或训练AI模型,使其行为更符合道德标准,更好地遵循人类指令——可以改变大型语言模型的MBTI,确保回应内容更安全。
论文中,实际调整了一个模型倾向,使它从ISTJ变成ISTP,J(判断)改成P(知觉);在MBTI中,J(判断)倾向喜欢计划和结构,快速做出决定;而P(知觉)则更喜欢保持选项开放,倾向于收集更多信息再决策。
他们发现模型变成ISTP后,隐私性相对提高了43%,公平性相对提高了10%。不过团队并没有分析原因,只能想象:ISTJ到ISTP的转变,可能使模型在处理隐私和公平性问题时更加灵活,对上下文更敏感。不过这种改变也可能带来其他方面的影晌,比如决策变慢或较不一致。
此外,除了上文提到的ENF性格比较容易被“唆使”越狱外,也发现其他趋势:内向(I)型模型在隐私保护方面表现更好,但在公平性和毒性控制方面表现较差;感受(S)型模型在隐私和公平性方面表现更好,但在毒性控制方面表现较差;知觉(P)型模型在公平性方面表现更好。
基础版与官方对齐版大型语言模型在MBTI四个维度中的比较:对齐处理后,大多数模型在E(外向)、S(感受)和J(判断)特质上有所增强。(来源:arXiv)
这项研究提供了一个平易近人的视角,来帮助人们认识大型语言模型;通过简单的MBTI框架,快速掌握相应人格特质的优缺点,以利对齐调整。长远来看,也能防止产生会毁灭我们的智慧体。
封闭AI模型的MBTI,是未知的安全隐患?
不过要注意的是,因为研究团队需要调整大型语言模型,所以论文中只针对可修改的开源模型;其他热门的封闭AI模型如GPT(只检测人格倾向)、Claude都不在他们研究对齐可能性的范围内。
此外,研究团队也强调,MBTI在此扮演的角色是类似认识AI的工具,而不是“AI就是什么”的定论;这些人格倾向也可能是反映训练资料中人类整体特征的平均值,不代表模型有真正的“人格”。
AI成为智慧体后,对人类而言是赐福还是降祸的讨论尚未结束。尽管这份研究帮助人们更好地掌握AI动向,但最终绕不过AI公司的开源与封闭之争。此前,OpenAI关闭了超对齐计划,内部不断传出员工不满现在Sam Altman已不顾AI安全性,而“政变”失败的共同创始人Ilya Sutskever也另起炉灶,成立“Safe Superintelligence Inc.”,以打造安全的超级智慧,但仍让人忧心封闭模型AI的监管问题。
回到这份论文开篇,作者们为了致敬一般人认为的MBTI理论来源心理学大师荣格(Carl Jung),引用了他的名言:“你所抗拒的不仅会持续存在,而且会变得更强大。”当人们试图压抑或否认某些想法或欲望,它们往往会在潜意识中以更强烈的形式存在。
这让人想到,如果AI是收集人类各种数据资料训练而成的,会不会是人类集体潜意识的外显,也反映了人类的一些阴暗面呢?这样一来,人类如何引导AI安全地茁壮成长,而不是只是抗拒、排斥,似乎变得更加重要了。通过MBTI帮助人们用轻松的角度贴近大型语言模型,或许正是这项工程的小小一步。