AI Agent成熟度评估的参考分类方法
创作时间:
作者:
@小白创作中心
AI Agent成熟度评估的参考分类方法
引用
1
来源
1.
https://www.53ai.com/news/zhishiguanli/2024071150941.html
随着生成式人工智能的快速发展,AI Agent(智能体)产品和应用已成为业界的首选方式之一。如何评价AI Agent的成熟度或智能能力级别成为各方关注的问题。本文总结了谷歌DeepMind、清华大学智能技术系统实验室、RASA人工智能助手、商汤AI数字人以及北京交通大学/中国科学院大学等五家机构的AI分级方法,为AI从业者和研究者提供参考。
谷歌DeepMind六级分类
基于能力深度(性能)和广度(通用性)将AGI分类为:
- L0:非AI
- L1:初级(有涌现能力)
- L2:中级(能力娴熟)
- L3:专家(专家能力)
- L4:大师
- L5:超人
在这个技术之上,作者提出了6种人机互动级别:
- 无AI
- AI工具
- AI顾问
- AI协作者
- AI专家
- AI智能体
清华大学智能技术系统实验室六级分类
按照场景、对话轮次、信息量、拟人化等标准,划分为L0-L5六个等级:
- L0:实际对话由人给出,系统完全没有自动对话能力;或者在任意单一场景中,系统均无法给出较高质量的对话。
- L1:能完成单一场景的较高质量对话;或虽能完成多个单一场景的较高质量对话,但无法处理场景之间的上下文依赖。
- L2:在L1的基础上,能同时完成多个场景的较高质量对话,具有处理跨场景的上下文依赖和自然切换能力,无法完成新场景较高质量的对话。
- L3:在L2的基础上,能针对大量场景开展高质量对话,在新场景上具有较高质量对话能力。
- L4:在L3的基础上,在新场景上具有高质量兑换能力,在多轮交互中拟人化(指人设、人格、情感、观点等多维度的一致性)程度较高。
- L5:在L4的基础上,在多轮交互中拟人化程度高,能在开放场景交互中主动学习和持续学习,具有多模态感知和表达能力。
评判维度:
- 高质量:相关性、信息量、自然度分数达到8-10分(满分10分)
- 较高质量:相关性、信息量、自然度分数达到6-8分(满分10分)
- 低质量:相关性、信息量、自然度分数小于6分(满分10分)
测试方式:通过一定数量的测试者与对话系统进行充分的对话交互,在测试之前测试者被告知系统的能力范围但不告知系统的技术实现方式,最后由测试者从三个维度进行主观的总评分
RASA人工智能助手五级分类
RASA是一家Chatbot技术产品公司,按照与人交互的范围、深度和群体广度划分:
- L1:通知助手——这就是我们最熟悉的,在手机上的简单通知。但它们只能显示在类似WhatsApp这样的消息应用中。
- L2:FAQ(常见问题)助手——这是目前最常见的助手类型,它能让用户提出一个简单的问题并回复。这比带有搜索栏的FAQ解答页略有改进。唯一的区别是助手有时能通过一到两个后续问题得到加强。
- L3:上下文助手——正如大多数机器人开发人员说的那样,为用户提供一个问题输入框很少会只得到一个简单的问题和返回一个答案。这就是为什么上下文(即用户之前说过什么,何时/何地/如何说的等)很重要。考虑上下文也意味着人工智能能够理解和响应不同的和未想到的输入。
- L4:个性化助手——正如我们人类期望随着时间的推移别人能更了解自己一样,这个级别的人工智能助手将会开始做同样的事情。例如,人工智能助手将了解何时应该进行沟通,并根据此上下文主动沟通。它会记住用户的偏好并为用户提供完全个性化的界面。
- L5:自动化组织机构里的人工智能助手——最终,将有一组人工智能助手,它们了解每个客户,并最终完成公司的大部分运营:从市场、销售、人力资源到财务等。这是一个需要多年才能实现的重大飞跃,但这是我们认为的将会成为现实的愿景。
商汤AI数字人五级分类
按数字人交互实现方法和程度划分:
- L1级:主要以人工制作为主;
- L2级:依靠动捕设备采集表情、肢体等动作,例如电影动画制作;
- L3级:可依靠算法驱动口型、表情和动作,例如虚拟化身实时互动;
- L4级:实现部分智能化交互,在垂直领域创新服务模式;
- L5级:实现完全智能化交互,打造真正的个性化虚拟助手
北京交通大学/中国科学院大学人工智能系统六级分类
从信息获取方式和信息、知识产生方式的角度划分:
- L0:人工智能系统的第0级系统
可以信息输入,但不能信息输出,或者可以信息输出,但不能信息输入,或者可以创新创造,但知识库不能增长,这些在现实中不能找得对应系统范例的案例,我们将其统一划归到“人工智能系统的第0级系统”,也可以叫“人工智能系统的特异类系统”。 - L1:人工智能系统的第1级系统
从“标准智能模型”延伸的第一套规则“能不能和测试者(人类)进行信息交互”看,因为石头不能与人类进行信息交互,也许它内部有知识库,能够创新知识,或者能够与其他石头进行信息交互,但对人类测试者是黑箱,不能了解。
因此不能与测试者(人类)进行信息交互的物体和系统可以定义为“人工智能系统的第1级系统”。 - L2:人工智能系统的第2级系统
如智能冰箱,智能电视,智能微波炉,智能扫地机...虽然它们内部有或多或少的控制程序信息,但一旦出厂后,就无法再更新他们的控制程序,不能进行升级,更不会自动的学习或产生新的知识...这种系统能够与人类测试者使用者进行信息交互,但它的控制程序或知识库从诞生时就不再发生变化。这种系统,我们可以定义为“人工智能系统的第2级系统”、 - L3:人工智能系统的第3级系统
如家用电脑其内部的应用程序也可以根据不同需要不断更新升级,这种系统能够与人类测试者使用者进行信息交互,但这类系统不能与其他系统通过“云端”进行信息交互,控制程序或知识库只能接受usb,光盘等外接设备进行程序或信息升级,这种系统,我们可以定义为“人工智能系统的第3级系统”。 - L4:人工智能系统的第4级系统
如互联网的B/S架构可以通过云端进行信息共享,这样的智能系统就具备了更为强大的智力能力,如谷歌大脑,百度大脑,RoboEarth云机器人项目等,这种系统能够与人类测试者使用者进行信息交互,可以通过“云端”进行信息交互,进行程序或信息升级,但这类系统所有的信息都是直接从外部获得,其内部无法自主的,创新创造的产生新的知识,这种系统,我们可以定义为“人工智能系统的第4级系统”。 - L5:人工智能系统的第5级系统
如人类可以看作是大自然构建的特殊“人工智能系统”...可以不断的创新创造并能够识别创新创造对只身的用处,这种系统能够与人类测试者使用者进行信息交互,可以创新创造的产生新的知识,并可以通过文章,信件,电报,甚至互联网这样的“云端”进行信息交互,这种系统,我们可以定义为“人工智能系统的第5级系统”。
热门推荐
透过教育的社会功能,燃亮逆转生命的力量和希望
山东临朐名吃“小葱拌豆腐”的灵魂,是“小葱”
汇聚多方资源打造新名片、“运河”沿线文旅融合促发展 旅游产业“生机盎然”
怎么写新浪微博:轻松打造吸引力的秘诀
水蒸汽的性质
婴儿辅食水果添加的适宜顺序与方法
漫画妹妹的义务是什么 兄妹情深与责任之爱的完美交织
如何带团队讲故事
河图洛书全析:包括其结构特点、实际应用与中华文化之深远影响
虹鳟鱼和三文鱼的区别
如何为家中老人设计一日三餐?
套餐的英语是什么?超值套餐英文怎么写?
使用状态编程模式开发模块化、灵活的代码库
研学探究 | 行走在桂林山水之间,开启地质奇观的自然大课堂
STM32 GPIO配置 点亮LED灯
插排台灯钥匙扣可能在偷听你说话
紫外线灯使用指南:五大实用场景及安全注意事项
Docker:使用编排Compose快速部署容器化应用
玉米病害识别检测数据集
简单婚礼,深刻爱情:从极简婚礼看幸福的真正意义
如何提高自己的薪资待遇?
张红甫教你做梅菜扣肉香软入味一口爱上
2025年NBA交易截止日的最大赢家和输家分析
妙用川牛膝
西双版纳庆泼水节万人燃放孔明灯,市民:一年只放这一次
新乐府运动:唐代诗歌革新的浪潮
每次当她醒来 | 新女性写作 · 阿依努尔创作评论
车载无感酒精检测技术:让酒驾无处遁形
25部适合3-12岁孩子的最佳英文动画片(按适合年龄分级)
八字命理中的“偏财透干”:含义与影响解析