AI Agent成熟度评估的参考分类方法
创作时间:
作者:
@小白创作中心
AI Agent成熟度评估的参考分类方法
引用
1
来源
1.
https://www.53ai.com/news/zhishiguanli/2024071150941.html
随着生成式人工智能的快速发展,AI Agent(智能体)产品和应用已成为业界的首选方式之一。如何评价AI Agent的成熟度或智能能力级别成为各方关注的问题。本文总结了谷歌DeepMind、清华大学智能技术系统实验室、RASA人工智能助手、商汤AI数字人以及北京交通大学/中国科学院大学等五家机构的AI分级方法,为AI从业者和研究者提供参考。
谷歌DeepMind六级分类
基于能力深度(性能)和广度(通用性)将AGI分类为:
- L0:非AI
- L1:初级(有涌现能力)
- L2:中级(能力娴熟)
- L3:专家(专家能力)
- L4:大师
- L5:超人
在这个技术之上,作者提出了6种人机互动级别:
- 无AI
- AI工具
- AI顾问
- AI协作者
- AI专家
- AI智能体
清华大学智能技术系统实验室六级分类
按照场景、对话轮次、信息量、拟人化等标准,划分为L0-L5六个等级:
- L0:实际对话由人给出,系统完全没有自动对话能力;或者在任意单一场景中,系统均无法给出较高质量的对话。
- L1:能完成单一场景的较高质量对话;或虽能完成多个单一场景的较高质量对话,但无法处理场景之间的上下文依赖。
- L2:在L1的基础上,能同时完成多个场景的较高质量对话,具有处理跨场景的上下文依赖和自然切换能力,无法完成新场景较高质量的对话。
- L3:在L2的基础上,能针对大量场景开展高质量对话,在新场景上具有较高质量对话能力。
- L4:在L3的基础上,在新场景上具有高质量兑换能力,在多轮交互中拟人化(指人设、人格、情感、观点等多维度的一致性)程度较高。
- L5:在L4的基础上,在多轮交互中拟人化程度高,能在开放场景交互中主动学习和持续学习,具有多模态感知和表达能力。
评判维度:
- 高质量:相关性、信息量、自然度分数达到8-10分(满分10分)
- 较高质量:相关性、信息量、自然度分数达到6-8分(满分10分)
- 低质量:相关性、信息量、自然度分数小于6分(满分10分)
测试方式:通过一定数量的测试者与对话系统进行充分的对话交互,在测试之前测试者被告知系统的能力范围但不告知系统的技术实现方式,最后由测试者从三个维度进行主观的总评分
RASA人工智能助手五级分类
RASA是一家Chatbot技术产品公司,按照与人交互的范围、深度和群体广度划分:
- L1:通知助手——这就是我们最熟悉的,在手机上的简单通知。但它们只能显示在类似WhatsApp这样的消息应用中。
- L2:FAQ(常见问题)助手——这是目前最常见的助手类型,它能让用户提出一个简单的问题并回复。这比带有搜索栏的FAQ解答页略有改进。唯一的区别是助手有时能通过一到两个后续问题得到加强。
- L3:上下文助手——正如大多数机器人开发人员说的那样,为用户提供一个问题输入框很少会只得到一个简单的问题和返回一个答案。这就是为什么上下文(即用户之前说过什么,何时/何地/如何说的等)很重要。考虑上下文也意味着人工智能能够理解和响应不同的和未想到的输入。
- L4:个性化助手——正如我们人类期望随着时间的推移别人能更了解自己一样,这个级别的人工智能助手将会开始做同样的事情。例如,人工智能助手将了解何时应该进行沟通,并根据此上下文主动沟通。它会记住用户的偏好并为用户提供完全个性化的界面。
- L5:自动化组织机构里的人工智能助手——最终,将有一组人工智能助手,它们了解每个客户,并最终完成公司的大部分运营:从市场、销售、人力资源到财务等。这是一个需要多年才能实现的重大飞跃,但这是我们认为的将会成为现实的愿景。
商汤AI数字人五级分类
按数字人交互实现方法和程度划分:
- L1级:主要以人工制作为主;
- L2级:依靠动捕设备采集表情、肢体等动作,例如电影动画制作;
- L3级:可依靠算法驱动口型、表情和动作,例如虚拟化身实时互动;
- L4级:实现部分智能化交互,在垂直领域创新服务模式;
- L5级:实现完全智能化交互,打造真正的个性化虚拟助手
北京交通大学/中国科学院大学人工智能系统六级分类
从信息获取方式和信息、知识产生方式的角度划分:
- L0:人工智能系统的第0级系统
可以信息输入,但不能信息输出,或者可以信息输出,但不能信息输入,或者可以创新创造,但知识库不能增长,这些在现实中不能找得对应系统范例的案例,我们将其统一划归到“人工智能系统的第0级系统”,也可以叫“人工智能系统的特异类系统”。 - L1:人工智能系统的第1级系统
从“标准智能模型”延伸的第一套规则“能不能和测试者(人类)进行信息交互”看,因为石头不能与人类进行信息交互,也许它内部有知识库,能够创新知识,或者能够与其他石头进行信息交互,但对人类测试者是黑箱,不能了解。
因此不能与测试者(人类)进行信息交互的物体和系统可以定义为“人工智能系统的第1级系统”。 - L2:人工智能系统的第2级系统
如智能冰箱,智能电视,智能微波炉,智能扫地机...虽然它们内部有或多或少的控制程序信息,但一旦出厂后,就无法再更新他们的控制程序,不能进行升级,更不会自动的学习或产生新的知识...这种系统能够与人类测试者使用者进行信息交互,但它的控制程序或知识库从诞生时就不再发生变化。这种系统,我们可以定义为“人工智能系统的第2级系统”、 - L3:人工智能系统的第3级系统
如家用电脑其内部的应用程序也可以根据不同需要不断更新升级,这种系统能够与人类测试者使用者进行信息交互,但这类系统不能与其他系统通过“云端”进行信息交互,控制程序或知识库只能接受usb,光盘等外接设备进行程序或信息升级,这种系统,我们可以定义为“人工智能系统的第3级系统”。 - L4:人工智能系统的第4级系统
如互联网的B/S架构可以通过云端进行信息共享,这样的智能系统就具备了更为强大的智力能力,如谷歌大脑,百度大脑,RoboEarth云机器人项目等,这种系统能够与人类测试者使用者进行信息交互,可以通过“云端”进行信息交互,进行程序或信息升级,但这类系统所有的信息都是直接从外部获得,其内部无法自主的,创新创造的产生新的知识,这种系统,我们可以定义为“人工智能系统的第4级系统”。 - L5:人工智能系统的第5级系统
如人类可以看作是大自然构建的特殊“人工智能系统”...可以不断的创新创造并能够识别创新创造对只身的用处,这种系统能够与人类测试者使用者进行信息交互,可以创新创造的产生新的知识,并可以通过文章,信件,电报,甚至互联网这样的“云端”进行信息交互,这种系统,我们可以定义为“人工智能系统的第5级系统”。
热门推荐
项羽在鸿门宴中占据优势,为何没有杀了刘邦?
NBA常规赛胜场数排行榜:探索NBA历史上胜场最多的球员和球队
正丁醚的制备方法详解
揭秘亚冬会开幕式上的冰灯 东北独有浪漫:最久能亮一个月
哈尔滨“冰雪节”的起源是什么?这些照片带你看
高利贷处理指南:如何计算利息及进行债务协商
如何探究纸黄金的价格趋势?这种价格趋势与哪些因素相关?
伦敦金与纸黄金:投资特点与市场适应性全解析
安全问题全球召回220万辆,如今的沃尔沃质量可靠性到底有多差
美国核动力航母,反应堆直径不足5米,4吨燃料能使用25年
做烤瓷牙种植手术时间是多久?
阳性后可以饮用气泡水饮料吗?医生的专业建议来了
擅自离岗与私自离岗的法律界定及实务分析
日语四级考试培训全攻略
100万的房子首付多少钱?购房预算规划指南
鼻涕很粘稠总是擤不完?可能是这些原因
冬季采暖设备大对比:地暖机、空气能、壁挂炉哪个更胜一筹?
胃不消化时吃什么食物?这份调理指南请收好
成人肺炎的主要症状是什么
电脑显示屏怎么调大小 电脑显示屏大小设置指南
葫芦雕刻设计方案
激昂舞蹈宣传片文案怎么写
雅典亵渎神灵案件:古代与现代的法律冲突
英冠积分榜:谢菲尔德联1:0卢顿登顶,考文垂2:1连场绝杀逼近附加赛
医院有哪些权利义务,患者有哪些权利义务
火箭上电气设备减少50%!大大提升可重复使用火箭成功率——
五脏有火,记住这10个中成药
夏天藤本月季生长状态
夏天必养的18种爬藤植物,轻松开成花瀑布,今年夏天千万别错过
什么是汽车怠速 冷车启动怠速不稳是什么原因