AI Agent成熟度评估的参考分类方法
创作时间:
作者:
@小白创作中心
AI Agent成熟度评估的参考分类方法
引用
1
来源
1.
https://www.53ai.com/news/zhishiguanli/2024071150941.html
随着生成式人工智能的快速发展,AI Agent(智能体)产品和应用已成为业界的首选方式之一。如何评价AI Agent的成熟度或智能能力级别成为各方关注的问题。本文总结了谷歌DeepMind、清华大学智能技术系统实验室、RASA人工智能助手、商汤AI数字人以及北京交通大学/中国科学院大学等五家机构的AI分级方法,为AI从业者和研究者提供参考。
谷歌DeepMind六级分类
基于能力深度(性能)和广度(通用性)将AGI分类为:
- L0:非AI
- L1:初级(有涌现能力)
- L2:中级(能力娴熟)
- L3:专家(专家能力)
- L4:大师
- L5:超人
在这个技术之上,作者提出了6种人机互动级别:
- 无AI
- AI工具
- AI顾问
- AI协作者
- AI专家
- AI智能体
清华大学智能技术系统实验室六级分类
按照场景、对话轮次、信息量、拟人化等标准,划分为L0-L5六个等级:
- L0:实际对话由人给出,系统完全没有自动对话能力;或者在任意单一场景中,系统均无法给出较高质量的对话。
- L1:能完成单一场景的较高质量对话;或虽能完成多个单一场景的较高质量对话,但无法处理场景之间的上下文依赖。
- L2:在L1的基础上,能同时完成多个场景的较高质量对话,具有处理跨场景的上下文依赖和自然切换能力,无法完成新场景较高质量的对话。
- L3:在L2的基础上,能针对大量场景开展高质量对话,在新场景上具有较高质量对话能力。
- L4:在L3的基础上,在新场景上具有高质量兑换能力,在多轮交互中拟人化(指人设、人格、情感、观点等多维度的一致性)程度较高。
- L5:在L4的基础上,在多轮交互中拟人化程度高,能在开放场景交互中主动学习和持续学习,具有多模态感知和表达能力。
评判维度:
- 高质量:相关性、信息量、自然度分数达到8-10分(满分10分)
- 较高质量:相关性、信息量、自然度分数达到6-8分(满分10分)
- 低质量:相关性、信息量、自然度分数小于6分(满分10分)
测试方式:通过一定数量的测试者与对话系统进行充分的对话交互,在测试之前测试者被告知系统的能力范围但不告知系统的技术实现方式,最后由测试者从三个维度进行主观的总评分
RASA人工智能助手五级分类
RASA是一家Chatbot技术产品公司,按照与人交互的范围、深度和群体广度划分:
- L1:通知助手——这就是我们最熟悉的,在手机上的简单通知。但它们只能显示在类似WhatsApp这样的消息应用中。
- L2:FAQ(常见问题)助手——这是目前最常见的助手类型,它能让用户提出一个简单的问题并回复。这比带有搜索栏的FAQ解答页略有改进。唯一的区别是助手有时能通过一到两个后续问题得到加强。
- L3:上下文助手——正如大多数机器人开发人员说的那样,为用户提供一个问题输入框很少会只得到一个简单的问题和返回一个答案。这就是为什么上下文(即用户之前说过什么,何时/何地/如何说的等)很重要。考虑上下文也意味着人工智能能够理解和响应不同的和未想到的输入。
- L4:个性化助手——正如我们人类期望随着时间的推移别人能更了解自己一样,这个级别的人工智能助手将会开始做同样的事情。例如,人工智能助手将了解何时应该进行沟通,并根据此上下文主动沟通。它会记住用户的偏好并为用户提供完全个性化的界面。
- L5:自动化组织机构里的人工智能助手——最终,将有一组人工智能助手,它们了解每个客户,并最终完成公司的大部分运营:从市场、销售、人力资源到财务等。这是一个需要多年才能实现的重大飞跃,但这是我们认为的将会成为现实的愿景。
商汤AI数字人五级分类
按数字人交互实现方法和程度划分:
- L1级:主要以人工制作为主;
- L2级:依靠动捕设备采集表情、肢体等动作,例如电影动画制作;
- L3级:可依靠算法驱动口型、表情和动作,例如虚拟化身实时互动;
- L4级:实现部分智能化交互,在垂直领域创新服务模式;
- L5级:实现完全智能化交互,打造真正的个性化虚拟助手
北京交通大学/中国科学院大学人工智能系统六级分类
从信息获取方式和信息、知识产生方式的角度划分:
- L0:人工智能系统的第0级系统
可以信息输入,但不能信息输出,或者可以信息输出,但不能信息输入,或者可以创新创造,但知识库不能增长,这些在现实中不能找得对应系统范例的案例,我们将其统一划归到“人工智能系统的第0级系统”,也可以叫“人工智能系统的特异类系统”。 - L1:人工智能系统的第1级系统
从“标准智能模型”延伸的第一套规则“能不能和测试者(人类)进行信息交互”看,因为石头不能与人类进行信息交互,也许它内部有知识库,能够创新知识,或者能够与其他石头进行信息交互,但对人类测试者是黑箱,不能了解。
因此不能与测试者(人类)进行信息交互的物体和系统可以定义为“人工智能系统的第1级系统”。 - L2:人工智能系统的第2级系统
如智能冰箱,智能电视,智能微波炉,智能扫地机...虽然它们内部有或多或少的控制程序信息,但一旦出厂后,就无法再更新他们的控制程序,不能进行升级,更不会自动的学习或产生新的知识...这种系统能够与人类测试者使用者进行信息交互,但它的控制程序或知识库从诞生时就不再发生变化。这种系统,我们可以定义为“人工智能系统的第2级系统”、 - L3:人工智能系统的第3级系统
如家用电脑其内部的应用程序也可以根据不同需要不断更新升级,这种系统能够与人类测试者使用者进行信息交互,但这类系统不能与其他系统通过“云端”进行信息交互,控制程序或知识库只能接受usb,光盘等外接设备进行程序或信息升级,这种系统,我们可以定义为“人工智能系统的第3级系统”。 - L4:人工智能系统的第4级系统
如互联网的B/S架构可以通过云端进行信息共享,这样的智能系统就具备了更为强大的智力能力,如谷歌大脑,百度大脑,RoboEarth云机器人项目等,这种系统能够与人类测试者使用者进行信息交互,可以通过“云端”进行信息交互,进行程序或信息升级,但这类系统所有的信息都是直接从外部获得,其内部无法自主的,创新创造的产生新的知识,这种系统,我们可以定义为“人工智能系统的第4级系统”。 - L5:人工智能系统的第5级系统
如人类可以看作是大自然构建的特殊“人工智能系统”...可以不断的创新创造并能够识别创新创造对只身的用处,这种系统能够与人类测试者使用者进行信息交互,可以创新创造的产生新的知识,并可以通过文章,信件,电报,甚至互联网这样的“云端”进行信息交互,这种系统,我们可以定义为“人工智能系统的第5级系统”。
热门推荐
黄芪酸枣仁泡水,中医教你告别心慌
心慌总发作?当心是心律失常在捣乱!
Unreal Engine vs Unity:谁将引领未来游戏引擎?
《赛博朋克2077》:未来游戏技术的巅峰之作
日语欢迎光临怎么说
古代人为什么选择闯关东?揭秘这场持续200年的历史大迁徙
山东人当初“闯关东”,为何不去富裕的南方,而是直奔酷寒的东北
当年山东人“闯关东”,为何不去富裕的南方,而是直奔寒冷的东北
湛江西到吴川公交线路全攻略:你真的会坐车吗?
远离胃溃疡 用好营养与生活习惯秘诀
重视胃肠镜检查 远离消化道疾病
【胃溃疡】上腹疼痛、火烧心或患上胃溃疡!必知9大症状+7大预防胃病方法
楼市低迷如何破局?从市场分析到创新营销全攻略
身体缺乏营养怎么办?五种科学补充方法
5G+AI赋能智慧ICU:从监测到决策的全面升级
国家卫健委力推:国产医疗巨头引领ICU设备升级
掌握高级销售技巧,轻松翻盘业绩!
房屋买卖规则,买二手房前必知哪些常识?
手痛手胀,当心腱鞘炎找上门
无线可视对讲门铃:守护家的安全
三亚亚龙湾游艇帆船摄影攻略:捕捉热带海湾的绝美瞬间
冬日三亚游:天涯小镇打卡攻略
三亚冬季度假攻略:避开高峰享温暖
小猪佩奇动画制作技术解析:如何塑造经典形象
哈尔滨731部队遗址展览馆最新预约攻略
揭秘731部队:日本侵华战争中的恶魔实验室
731部队:一段不容忘却的人类浩劫
侵华日军第731部队罪证陈列馆:以“黑盒”铭记历史
广州南站到白云机场,30分钟!广佛“大环线”要来了
科技与人文的双重关怀:养老机构如何缓解老人心理压力?