问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

AI大模型性能最新排名：从对话到编程全方位对比

创作时间:

作者:

@小白创作中心

AI大模型性能最新排名：从对话到编程全方位对比

引用

CSDN

1.

https://blog.csdn.net/2301_78144888/article/details/142202062

在AI大模型快速发展的今天，选择合适的大模型对于开发AI产品至关重要。本文将从对话能力、推理能力、编程能力、上下文窗口、价格、输出速度等多个维度，对主流AI大模型的性能进行全方位的对比和排名，帮助读者更好地了解各模型的特点和适用场景。

对话能力

Chatbot Arena是一个基于众包的大型模型评测基准。它为开发者和研究者提供了一个平台，在这里可以发布、测试和比较各种类型的聊天机器人，下面是根据Chatbot Arena的榜单排名。我们可以看出前三名是：GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro。

推理能力

MMLU（大规模多任务语言理解）是一项综合评估，MMLU 涵盖基础数学、美国历史、计算机科学和法律等 57 项任务。它需要模型来展示广泛的知识基础和解决问题的能力，下面是AI大模型根据MMLU的最新排名。我们可以看出前三名是GPT-4o、Claude 3.5 Sonnet、Claude 3 Opus。

编程能力

HumanEval是一个用于评估代码生成模型性能的数据集，包含164个编程问题，每个问题都包括一个函数签名、文档字符串（docstring）、函数体以及几个单元测试。这些问题涵盖了语言理解、推理、算法和简单数学等方面。下面是根据HumanEval排名的最新榜单。前三名是：Claude 3.5 Sonnet、GPT-4o、GPT-4。

上下文窗口

上下文窗口指的是输入和输出标记的最大组合数量。当涉及到 RAG（检索增强生成）和大模型的工作流时，更大的上下文窗口变得非常重要，这些工作流通常需要对大量数据进行推理和信息检索。我们可以看到前三名是：Gemini 1.5 Pro、Claude 3.5 Sonnet、Claude 3 Opus。

输入输出的价格

每百万tokens的美元价格，排名越靠前越便宜。在这里我们可以看到国内的DeepSeek大模型价格最低，价格最高的是GPT-4。

输出速度

模型生成token时每秒输出的token数量。在这里我们可以看到输出速度最快的是Llama 3（8B），输出最慢的是DeepSeek-Coder-V2。

随时间变化的输出速度

我们从图中可以看出Llama3 Instruct（8B）的输出速度一直保持较高水平，不过最近有点下降。

延迟

延迟的定义为发送 API 请求后，接收到第一个token所需的时间。在图中我们可以看到Mistral 7B的延迟最低，Claude 3 Opus的延迟最高。

随时间变化的延迟

从图中我们可以清晰地看出Claude 3 Opus的延迟一直较高，而Gemini 1.5 Pro的延迟有明显的改善。其他大模型的延迟都较低。

总响应时间

总响应时间为接收 100 个tokens所需的时间。根据延迟（接收第一个token的时间）和输出速度（每秒输出token数量）估算得出。从图中我们可以看出Llama3（8B）的总响应时间最短，而DeepSeek-Coder-V2的总响应时间最长。

大模型各方面的性能对我们开发AI产品的应用场景至关重要，对大模型各方面的性能进行测评可以帮助我们选择合适的选择合适的大模型和API提供商。无论是优化质量、提升速度、控制成本，还是需要特定的应用能力，这些大模型都为我们提供了丰富的选择。

热门推荐

深入解析潜望长焦与直立长焦：两者有何不同？

深入解析潜望长焦与直立长焦：两者有何不同？

配眼镜省钱实用指南：多度数适配镜片推荐攻略

配眼镜省钱实用指南：多度数适配镜片推荐攻略

扁平疣：皮肤的“小麻烦”，你了解多少？

扁平疣：皮肤的“小麻烦”，你了解多少？

计划变更不失控：项目进度管理中的动态调整策略

计划变更不失控：项目进度管理中的动态调整策略

肠躁症救星？低FODMAP饮食大解密

肠躁症救星？低FODMAP饮食大解密

JS水泥基复合防水涂料调色指南

JS水泥基复合防水涂料调色指南

王艺迪为何能反败为胜、拿下张本美和？三方面做出改进

王艺迪为何能反败为胜、拿下张本美和？三方面做出改进

老抽会过期吗？酱油保质期的秘密

老抽会过期吗？酱油保质期的秘密

海底捞人力资源怎么样

海底捞人力资源怎么样

黄江这片金色花海火出圈了，周边这些宝藏打卡点也很“可”

黄江这片金色花海火出圈了，周边这些宝藏打卡点也很“可”

普及AED，如何可用會用管用（人民眼·健康中國行動）

普及AED，如何可用會用管用（人民眼·健康中國行動）

华为自研芯片为何价格居高？解密研发、生产与市场挑战

华为自研芯片为何价格居高？解密研发、生产与市场挑战

饺子皮也能做出盛开的“玫瑰花”，营养丰富，孩子喜欢的不得了！

饺子皮也能做出盛开的“玫瑰花”，营养丰富，孩子喜欢的不得了！

超级好用的单词记忆方法技巧，迅速记牢英语单词的汉语意思！

超级好用的单词记忆方法技巧，迅速记牢英语单词的汉语意思！

一群留岗外卖骑手的新年账单

一群留岗外卖骑手的新年账单

心脏搭桥术后注意事项有哪些

心脏搭桥术后注意事项有哪些

如何查询医生资质？四种实用方法助你选择靠谱的眼科和口腔科医生

如何查询医生资质？四种实用方法助你选择靠谱的眼科和口腔科医生

白细胞过低会有什么危险？

白细胞过低会有什么危险？

探索黑洞的神秘面纱——我们能从这些宇宙奇迹中学到什么？

探索黑洞的神秘面纱——我们能从这些宇宙奇迹中学到什么？

汽车轮胎更换全指南

汽车轮胎更换全指南

贝伐珠单抗的副作用有哪些

贝伐珠单抗的副作用有哪些

ECC(椭圆曲线加密算法)公私钥生成方法

ECC(椭圆曲线加密算法)公私钥生成方法

传统文化拥抱创新表达陕西省美术博物馆首个卡通IP形象“小美”亮相

传统文化拥抱创新表达陕西省美术博物馆首个卡通IP形象“小美”亮相

鄂尔多斯机场出行全攻略

鄂尔多斯机场出行全攻略

在再审时被改判无罪的法律适用与程序保障

在再审时被改判无罪的法律适用与程序保障

百万骑手上社保挑战不止多花钱

百万骑手上社保挑战不止多花钱

怎么样可以快速解决耳鸣

怎么样可以快速解决耳鸣

如果你还傻傻分不清隼、鹰、雕

如果你还傻傻分不清隼、鹰、雕

这些英语表达课本没教，但你每天都在用！

这些英语表达课本没教，但你每天都在用！

鱼缸磕碰损坏后的多种修补方法

鱼缸磕碰损坏后的多种修补方法

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号