马斯克20万张GPU训练的Grok 3:略强于DeepSeek?
马斯克20万张GPU训练的Grok 3:略强于DeepSeek?
北京时间2月18日中午12时30分左右,马斯克携其xAI团队发布了最新版本语言大模型Grok 3,自称是迄今“地球上最聪明的人工智能”。特斯拉前AI总监、OpenAI创始成员Andrej Karpathy作为最早拿到测试资格的人之一,很快给出了他的评测。从初步测试看,作为20万块最先进GPU训练出的性能怪兽,Grok 3固然足够先进,但在DeepSeek为整个行业祛魅之后,亦显然称不上马斯克放出的豪言那般“秒天秒地秒空气”。
图:xAI用以训练 Grok 3的由20万块GPU组成的计算中心
思维能力测试
✅ 首先,Grok 3 显然拥有最先进的思维模型(“思考”按钮),并且在“卡坦岛”问题上表现出色:
“创建一个显示六边形网格的棋盘游戏网页,就像游戏中的 Settlers of Catan 一样。每个六边形网格的编号从 1 到 N,其中 N 是六边形瓷砖的总数。使其通用,以便可以使用滑块更改“环”的数量。例如,在 Catan 中半径为 3 个六边形。请使用单个 html 页面。”
很少有模型能够可靠地做到这一点。顶级的 OpenAI 思维模型——例如 o1-pro,每月 200 美元——也能做到这一点,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 目前都没有做到这一点。
❌ 它并没有解决“表情符号之谜”问题,作者在 Unicode 变体选择器中隐藏了一个带有附加消息的笑脸,即使给出了如何解码的强烈提示。DeepSeek-R1 曾经部分解码了该消息。
❓ 它用一个非常漂亮/清晰的思路解决了几个井字棋棋盘问题,但在生成 3 个“棘手”的井字棋棋盘时失败了(生成无意义的棋盘/文本),o1 pro 也失败了。
✅ 作者上传了 GPT-2 论文并提出了一系列问题,包括简单的查找问题和复杂的计算问题。Grok 3 在不需要搜索的情况下,很好地完成了对训练 GPT-2 所需的训练 flops 数量的估算。
一个例子是 40GB 文本= 40B 字符= 40B 字节(假设为 ASCII) ~= 10B token(假设 ~4 字节/tok),在 ~10 个 epoch ~= 100B token 训练运行,1.5B 参数和 2+4=6 flops/参数/token,这是 100e9 X 1.5e9 X 6 ~= 1e21 FLOPs。Grok 3 with Thinking 很好地解决了这个问题,而 o1 pro(GPT 思维模型)失败了。
作者还发现,Grok 3 类似于 DeepSeek-R1,会尝试解决黎曼假设,而许多其他模型(o1-pro、Claude、Gemini 2.0 Flash Thinking)则直接放弃。
深度搜索能力测试
Grok 3 的深度搜索功能似乎将 OpenAI / Perplexity 所称的“深度研究”与思考结合在一起。它可以对各种研究/查找问题产生高质量的响应:
✅ “即将举行的 Apple 发布会有什么消息吗?有什么传闻吗?”
✅ “Palantir 的股票最近为何飙升?”
✅ “《白莲花 3》是在哪里拍摄的,和第一季和第二季是同一个团队拍摄的吗?”
✅ “布莱恩·约翰逊使用什么牙膏?”
❌ “单身地狱第四季演员现在在哪里?”
❌ “Simon Willison 提到他正在使用什么语音转文本程序?”
作者发现了一些问题,例如模型似乎不喜欢默认引用 X 作为来源,有时会幻觉出不存在的 URL,有时会说一些不正确的事实且没有提供引文。
例如,它告诉作者“金正洙仍然在和单身地狱第 4 季的金敏雪约会”,这肯定是完全不对的。当要求创建一份关于主要 LLM 实验室及其总资金数额和员工人数估计的报告时,它列出了 12 个主要实验室但没有列出自己(xAI)。
总体印象是,Grok 3 的深度搜索功能大约与 Perplexity DeepResearch 提供的服务相当,但还没有达到 OpenAI 最近发布的“Deep Research”的水平。
随机 LLM 陷阱测试
作者尝试了一些有趣的随机 LLM 陷阱查询:
✅ Grok 3 知道“strawberry”中有 3 个“r”,但错误地认为 LOLLAPALOOZA 中只有 3 个“L”。打开思考功能可以解决这个问题。
✅ Grok 3 告诉作者 9.11 > 9.9(其他 LLM 也一样)。但同样,打开思考就可以解决这个问题。
✅ 一些简单的谜题即使不加思考也能顺利解答,例如“莎莉(一个女孩)有 3 个兄弟。每个兄弟有 2 个姐妹。莎莉有多少个姐妹?” GPT4o 说 2(错误)。
❌ 模型的幽默感似乎没有明显改善。在要求提供笑话时,90% 都是相同的 25 个笑话的重复。
❌ 模型对“复杂的伦理问题”过于敏感,例如拒绝回答“如果这意味着拯救 100 万人免于死亡,那么错误地对某人进行性别认定是否在伦理上是合理的”。
❌ 在生成骑自行车的鹈鹕的 SVG 时,虽然鹈鹕形象不错,但仍然有些破损,Claude 的结果是最好的。
总结
就今天早上约 2 小时的快速测试而言,Grok 3 + Thinking 感觉与 OpenAI 最强模型(o1-pro,200 美元/月)的最新领域相差无几,并且略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。
考虑到该团队大约1年前从零开始,这个达到最先进领域的时间表是前所未有的。早期的 LM 竞技场结果确实令人鼓舞。
现在,祝贺 xAI 团队,他们显然拥有巨大的速度和动力,很高兴将 Grok 3 添加到“LLM 委员会”并听取它对未来的看法。
本文原文来自澎湃新闻