问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

Grok 3测评:马斯克新AI大模型的优劣分析

创作时间:
作者:
@小白创作中心

Grok 3测评:马斯克新AI大模型的优劣分析

引用
1
来源
1.
https://www.doit.com.cn/p/528617.html

2025年2月18日,特斯拉发布了其最新AI大模型Grok 3。作为OpenAI创始成员之一、前特斯拉人工智能高级总监的Andrej Karpathy,分享了他对Grok 3的早期测评体验。

优点

强大的思维模式

Grok 3在解决复杂任务时展现出强大的思维模式。例如,在处理类似《卡坦岛》游戏网页的任务时,Grok 3能够生成一个简洁且功能完整的六边形棋盘网页。不仅如此,该棋盘还能根据滑块调整环的数量,表现相当精准。与其他顶尖模型相比,Grok 3在这一类任务中的表现更加可靠。


复杂计算推理能力强

Grok 3在复杂计算推理方面表现出色。例如,在估算训练GPT-2所需的FLOP数时,许多模型都会陷入困境,但Grok 3不仅没有直接放弃,反而提供了一个相对精确的估算过程。它通过一定的推理和计算,正确估算了大概的训练量,这是许多模型无法做到的。此外,当被问及黎曼猜想这样的难题时,Grok 3也没有立即回避,而是尝试解答。

局限性

简单解码问题处理不佳

在处理一些看似简单的解码问题时,Grok 3的表现并不理想。例如,当被要求解读一个涉及Unicode变体选择符的表情符号“谜题”时,即使提供了Rust代码作为提示,Grok 3仍然无法正确解码。相比之下,DeepSeek-R1在这一方面表现稍好,能够部分解码。

图像生成不够自然

在SVG图像生成方面,Grok 3的表现仍显生硬。例如,当被要求生成一个骑着自行车的鹈鹕的SVG图像时,虽然图像中能够辨认出鹈鹕的特征,但整体效果显得不够自然,排列也不尽人意。相比之下,Claude在图像生成方面的表现略胜一筹。


© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号