问小白 wenxiaobai

资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

号称“地球上最聪明的AI”，Grok 3竟答不出9.11和9.9哪个大

创作时间:

作者:

@小白创作中心

号称“地球上最聪明的AI”，Grok 3竟答不出9.11和9.9哪个大

引用

新浪网

1.

https://finance.sina.com.cn/roll/2025-02-19/doc-inekytki4993761.shtml

2月19日，马斯克及其xAI团队正式发布了备受期待的AI产品Grok 3。然而，这款被马斯克称为"地球上最聪明的AI"的产品，在实际测试中却暴露出一些令人意外的问题。

在发布会上，马斯克宣称Grok 3在数学、科学与编程的基准测试中超越了所有主流模型，并计划将其应用于SpaceX的火星任务计算，甚至预测未来三年内将实现诺贝尔奖级别的突破。

但Grok 3的实际测试表现却让人大跌眼镜。一些媒体测试了最新的Beta版Grok 3，并提出了那个经典的用来刁难大模型的问题："9.11与9.9哪个大？"遗憾的是，号称目前最聪明的Grok 3，仍然无法正确回答这个问题，被网友戏称为"天才不愿意回答简单问题"。

此外，在xAI发布会直播中，在分析游戏《流放之路2》的职业与升华效果时，Grok 3也给出了大量错误答案，并且马斯克也没有看出这些明显的错误。

尽管在官方PPT中，Grok 3在大模型竞技场Chatbot Arena中看似"遥遥领先"，但实际上其与DeepSeek R1和GPT4.0的差距仅为1%到2%。

马斯克在发布会上透露，Grok 3使用了超过20万张H100芯片，总训练小时数达到两亿小时。作为对比，DeepSeek V3仅使用2000张H800芯片训练两个月，其性能却与Grok 3相差无几。这表明，随着模型规模的不断扩大，性能提升的边际效应已经显现。

值得一提的是，马斯克在社交媒体上表示，当前的Grok 3仅是测试版，完整版将在未来几个月推出，并邀请用户反馈使用问题。

本文原文来自IT之家

热门推荐

镜子在什么地方买，家居风水与选购指南

镜子在什么地方买，家居风水与选购指南

苹果设备浏览器耗电问题解决方案

苹果设备浏览器耗电问题解决方案

空气炸锅纸使用指南：有必要用吗？怎么选才安全？

空气炸锅纸使用指南：有必要用吗？怎么选才安全？

深圳带孩子去哪个海边好玩?亲子游沙滩推荐

深圳带孩子去哪个海边好玩?亲子游沙滩推荐

最好的外墙材料，外墙哪种好

最好的外墙材料，外墙哪种好

暑期招募15天，顺丰同城青年骑士数增长77.86%

暑期招募15天，顺丰同城青年骑士数增长77.86%

自动驾驶中的视觉与毫米波雷达数据融合技术详解

自动驾驶中的视觉与毫米波雷达数据融合技术详解

毫米波雷达人体传感器原理及人体感应开关方案

毫米波雷达人体传感器原理及人体感应开关方案

东方夜雀食堂：一款独特的东方Project主题餐厅经营游戏

东方夜雀食堂：一款独特的东方Project主题餐厅经营游戏

“这既是对选民的考验，也是对TikTok的” 2024美国大选的短视频战场

“这既是对选民的考验，也是对TikTok的” 2024美国大选的短视频战场

青春与乡村同行——当大学生走进乡村

青春与乡村同行——当大学生走进乡村

如何撰写数据需求说明？

如何撰写数据需求说明？

N95和KN95口罩的区别：过滤效率、测试标准全解析

N95和KN95口罩的区别：过滤效率、测试标准全解析

2024年险资举牌上市公司达18家

2024年险资举牌上市公司达18家

美国本科药学专业有哪些选择和机会

美国本科药学专业有哪些选择和机会

让你一辈子“不生大病”的5个习惯

让你一辈子“不生大病”的5个习惯

孩子的眼睛为什么总是痒？

孩子的眼睛为什么总是痒？

老一辈的挖冬笋口诀：“上看叶梢，下观竹鞭和地面，一挖一个准”

老一辈的挖冬笋口诀：“上看叶梢，下观竹鞭和地面，一挖一个准”

往返直达无需频繁换乘，广州巴士推出10条清明祭扫专线

往返直达无需频繁换乘，广州巴士推出10条清明祭扫专线

学习哲学有什么用

学习哲学有什么用

如何在SQL中处理空值（NULL）？

如何在SQL中处理空值（NULL）？

如何理解不同行业的利润率水平？这种利润率水平受哪些因素制约？

如何理解不同行业的利润率水平？这种利润率水平受哪些因素制约？

联想电脑狂按F2不能进入BIOS设置解决办法——通过UEFI固件设置进入BIOS

联想电脑狂按F2不能进入BIOS设置解决办法——通过UEFI固件设置进入BIOS

家居照明指南：射灯与筒灯的正确使用场景

家居照明指南：射灯与筒灯的正确使用场景

打呼噜是病吗？打呼噜对我们的日常生活带来什么影响？

打呼噜是病吗？打呼噜对我们的日常生活带来什么影响？

股票的好坏主要看什么？如何评估股票的优劣及其风险？

股票的好坏主要看什么？如何评估股票的优劣及其风险？

中国手机市场低迷：外牌手机出货量大跌21%，苹果也难逃困境

中国手机市场低迷：外牌手机出货量大跌21%，苹果也难逃困境

福州烟台山：寻味美食，探秘景点，入冬两日雪景之旅

福州烟台山：寻味美食，探秘景点，入冬两日雪景之旅

市值蒸发近700亿！小米股价大跌超5%，SU7三月交付超2.9万台

市值蒸发近700亿！小米股价大跌超5%，SU7三月交付超2.9万台

防盗门的等级划分标准是什么防盗门等级甲乙丙丁怎么看

防盗门的等级划分标准是什么防盗门等级甲乙丙丁怎么看

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号