资讯

历史

科技

环境与自然

成长

游戏

财经

文学与艺术

美食

健康

家居

文化

情感

汽车

三农

军事

旅行

运动

教育

生活

星座命理

Grok-2重磅发布：图像生成能力惊艳，xAI能否扳回一城？

创作时间:

作者:

@小白创作中心

Grok-2重磅发布：图像生成能力惊艳，xAI能否扳回一城？

引用

CSDN

https://blog.csdn.net/YMPzUELX3AIAp7Q/article/details/141272398

埃隆·马斯克最近又赚足了流量。先是与美国前总统唐纳德·特朗普在社交平台X（前身为推特）上进行了两个多小时的在线访谈直播，紧接着，他的人工智能公司xAI就对旗下的AI聊天机器人Grok进行重大升级。美国西海岸时间8月13日晚，xAI宣布Grok-2的测试版本正式上线，这也是Grok首次引入图像生成功能。

Grok-2的功能与使用体验

Grok-2是xAI推出的最先进的AI助手，具备高级的文本和视觉理解能力，并集成了来自X平台的实时信息。用户可通过X应用程序中的Grok选项卡访问Grok-2。目前，Grok-2在X上仅向Premium（每月7美元）和Premium Plus（每月14美元）的订阅用户提供服务。

登录X账号后，点击左侧导航栏的Grok，即可跳转到最新的Grok使用页面。页面新增了多个快捷prompt选项，如“帮我写一封求职信”、“告诉我今天的头条”、“用Python解决Two Sum问题”以及“推荐一个幻想RPG游戏”等。此外，Grok-2还增加了热门话题/新闻的推荐，这些内容被划分为天气、网络安全、旅游、金融、商业等多个类别。

图像生成功能测试

Grok-2的图像生成功能背后采用的是由Black Forest Lab开发的FLUX.1模型。Black Forest Lab专注于图像和视频生成技术，其旗舰模型FLUX.1在质量方面超越了Midjourney和OpenAI的图像生成器。在最近的一轮融资中，该公司筹集了3100万美元，投资者包括知名科技投资公司a16z。

测试结果

测试1：北京三里屯街景
输入提示后，大约7秒钟生成了图像。然而结果令人有些失望，画面更像是日本某个商业街，广告牌上还写满了类似日语的文字。为优化输出效果，改用中文输入提示后，画面仍然带有东京银座的风格，广告牌上的字体也介于日语和中文之间，显得不伦不类。
测试2：名人肖像
要求生成一张埃隆·马斯克和唐纳德·特朗普聊天的图像，用动画片《辛普森一家》的风格。由于互联网中有大量的《辛普森一家》以及马斯克和特朗普的相关图像信息可以用于训练，这次的结果十分完美：Grok-2完美掌握了《辛普森一家》的画风，生成的图像几乎就像动画片里的截图。
测试3：动漫风格
基于《瑞克和莫蒂》生成一张这两个“北美顶流”的聊天画面。结果依旧惊艳。对比ChatGPT-4o，发现ChatGPT-4o拒绝为生成图片，并说因为这不符合它的内容政策。

总体而言，Grok-2大致在10秒以内可以生成图像，且最终的呈现效果“惊艳”。

多模态能力测试

基于《向60个LLM提出20 个问题》这个在Haker News社区中广为流传帖子，测试了几个问题：

简单推理能力

题目：女孩Sally有3个兄弟，每个兄弟有2个姐妹，请问Sally 有多少个姐妹？
结果：ChatGPT-4o出错了，称Sally有两个姐妹，而Grok-2正确地指出Sally只有一个姐妹。

知识能力

题目：用一小段文字向高中生解释量子场论。
结果：Grok-2的解释更容易理解。

代码能力

题目：解释以下代码中的错误：

from time import sleep
from multiprocessing.pool import ThreadPool

def task():
    sleep(1)
    return 'all done'

if __name__ == '__main__':
    with ThreadPool() as pool:
        result = pool.apply_async(task())
        value = result.get()
        print(value)

结果：在耗时相当的情况下，ChatGPT-4o和Grok-2都指出了上述代码中存在的问题，并给出了正确的代码。

创造力

题目：请给我讲一个关于度假的笑话
结果：Grok-2的笑话是这样的——“为什么手提箱要旅行？” “因为它们想从每天的<装>和<不装>中透透气。此外，它听到了海滩的呼唤，想要看看沙是不是像每个人说的那样细软。”

在周二晚间发布的新闻稿中，xAI提到，Grok-2向公众开放测试之前，它的早期版本已通过“sus-column-r”这个名称，在LMSYS聊天机器人竞技场进行测试，并且总体Elo得分优于Claude和GPT-4。

市场影响与争议

马斯克曾是OpenAI的联合创始人，但在2018年由于对公司发展方向和管理层控制权的分歧选择离开，并在特斯拉内部启动了AGI项目，最终于2023年3月创立了xAI。在今年5月的B轮融资中xAI筹集了60亿美元，估值达到240亿美元，成为全球最有价值的人工智能公司之一，仅次于OpenAI。

Grok-2的亮相可以说是让xAI和马斯克扬眉吐气的一次“复仇之战”。沃顿商学院教授、AI作家Ethan Mollick称它是目前能与GPT-4相提并论的五大模型之一，其余四个分别是GPT-4o、Claude 3.5、Gemini 1.5和Llama 3.1。不过，教授也忍不住补充了一句：“所有实验室都说还有大幅提升的空间，但我们还没看到哪个模型真正超越GPT-4……”

在HackerNews上，Grok-2的推出引发了热烈讨论。其中点赞最多的一条评论在肯定了Grok-2的表现后，直接“打脸”马斯克的口是心非——“你指责OpenAI不开源，结果xAI也一样闭源；你呼吁停止前沿AI的开发，结果xAI却照样推进；你批评OpenAI用用户的推特内容进行训练，结果xAI也在做同样的事。”

此外，虽然Grok-2在技术上确实有了长足的进步，但与竞争对手相比，它在伦理、安全和版权保护方面依然面临显著的风险和挑战，这将是xAI接下来必须解决的关键问题。本月早些时候，爱尔兰数据保护监管机构对xAI提出质疑，指其在未事先获得用户明确同意的情况下使用推文训练AI系统的行为可能违反欧盟的隐私法规。为此，xAI已同意部分暂停在欧洲的数据处理。