Grok-2重磅发布:图像生成能力惊艳,xAI能否扳回一城?
Grok-2重磅发布:图像生成能力惊艳,xAI能否扳回一城?
埃隆·马斯克最近又赚足了流量。先是与美国前总统唐纳德·特朗普在社交平台X(前身为推特)上进行了两个多小时的在线访谈直播,紧接着,他的人工智能公司xAI就对旗下的AI聊天机器人Grok进行重大升级。美国西海岸时间8月13日晚,xAI宣布Grok-2的测试版本正式上线,这也是Grok首次引入图像生成功能。
Grok-2的功能与使用体验
Grok-2是xAI推出的最先进的AI助手,具备高级的文本和视觉理解能力,并集成了来自X平台的实时信息。用户可通过X应用程序中的Grok选项卡访问Grok-2。目前,Grok-2在X上仅向Premium(每月7美元)和Premium Plus(每月14美元)的订阅用户提供服务。
登录X账号后,点击左侧导航栏的Grok,即可跳转到最新的Grok使用页面。页面新增了多个快捷prompt选项,如“帮我写一封求职信”、“告诉我今天的头条”、“用Python解决Two Sum问题”以及“推荐一个幻想RPG游戏”等。此外,Grok-2还增加了热门话题/新闻的推荐,这些内容被划分为天气、网络安全、旅游、金融、商业等多个类别。
图像生成功能测试
Grok-2的图像生成功能背后采用的是由Black Forest Lab开发的FLUX.1模型。Black Forest Lab专注于图像和视频生成技术,其旗舰模型FLUX.1在质量方面超越了Midjourney和OpenAI的图像生成器。在最近的一轮融资中,该公司筹集了3100万美元,投资者包括知名科技投资公司a16z。
测试结果
测试1:北京三里屯街景
输入提示后,大约7秒钟生成了图像。然而结果令人有些失望,画面更像是日本某个商业街,广告牌上还写满了类似日语的文字。为优化输出效果,改用中文输入提示后,画面仍然带有东京银座的风格,广告牌上的字体也介于日语和中文之间,显得不伦不类。测试2:名人肖像
要求生成一张埃隆·马斯克和唐纳德·特朗普聊天的图像,用动画片《辛普森一家》的风格。由于互联网中有大量的《辛普森一家》以及马斯克和特朗普的相关图像信息可以用于训练,这次的结果十分完美:Grok-2完美掌握了《辛普森一家》的画风,生成的图像几乎就像动画片里的截图。测试3:动漫风格
基于《瑞克和莫蒂》生成一张这两个“北美顶流”的聊天画面。结果依旧惊艳。对比ChatGPT-4o,发现ChatGPT-4o拒绝为生成图片,并说因为这不符合它的内容政策。
总体而言,Grok-2大致在10秒以内可以生成图像,且最终的呈现效果“惊艳”。
多模态能力测试
基于《向60个LLM提出20 个问题》这个在Haker News社区中广为流传帖子,测试了几个问题:
- 简单推理能力
- 题目:女孩Sally有3个兄弟,每个兄弟有2个姐妹,请问Sally 有多少个姐妹?
- 结果:ChatGPT-4o出错了,称Sally有两个姐妹,而Grok-2正确地指出Sally只有一个姐妹。
- 知识能力
- 题目:用一小段文字向高中生解释量子场论。
- 结果:Grok-2的解释更容易理解。
- 代码能力
- 题目:解释以下代码中的错误:
from time import sleep from multiprocessing.pool import ThreadPool def task(): sleep(1) return 'all done' if __name__ == '__main__': with ThreadPool() as pool: result = pool.apply_async(task()) value = result.get() print(value)
- 结果:在耗时相当的情况下,ChatGPT-4o和Grok-2都指出了上述代码中存在的问题,并给出了正确的代码。
- 创造力
- 题目:请给我讲一个关于度假的笑话
- 结果:Grok-2的笑话是这样的——“为什么手提箱要旅行?” “因为它们想从每天的<装>和<不装>中透透气。此外,它听到了海滩的呼唤,想要看看沙是不是像每个人说的那样细软。”
在周二晚间发布的新闻稿中,xAI提到,Grok-2向公众开放测试之前,它的早期版本已通过“sus-column-r”这个名称,在LMSYS聊天机器人竞技场进行测试,并且总体Elo得分优于Claude和GPT-4。
市场影响与争议
马斯克曾是OpenAI的联合创始人,但在2018年由于对公司发展方向和管理层控制权的分歧选择离开,并在特斯拉内部启动了AGI项目,最终于2023年3月创立了xAI。在今年5月的B轮融资中xAI筹集了60亿美元,估值达到240亿美元,成为全球最有价值的人工智能公司之一,仅次于OpenAI。
Grok-2的亮相可以说是让xAI和马斯克扬眉吐气的一次“复仇之战”。沃顿商学院教授、AI作家Ethan Mollick称它是目前能与GPT-4相提并论的五大模型之一,其余四个分别是GPT-4o、Claude 3.5、Gemini 1.5和Llama 3.1。不过,教授也忍不住补充了一句:“所有实验室都说还有大幅提升的空间,但我们还没看到哪个模型真正超越GPT-4……”
在HackerNews上,Grok-2的推出引发了热烈讨论。其中点赞最多的一条评论在肯定了Grok-2的表现后,直接“打脸”马斯克的口是心非——“你指责OpenAI不开源,结果xAI也一样闭源;你呼吁停止前沿AI的开发,结果xAI却照样推进;你批评OpenAI用用户的推特内容进行训练,结果xAI也在做同样的事。”
此外,虽然Grok-2在技术上确实有了长足的进步,但与竞争对手相比,它在伦理、安全和版权保护方面依然面临显著的风险和挑战,这将是xAI接下来必须解决的关键问题。本月早些时候,爱尔兰数据保护监管机构对xAI提出质疑,指其在未事先获得用户明确同意的情况下使用推文训练AI系统的行为可能违反欧盟的隐私法规。为此,xAI已同意部分暂停在欧洲的数据处理。