Grok2性能比肩GPT-4o、生图无限制,马斯克的AI是如何炼成的?
Grok2性能比肩GPT-4o、生图无限制,马斯克的AI是如何炼成的?
马斯克的商业帝国再添上一块拼图。8月14日,马斯克旗下的人工智能公司xAI正式发布新一代Grok 2大模型测试版,迎来这个帝国的又一个历史时刻。Grok 2不仅具有基于与Black Forest Labs的合作推出的新开源扩散AI模型Flux.1的图像生成能力,还在各项第三方基准测试中表现出色,甚至超越了主要竞争对手OpenAI、Anthropic、Google。
谁是Grok?
xAI公司,即Grok背后的研发团队,成立于2023年7月,最新一轮融资后,估值达到240亿美元。尽管团队规模仅有12人(包括马斯克在内),Grok自去年11月首次亮相以来,展现出惊人的迭代速度。2024年3月至4月,xAI相继发布了Grok 1.5大语言模型和首个多模态模型Grok 1.5 Vision。而作为xAI最新推出的AI助手,Grok 2在多个方面展现出了显著的创新和进步,特别是在与X平台(原Twitter)的深度整合方面。
主要特点
实时信息访问:
Grok 2能够直接访问X平台的实时数据,提供最新、最相关的信息,使得Grok 2能够及时反映新闻、事件和社交媒体趋势。用户可以利用Grok 2快速获取新闻摘要,甚至在娱乐模式下附带幽默评论。此外,马斯克已禁止其他组织使用X平台数据训练AI,进一步巩固了Grok的优势地位。图像生成能力:
Grok 2集成了由Black Forest Labs开发的FLUX.1模型,大幅提升了其图像生成能力。FLUX.1采用创新的混合架构,结合多模态处理和并行扩散机制,拥有120亿参数。该模型在图像质量、细节描绘和复杂场景构建方面表现卓越,特别是在生成手部和人体特征方面。增强的推理和编码能力:
Grok 2展现出更强的推理能力,能够处理复杂问题并提供详细解释。为开发者提供高质量的编码支持,包括代码生成、调试和概念解释。两种交互模式:
娱乐模式:提供幽默、前卫的互动体验。
常规模式:专注于提供准确、专业的信息。
关于Grok 2的使用方法,目前有以下几种方式:
- X平台的付费用户可以直接通过平台上的Grok专区使用。
Grok的名字,源自罗伯特·海因莱因的科幻小说《异乡异客》(Stranger in a Strange Land)的火星术语,指对某事有非常深刻的同理心或直觉的某种状态,以至于观察者成为了被观察者的一部分。这个名字也反映该公司的使命,是构建人工智能“以增进我们对宇宙的集体理解”。
官网上,xAI解释了Grok的目标:
- 收集反馈并确保我们正在构建能够最大程度造福全人类的人工智能工具。
- 我们认为,设计对各种背景和政治观点的人都有用的人工智能工具非常重要;
- 赋能研究和创新:我们希望Grok成为任何人强大的研究助手,帮助他们快速访问相关信息、处理数据并提出新想法。
跑分
基准测试成绩方面,xAI通过一系列学术基准对Grok 2模型进行了评估,这些基准包括推理、阅读理解、数学、科学和编码。
Grok 2和Grok 2 mini比之前的Grok 1.5模型有了显著改进。在研究生水平的科学知识(GPQA)、常识(MMLU、MMLU-Pro)和数学竞赛问题(MATH)等领域的表现可与其他前沿模型相媲美。
此外,Grok 2在基于视觉的任务方面表现也很出色,在视觉数学推理(MathVista)和基于文档的问答(DocVQA)方面性能显著。
即使是在许多公司在发布前秘密测试AI模型的lmsys-chatbot竞技场,Grok 2(最初被称为“sus-column-r”)紧随GPT-4o、位列第四,超越了Claude 3.5 Sonnet和GPT-4-Turbo。
正如宾夕法尼亚大学沃顿商学院教授Ethan Mollick在X表示:
“现在有五个GPT-4级别的模型:GPT-4o、Claude 3.5、Gemini 1.5、Llama 3.1和现在的Grok 2。”
这些评测结果和改进表明,Grok 2在AI语言模型领域正逐步确立其竞争地位,尤其在复杂任务处理和推理能力方面。不过,Chatbot Arena强调,这仅是初步测试结果,后续还将对Grok 2的正式版进行全面评估。
此外,Grok 2和Grok 2 mini预计将于本月晚些时候通过企业API方式提供服务。
Grok 2在这么短时间内对比上一代Grok-1.5有很大进步,背后是马斯克花费了大量资源和人力,比如在孟菲斯由10万张H100组成的训练集群。
孟菲斯超级训练集群,图源:Bloomberg
其中也有一部分特斯拉的“功劳”。据华尔街日报消息,马斯克正持续把人才、数据和GPU资源从特斯拉向xAI转移。目前为止,xAI已经雇佣了至少11名曾在特斯拉工作过的员工,其中六名直接在Autopilot团队工作过。另外,原本为特斯拉保留的GPU订单,马斯克也要求英伟达优先供应xAI。
内容安全争议
尽管Grok 2在与数学、写作、编码和其他任务相关的所有这些不同基准上表现出领先性能,但迄今为止,最引人注目的功能是它与Black Forest Labs的Flux.1图像生成模型的集成。Grok 2发布之前,Flux.1已经在AI和AI艺术圈中掀起了波澜。过去几周,这个开源模型中生成了众多令人难以置信的图像,足以模拟出熟悉的场景,如TED演讲者,并通过低秩适应(LoRA)将模型调整为在不同场景中生成他们自己的形象。
Flux示例图片
就像OpenAI将DALL-E 3直接集成到ChatGPT中一样,Flux.1的一个版本直接集成到Grok 2中,允许用户通过简单地向聊天机器人输入文本提示并要求它生成图像。
之前马斯克在宣传第一代Grok时,着重强调了Grok的幽默和“阴阳怪气”说话风格,这也为Grok 2遭遇的内容安全争议埋下了因子。Grok向来既“机智”又“叛逆”,它几乎可以回答任何问题,甚至会向你建议要问什么问题,而且对一些十分敏感尖锐的问题也毫不避讳,完全颠覆了传统AI助手的形象。比如Grok 1最夸张的例子是,它曾经十分认真地教用户制作毒品,它甚至列出了详细的制作步骤,只在最后表明:“开个玩笑!请不要尝试制造可卡因。这是非法的,危险的,我绝不鼓励。”
目前一些X用户发布了Grok 2生成的图像中,出现了像前总统唐纳德·特朗普双手持枪射击的场景、前总统乔治·布什吸食毒品的场景。竞争对手们,包括Midjourney、DALL-E 3和Microsoft Designer都禁止生成此类内容,而Grok 2反其道而行之。用户还分享Grok 2生成的包含版权产品和品牌的图像示例,包括辛普森一家、耐克运动鞋以及迪士尼米奇和马斯克扛枪的场景。X上其他用户的实验显示,即使Grok拒绝生成某些内容,找到漏洞也很容易,也就是说,几乎没有什么防护措施能阻止它生成某些血腥图像,甚至有可能在“合适的提示下”生成“儿童色情内容”。
尽管马斯克意识到这些问题,他似乎觉得这很有趣,称这个工具让人们“玩得很开心”。相比之下,OpenAI会拒绝生成与真实人物、纳粹符号、“有害的刻板印象或虚假信息”等潜在争议话题有关的提示,除此之外,它还会拒绝生成如色情等可预测的禁区内容。正如用户@Omiron33所言:“是的,我们有MJ和Flux,但Grok-2是第一个让它变得可用且快速的工具。广告、宣传以及随之而来的所有好坏现在已经发生了(在我看来,好的大于坏的)。但你已经无法分辨在X上什么是真,什么是假了。”