马斯克Grok大模型开源 参数量3410亿性能仍不及GPT-4,需8张H100才能运行

马斯克Grok大模型开源 参数量3410亿性能仍不及GPT-4,需8张H100才能运行

说到做到,此前预告将开源大模型的马斯克付诸行动。美当地时间3月17日,马斯克旗下AI公司xAI正式宣布开源首款大模型Grok-1。

xAI在官方博客文章中宣布,将发布Grok-1的基础模型权重和网络架构。“这是我们的大型语言模型,拥有3140亿参数,由xAI从零开始训练。”

这是马斯克对闭源的OpenAI的又一次反击,也意味着马斯克正式入局越发激烈的开源之战。

迄今为止最大的开源模型,测试性能不及GPT-4

Grok-1遵照Apache 2.0协议开放模型权重和架构,其开源意味着模型的权重和网络架构变得公开可用。

模型的权重主要指模型的参数,一般来说,参数越多,模型越复杂,性能也就更好。具有3140亿参数的Grok-1是迄今为止参数规模最大的开源大语言模型,远超OpenAI GPT-3.5的1750亿参数(未开源)。

同时,Grok-1远超其它开源模型,包括Meta开源的700亿参数的Llama 2,Mistral开源的120亿参数的8x7B,谷歌开源的最高70亿参数的Gemma,也远高于国内阿里、智谱、百川等公司开源的大模型。

Grok-1的架构是xAI在2023年10月使用自定义训练堆栈在JAX和Rust上从头开始训练,采用了混合专家(Mixture-of-Experts,MOE)架构,同时利用了25%的权重来处理给定的标记,从而提高了大模型的训练和推理效率。

xAI还表示,Grok-1基础模型基于大量文本数据训练,未针对特定任务进行微调。但Grok并未公布其训练数据的全部语料库,这也意味着用户无法了解模型的学习来源,因此在开源程度上不如 Pythia、Bloom、OLMo等附带可复现的数据集的模型。

目前,Grok-1的源权重数据大小大约为300GB,其发布版本所使用的训练数据来自截至2023年第三季度的互联网数据和xAI的AI训练师提供的数据。

在xAI将Grok-1上传到开源社区Github后,任何个人或企业都可以下载其代码,获取Grok的权重和其他相关文档,并使用副本进行各种应用,包括商业用途。

根据Grok-1遵循的Apache许可证2.0,其可以被允许商业使用、修改和分发,但不能注册商标,使用者也不会收到任何责任或保证,但使用者必须复制原始许可证和版权声明,并声明他们所做的任何更改。

项目说明强调,Grok-1需要有足够GPU内存的机器才能使用示例代码测试模型。有网友分析称,这可能需要一台有628 GB GPU内存的机器,即需要8张H100。

Grok-1在Github上也受到开发者比较大的关注,在发布大半天后已获得超14万颗星。但也有社区开发者对其开源的目的表达了疑惑:xAI团队想利用Grok模型来公关,还是就是想为社区做贡献?

此次xAI并未公布Grok-1更多的模型细节,也没有给出Grok-1的最新测试成绩。去年11月,xAI正式推出Grok聊天机器人,背后正是基于用时4个月研发的大模型Grok-1,其由最初训练的330亿参数的原型Grok-0进化而来。

该早期模型LM基准上接近LLaMA 2(70B)能力,但仅使用其一半的训练资源,随后xAI团队在推理和编码能力持续优化后最终推出了Grok-1。

根据xAI当时公布的Gro-1大模型在衡量数学和推理能力的标准基准测试中,其在GSM8k、MMLU、HumanEval、MATH等测试集上均超过了GPT-3.5、Llama 2(70B)及Inflection-1,但不及谷歌的PaLM 2、Claude2和GPT-4,尤其是在GSM8k上远不如GPT-4达到92%的表现。

马斯克Grok大模型开源 参数量3410亿性能仍不及GPT-4,需8张H100才能运行

Grok可以访问搜索工具和实时信息,能从推特实时获取信息,但不具备独立搜索网络的能力,同时跟所有大语言模型一样,Grok-1仍具备大模型的通病——幻觉问题。

因此,xAI认为,解决当前系统局限性最重要的方向,就是实现可靠的推理,包括开发可扩展的监督、长上下文理解和检索、多模态功能等。相较GPT已具备语音、图像、视频等功能,Grok还未就多模态进行布局。

再次站到OpenAI对立面,马斯克曾称开源落后闭源6-12月

Grok-1开源是马斯克此前预告的既定动作。马斯克上周宣布,将开放Grok的源代码。这也意味着,马斯克将正式入局美国大模型的开源之战,并再次站到OpenAI的对立面。

在开源Grok-1后,马斯克就在评论区对ChatGPT回怼到“我们想要了解OpenAI更多的Open部分”。而此次开源也是在马斯克对OpenAI提起诉讼后不久做出,马斯克认为OpenAI违反了初始的非盈利开源的合同,是为了最大利润而不是为了人类利益开发技术,对此提出了多项索赔要求,并要求OpenAI恢复开源。

OpenAI随后对马斯克的诉讼进行了首次司法回应,称马斯克试图通过法律手段迫使OpenAI按照他虚构的合同条款来重组和部署其技术,并认为马斯克可能会利用这起诉讼获取OpenAI的专有记录和技术。

马斯克最初是OpenAI的捐赠人,但后来在争夺控制权的过程中出局。随着OpenAI成立有限盈利实体开始从微软等机构融资,马斯克持续多年在批评OpenAI缺乏透明度,并在去年7月成立了xAI,此次开源也被视为马斯克对OpenAI的又一次复仇。

不过,从前述披露的信息来看,xAI目前在技术方面仍整体不及OpenAI,其想要靠开源对抗OpenAI仍有难度。目前,业内对开源与闭源谁能实现领先也存在不少争议。

开源中国董事长马越此前对搜狐科技表示,开源本身是一种研发模式,也是一种竞争策略,为很多追赶者提供了超越的可能,但开源也要看模型的技术水平,绝对领先的技术不太可能会开源。

目前,有观点认为,开源很难追上闭源,甚至差距会扩大。但也有不同观点,比如市场派代表——金沙江创投主管合伙人朱啸虎就认为,现在开源落后闭源一代,但随着闭源技术迭代曲线放缓,开源一定会追上闭源。

同时,不少人也认为开源会导致很多安全问题,比如“坏人”可以看到源代码从而从事违法行为。不过,马斯克是坚定的开源支持者。他曾表示,开源是人工智能发展的重要途径,通过共享代码和知识,可以推动技术的快速创新和进步。

在去年11月英国举办的全球首届人工智能安全峰会上,马斯克也承认,开源算法和数据通常滞后于闭源6-12个月,如果闭源滞后,差距可能会进一步扩大,但开源AI最终也会接近人类智能水平。

“开源在某种程度上是不可避免的,因为至少可以看到发生了什么,但闭源就不知道发生了什么。”因此,马斯克也非常支持对AI进行监管。随着Grok-1开源,xAI成为对抗闭源的OpenAI的开源大军中的一员,当然也会和开源的Meta、谷歌等形成竞争。

此前,有媒体报道称,xAI在洽谈筹集高达60亿美元的资金,估值可能达到200亿美元,后来马斯克辟谣称没这回事。如果xAI要想借助开源追上OpenAI,恐怕还需要更多投入。

相关文章