马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

2024-03-18 1297阅读

温馨提示:这篇文章已超过392天没有更新,请注意相关的内容是否还可用!

前言:

         今天凌晨,马斯克xAI的大模型Grok-1的开源版本发布,其拥有314B的参数,以及8个混合专家模型(Mixture-of-Experts,MoE)。遵循Apache 2.0协议开放模型权重和架构,是迄今为止训练参数量最大的开源大语言模型。

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1


我们先来看一个我觉得非常搞笑的事情

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

一周前,马斯克就在X上发布了一则消息,表示这周xAI会发布开源版本的Grok,然后今天就如期的实现了他的承诺。搞笑的事情来了,人家前脚刚发布了大模型,OpenAI就跑到马斯克地下凑热闹。

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

然后马斯克就直接阴阳OpenAI说:请你告诉我们关于OpenAI更多可以开放的信息。众所周知,马斯克一直热衷于开源,就连特斯拉的一些关键技术都被他公开了,可见这波马斯克是直接赢麻了。

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1


由于Xai并没有公布任何关于Grok的机演示的视频。所以我们只能够简单的从其官网和GitHub上来了解到它的一些基本讯息。

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

斯坦福的研究员Andrew Kean Gao,分四个部分来梳理了Grok的架构信息:

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

Grok-1拥有314B的参数(GPT-3.5的参数为175B),包括8个混合专家的模型,其中有2个是活跃模型,拥有860亿激活参数(比Llama-2 70B还多)使用旋转嵌入,而不是固定位置嵌入。

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

①分词器词汇大小:131,072(类似于 GPT-4)2^17

②嵌入尺寸:6,144(48*128)

③64层Transformer(Sheesh)每层都有一个解码器层:多头注意块和密集块

④键值大小:128

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

①多头注意力块:有48个可查询的头与8个 表示键值 (KV),KV大小为128

②Dense 模块(密集前馈模块):

加宽因子: 8

隐藏层大小为32768

③每个token从 8 名专家中选出 2 名。

 马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

①旋转位置嵌入大小 6144,它与模型的输入嵌入大小相同

②上下文长度:8,192 个token

③精度为:BF16

放上两张Andrew Kean Gao提供的图片

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

xAI 遵守 Apache 2.0 (可商用,允许用户自由地使用、修改和分发软件)许可证来开源 Grok-1 的权重和架构。


早在2023年11月,xAI就已经推出了Grok-0(当时的训练参数为330亿),其水平基本接近LLaMA 2(70B),经过了几个月的迭代之后,进行了基准测试

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

在这些基准测试中,Grok-1 表现出色,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有使用 GPT-4 等大量训练数据和计算资源进行训练的模型才能超越它。

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

在2023年的时候Grok参加了 匈牙利全国高中数学决赛 ,Grok 以 C (59%) 的成绩通过了考试,而 Claude-2 获得了相同的成绩 (55%),GPT-4 以 68% 的成绩获得了 B。所有模型均在相同的提示下进行评估。并且Grok没有为这次评估进行针对性的调整。


具体Grok-1实测能够达到什么样的水平还尚不可知,因为如果我们自己想用的话,可能需要拥有一台搭载628G运存的GPU设备

最后附上一张,截止到文章发布前,Grok在GitHub上的互动数据

马斯克打脸成功!3140亿参数,向OpenAI开炮!地表最强开源大模型:Grok-1

VPS购买请点击我

免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们,邮箱:ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

目录[+]