Grok ai——很牛叉的ai工具Grok-1大模型
Grok
Grok 是一款仿照《银河系漫游指南》(Hitchhiker's Guide to the Galaxy)设计的人工智能。它可以回答几乎任何问题,更难的是,它甚至可以建议你问什么问题!
Grok 是一个仿照《银河系漫游指南》设计的人工智能,几乎能回答任何问题,更难的是,它甚至能建议你问什么问题!
Grok 在回答问题时略带诙谐,有反叛的倾向,所以如果你讨厌幽默,请不要使用它!
Grok 的一个独特而基本的优势是,它可以通过 𝕏 平台实时了解世界。它还能回答被大多数其他人工智能系统拒绝的辛辣问题。
Grok 仍然是一个非常早期的测试版产品--我们通过 2 个月的训练已经做到了最好--因此,希望在您的帮助下,它每周都能快速改进。
我们为什么要创建 Grok
在 xAI,我们希望创造人工智能工具,帮助人类寻求理解和知识。
通过创建和改进 Grok,我们的目标是
收集反馈,确保我们打造的人工智能工具能够最大限度地造福全人类。我们认为,设计出对各种背景和政治观点的人都有用的人工智能工具非常重要。我们还希望在遵守法律的前提下,通过我们的人工智能工具增强用户的能力。我们与 Grok 合作的目标就是探索并公开展示这种方法。
增强研究和创新能力:我们希望 Grok 成为任何人的强大研究助手,帮助他们快速获取相关信息、处理数据并提出新想法。
我们的终极目标是让我们的人工智能工具帮助人们追求理解。
通往 Grok-1 的旅程
为 Grok 提供动力的引擎是 Grok-1,这是我们在过去四个月中开发的前沿 LLM。在这段时间里,Grok-1 经历了多次迭代。
在发布 xAI 之后,我们用 330 亿个参数训练了一个 LLM 原型(Grok-0)。这个早期模型在标准 LM 基准上接近 LLaMA 2 (70B) 的能力,但只使用了一半的训练资源。在过去的两个月中,我们在推理和编码能力方面取得了重大改进,最终开发出了 Grok-1,这是一款功能更为强大的先进语言模型,在 HumanEval 编码任务中达到了 63.2%,在 MMLU 中达到了 73%。
为了了解我们通过 Grok-1 所取得的能力提升,我们使用了一些旨在衡量数学和推理能力的标准机器学习基准进行了一系列评估。
GSM8k:初中数学单词问题(Cobbe 等人,2021 年),使用思维链提示。
MMLU:多学科选择题,(Hendrycks 等人,2021 年),提供 5 个背景下的例子。
HumanEval:Python 代码完成任务,(Chen 等人,2021 年),零镜头评估通过@1。
MATH:用 LaTeX 编写的初中和高中数学问题,(Hendrycks 等人,2021 年),提供固定的 4 次提示。
在这些基准测试中,Grok-1 显示出了强劲的性能,超过了其计算类中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 这样使用大量训练数据和计算资源进行训练的模型才能超越它。这展示了我们 xAI 在高效训练 LLM 方面取得的快速进展。
由于这些基准可以在网上找到,我们不能排除我们的模型是无意中在这些基准上训练出来的,因此我们在收集数据集后,根据 5 月底公布的 2023 年匈牙利全国高中数学期末考试成绩,对我们的模型(以及 Claude-2 和 GPT-4)进行了人工评分。Grok 以 C 级(59%)通过考试,Claude-2 也取得了同样的成绩(55%),而 GPT-4 则以 68% 的成绩获得了 B 级。所有模型都是在温度 0.1 和相同提示下进行评估的。必须指出的是,我们没有为这次评估做任何调整。这个实验是对我们的模型从未明确调整过的数据集进行的 "真实 "测试。
我们在模型卡中概述了 Grok-1 的重要技术细节。
xAI 的工程设计
在深度学习研究的前沿领域,可靠的基础设施必须与数据集和学习算法一样精心打造。为了创建 Grok,我们基于 Kubernetes、Rust 和 JAX 构建了一个定制的训练和推理堆栈。
LLM 训练就像一列轰鸣前行的货运列车;如果其中一节车厢出轨,整列列车就会被拖离轨道,很难再直立起来。GPU 出现故障的原因有很多:制造缺陷、连接松动、配置不正确、存储芯片退化、偶尔的随机位翻转等等。在训练时,我们会连续数月在数以万计的 GPU 上同步计算,所有这些故障模式都会因规模而变得频繁。为了克服这些挑战,我们采用了一套定制的分布式系统,确保立即识别并自动处理每一种类型的故障。在 xAI,我们将最大限度地提高每瓦特的有用计算能力作为工作重点。在过去的几个月里,我们的基础设施使我们能够最大限度地减少停机时间,即使在硬件不可靠的情况下也能保持较高的模型翻转利用率(MFU)。
事实证明,Rust 是构建可扩展、可靠和可维护基础设施的理想选择。它提供了高性能、丰富的生态系统,并能防止通常在分布式系统中发现的大多数错误。鉴于我们的团队规模较小,基础架构的可靠性至关重要,否则,维护工作就会阻碍创新。Rust 为我们提供了信心,任何代码修改或重构都有可能产生可运行的程序,只需最少的监督就能运行数月。
现在,我们正在为模型能力的下一次飞跃做准备,这将需要在数以万计的加速器上可靠地协调训练运行,运行互联网规模的数据管道,并在 Grok 中构建新型功能和工具。如果您对此感到兴奋,请在此申请加入我们的团队。
xAI 的研究
我们让 Grok 能够访问搜索工具和实时信息,但与所有基于下一个标记词预测训练的 LLM 一样,我们的模型仍可能生成错误或矛盾的信息。我们认为,实现可靠的推理是解决当前系统局限性的最重要研究方向。在此,我们想重点介绍一下我们在 xAI 最感兴趣的几个有前途的研究方向:
在工具协助下进行可扩展的监督。人工反馈至关重要。然而,提供一致而准确的反馈可能具有挑战性,尤其是在处理冗长的代码或复杂的推理步骤时。人工智能可以通过查找不同来源的参考资料、使用外部工具验证中间步骤以及在必要时寻求人类反馈,来协助进行可扩展的监督。我们的目标是在模型的帮助下,最有效地利用人工智能导师的时间。
与形式验证相结合,实现安全性、可靠性和落地性。为了创建能够对现实世界进行深入推理的人工智能系统,我们计划在不那么模糊和更可验证的情况下开发推理技能。这样,我们就可以在没有人类反馈或与现实世界互动的情况下评估我们的系统。这种方法的一个主要近期目标是为代码的正确性提供形式上的保证,尤其是在人工智能安全性的形式可验证方面。
长语境理解与检索。在特定情境中有效发现有用知识的训练模型是生产真正智能系统的核心。我们正在研究能够在需要时发现和检索信息的方法。
对抗鲁棒性。对抗性实例表明,优化者可以轻易地利用人工智能系统的漏洞,无论是在训练期间还是在服务期间,从而导致它们犯下严重错误。这些漏洞是深度学习模型长期存在的弱点。我们对提高 LLM、奖励模型和监控系统的鲁棒性特别感兴趣。
多模态能力。目前,Grok 还没有其他感官,如视觉和音频。为了更好地为用户提供帮助,我们将为 Grok 配备这些不同的感官,以实现更广泛的应用,包括实时互动和帮助。
我们相信,人工智能蕴含着巨大的潜力,能够为社会贡献重要的科学和经济价值,因此我们将努力开发可靠的保障措施,防止灾难性的恶意使用。我们相信,我们将尽最大努力确保人工智能始终是一股向善的力量。
如果你和我们一样乐观,并希望为我们的使命做出贡献,请在此申请加入我们的团队。
早期使用 Grok
我们在美国提供数量有限的用户试用我们的 Grok 原型,并提供宝贵的反馈意见,以帮助我们在更广泛发布之前改进其功能。您可以在这里加入 Grok 候补名单。这次发布只是 xAI 迈出的第一步。展望未来,我们有一个令人兴奋的路线图,并将在未来几个月推出新的功能和特性。
截至目前, 仅当您是 X Premium+ 订阅者时才可以免费使用 Grok AI。如果您有这样的 X 个人资料,请前往 Grok 的网页 并单击 使用 X 登录 按钮。