马斯克-xAI大模型Grok-1开源 | 曲速科技【官网】定制人工智能核心芯片

3月18日，埃隆·马斯克的人工智能初创公司xAI迈出了重大一步，正式开源其大型语言模型 (LLM) Grok。

这一举措无疑为人工智能领域掀起了新一轮的浪潮。Grok作为领先的人工智能大模型，其强大的学习和处理能力让人们对未来充满期待。开源后，全球开发者将有机会共同参与到Grok的改进和优化中，共同推动人工智能技术的发展。这一创新性的开放举措，不仅将加速人工智能技术的普及和应用，也将为科技创新带来更广阔的可能性。

此前3月11日，马斯克就曾在社交平台表示xAI将开放聊天机器人Grok的源代码，Meta的CEO扎克伯格也在社交平台上发表评论表示支持。

据官网信息了解，Grok-1是拥有3140亿参数的混合专家（Mixture-of-Experts，MOE）模型，在目前已开源的大模型中拥有最高参数,远超OpenAI GPT-3.5的1750亿。

Grok-1的诞生：

2023年11月，xAI官网发布文章，公布了Grok的研究进度。

Grok是仿照《银河系漫游指南》设计的，几乎可以回答任何问题，它甚至可以建议要问什么问题。作为OpenAI的ChatGPT和谷歌AI的有力竞争者，马斯克将Grok定位为比其他谷歌AI更为幽默的、更不受审查的替代方案。“Grok回答问题时略带机智和叛逆，所以如果你讨厌幽默，请不要使用它”。据官方了解，Grok不仅具备强大的智能功能，更在交互中展现出前所未有的幽默感。无论你是寻找解答，还是渴望聊天，Grok都能让你感受到AI的另一种魅力。

早期xAI团队也训练了一个330亿参数的LLM原型（Grok-0），在标准LM基准测试上接近LLaMA 2（70B）功能，但只使用了一半的训练资源。随后团队在编码及推理方面有重大改进突破，推出了Grok-1，作为一款功能更为强大的SOTA语言模型，在HumanEval编码任务中实现了63.2%，在MMLU上实现了73%。

模型信息：

l 基于大量文本数据训练的基础模型，未针对任何特定任务进行微调。

l 314B参数的混合专家模型，25%的权重对给定token有效。

l xAI于2023年10月在JAX和Rust上使用自定义训练堆栈从头开始训练。

混合专家（MOE）机制在Grok-1中通过8个混合专家（其中2个为活跃专家）来实现，具体来说，Grok-1中的每个混合专家负责处理特定类型的数据或任务，而活跃专家则根据当前任务的需求选择最合适的混合专家进行处理。

Grok-1的发布标志着xAI在AI基础模型领域的又一重要突破。不同于其他模型，Grok-1在预训练阶段结束后即作为原始基础模型检查点对外发布，未进行针对对话等具体应用的微调。这一特性使Grok-1更具灵活性与拓展性，为开发者提供了广阔的发展空间。xAI团队运用JAX和Rust编程语言打造的Grok-1，不仅展现他们在AI技术上的深厚实力，也为全球AI研究者和开发者提供了强大的支持。遵循Apache 2.0开源许可协议发布的Grok-1，将促进AI技术的开放共享与协同发展，共同推进AI领域的繁荣与进步。

为了验证Grok-1的能力，xAI团队使用了一些衡量数学和推理能力的标准机器学习基准进行了一系列评估。从整体测试效果来看，Grok-1在各个测试集中呈现的效果要比GPT-3.5、LLAMA2（70B）和Inflection-1好，虽与Claude2和GPT-4还是有不小的差距，总体来讲还是存在强大潜力，期待人工智能的产业发展有更大突破。

尽管参数量大，但xAI并没有在发布的内容中透露Grok当前版本的具体测试成绩，对于其真实水平，目前还难以判断。据估计Grok-1需要约628GB GPU内存才能勉强运行，从短期来看，普通开发者几乎不可能在本地尝试Grok-1，对于云服务用户来说，可能至少需要8张80GB显存的A100或 H100 GPU。

“开源”“闭源”之争

xAI官方刚发布消息，便引起了全球范围内的关注，ChatGPT官方与马斯克在某知名平台上进行了“互动”，更是引发了人们对人工智能领域未来的热议。而此前马斯克对OpenAI、奥特曼提起诉讼，称该公司违背了最初对公共开源通用人工智能的承诺，这一事件不仅揭示了人工智能行业的深层次矛盾，也让我们对人工智能的未来发展产生了更多的思考和期待。

一方面，这次事件让我们看到了人工智能技术的快速发展和广泛应用所带来的问题，如数据安全、隐私保护等。另一方面，这次事件也让我们看到了人工智能领域内部的矛盾和分歧，如何平衡技术创新与道德伦理之间的关系，成为了一个亟待解决的问题。

在这场人工智能的马拉松赛上，每一位参与者都在不断追求着技术的极限，每一次的突破都如同璀璨的星辰，照亮着人类无尽探索AI世界的大道。

在数字化时代，数据成为了新的石油，而人工智能则是驱动这一切的引擎。大模型作为人工智能的核心技术之一，其开源已经成为一种不可逆转的趋势。在这个背景下，大模型的开源不仅是一种技术趋势，更是一种民主的体现。它打破了技术壁垒，让更多的人能够接触到前沿的技术知识，促进了技术的共享与创新。基础版本的开源，让每一个热爱技术的人都有机会可以接触到最先进的知识，实现技术的民主化，而高阶版本的闭源，则确保了技术的持续创新和核心竞争力的保护。这种基础开放、高阶保护的格局，是大模型开源的最佳实践，它不仅能够吸引更多的开发者参与技术的研发，还能为整个社会带来更大的技术红利。

尽管开源是大模型的发展大势，但闭源也有其不可替代的商业价值与意义，准确来说，闭源的安全性可靠性更高，长期服务能力更强。开源和闭源犹如两条并行不悖的航船，各自驶向远方。开源，以其开放与共享，汇聚全球的智慧与力量，共同书写协作创新的传奇；闭源，凭借其严格的保密与管控，守护着技术的独立与深度。开源与闭源，虽然在表面上看起来有所对立，但实际上是互补共生的关系，都在推动着科技的进步，它们在不同的领域发挥着各自的优势，共同构成了这个多元化、包容性的数字世界。

随着Grok的开源，人工智能领域迎来了新的里程碑，它为开发者们提供了全新的舞台，让高级语言模型在各类模型中大放异彩。未来，随着人工智能对Grok的不断探索，我们有理由相信，它将会为自然语言处理和人工智能的进步描绘更加光明的未来。

开源地址：

https://github.com/xai-org/grok-1

以专业可见以品效说话