开源大模型DBRX：1320亿参数，比Llama2-70B快1倍

理想主义者 03-28 193

默认

摘要： 每经记者朱成祥每经编辑魏官红的尽头是光伏和储能我们不能只想着算力如果只考虑计算机我们需要烧掉个地球的能源英伟达创始人黄仁勋在近期的演讲中表示之父山姆奥特曼也对外表示未来技术发展取决...

每经记者：朱成祥每经编辑：魏官红“AI的尽头是光伏和储能！我们不能只想着算力，如果只考虑计算机，我们需要烧掉14个地球的能源。”英伟达创始人黄仁勋在近期的演讲中表示。“ChatGPT之父”山姆·奥特曼也对外表示，未来AI技术发展，取决于能源的后勤保障，需要更多的光伏和储能支持AI算力。...

**划重点:**

- 💡 Databricks发布MoE大模型，击败Grok-1和Mixtral等开源模型。

- 💡 DBRX参数量为1320亿，混合专家模型，激活参数量为360亿，比生成速度快1倍。

- 💡 经过课程学习，DBRX在语言理解、编程、数学和逻辑等方面达到SOTA水平。

3月28日消息:大数据公司Databricks最近发布了一款名为DBRX的MoE大模型，引发了开源社区的热议。DBRX在基准测试中击败了Grok-1、Mixtral等开源模型，成为了新的开源之王。这款模型的总参数量达到了1320亿，但每次激活只有360亿参数，并且其生成速度比Llama2-70B快1倍。

DBRX是由16个专家模型组成，每次推理有4个专家处于激活状态，上下文长度为32K。为了训练DBRX，Databricks团队从云厂商那里租用了3072个H100，历时两个月进行训练。经过内部讨论，团队决定采用课程学习的方法，用高质量数据提高DBRX在特定任务上的能力。这一决策取得了成功，DBRX在语言理解、编程、数学和逻辑等方面均达到了SOTA水平，并在大多数基准测试中击败了GPT-3.5。