开源大模型DBRX:1320亿参数,比Llama2-70B快1倍
每经记者:朱成祥 每经编辑:魏官红“AI的尽头是光伏和储能!我们不能只想着算力,如果只考虑计算机,我们需要烧掉14个地球的能源。”英伟达创始人黄仁勋在近期的演讲中表示。“ChatGPT之父”山姆·奥特曼也对外表示,未来AI技术发展,取决于能源的后勤保障,需要更多的光伏和储能支持AI算力。...
**划重点:**
- 💡 Databricks发布MoE大模型,击败Grok-1和Mixtral等开源模型。
- 💡 DBRX参数量为1320亿,混合专家模型,激活参数量为360亿,比生成速度快1倍。
- 💡 经过课程学习,DBRX在语言理解、编程、数学和逻辑等方面达到SOTA水平。
3月28日 消息:大数据公司Databricks最近发布了一款名为DBRX的MoE大模型,引发了开源社区的热议。DBRX在基准测试中击败了Grok-1、Mixtral等开源模型,成为了新的开源之王。这款模型的总参数量达到了1320亿,但每次激活只有360亿参数,并且其生成速度比Llama2-70B快1倍。
DBRX是由16个专家模型组成,每次推理有4个专家处于激活状态,上下文长度为32K。为了训练DBRX,Databricks团队从云厂商那里租用了3072个H100,历时两个月进行训练。经过内部讨论,团队决定采用课程学习的方法,用高质量数据提高DBRX在特定任务上的能力。这一决策取得了成功,DBRX在语言理解、编程、数学和逻辑等方面均达到了SOTA水平,并在大多数基准测试中击败了GPT-3.5。
Databricks还发布了DBRX的两个版本:DBRX Base和DBRX Instruct,前者是预训练基础模型,后者则经过指令微调。首席科学家Jonathan Frankle透露团队接下来计划对模型进行进一步研究,探索DBRX如何在训练的“最后一周”中获得额外技能。
尽管DBRX受到开源社区的欢迎,但也有人对其“开源”的质疑。根据Databricks公布的协议,基于DBRX打造的产品,如果月活超过7亿,就必须另行向Databricks提交申请。
项目入口:https://top.aibase.com/tool/dbrx