3

千万美元就让最强开源模型易主?Databricks 开源 1320 亿参数大模型强势搅局,Grok 和...

 1 month ago
source link: https://www.aixinzhijie.com/article/6845270
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
2024-03-28 05:13

千万美元就让最强开源模型易主?Databricks 开源 1320 亿参数大模型强势搅局,Grok 和 LLaMA 悉数落败!

文章来源:AI科技大本营

作者 | 王启隆

出品 | CSDN(ID:CSDNnews)

数据是当前火爆全球的 AI 大模型至关重要的一环,有人把数据比作大模型的“血液”,而预训练数据的数量、质量、多样性是大模型能力表现的关键性因素。正因如此,很多人(曾)一度认为坐拥海量数据并孵化出 Google Brain 的谷歌公司会成为 AI 时代的领头羊。

昨晚,大数据和 AI 公司 Databricks 宣布开源他们的 132B 大模型 DBRX。目前,DBRX 的基础 (DBRX Base) 和微调 (DBRX Instruct) 版本皆允许在 GitHub 和 Hugging Face 上用于研究和商业用途,并且可以在公共、自定义或其他专有数据上运行和调整。

GitHub:

https://github.com/databricks/dbrx

Hugging Face 链接:

https://huggingface.co/databricks/dbrx-base(基础版)

https://huggingface.co/databricks/dbrx-instruct (微调版)

Fq9qGq6vKaWWbXhN0qnRXDsTfoEs

Databricks 源自加州大学伯克利分校的 AMPLab 项目,致力于研发一款基于 Scala 构建的开源分布式计算框架 Apache Spark。所谓的“湖仓一体”(data Lakehouse)就是这家公司首创的概念。2023 年 3 月的时候,Databricks 就跟着 ChatGPT 的风推出了开源语言模型 dolly,并在后续的 2.0 版本打出了「首个真正开放和商业可行的指令调优 LLM(大模型)」的口号。

所以,这是 Databricks 的「第二次搅局」。

这一次发布的 DBRX 耗时两个月、投入约 1000 万美元训练打造,宣称“超越了 GPT-3.5,与 Gemini 1.0 Pro 具有竞争力,在编程方面超越了 CodeLLaMA-70B 等专业模型”。Databricks 的首席神经网络架构师 & DBRX 团队负责人 Jonathan Frankle 还直接在 X 上放话:“树立开源 LLM 的新标准!

FqScrkeLrUn2RoJyWOVPTvT8u4lz

Jonathan Frankle 曾经是生成式 AI 初创公司 MosaicML 的首席科学家,而 Databricks 在 2023 年 6 月以 14 亿美元的大手笔收购了 MosaicML,这一举动还让 Frankle 辞掉了哈佛大学的教授工作,专心开发 DBRX。

马斯克意气风发的宣告 3140 亿史上最大开源模型 Grok-1 诞生,这事就发生在 10 天前,还令人历历在目。难不成 DBRX 真的就这么轻松击溃了 LLaMA 和 Grok 两大开源模型?背景已经介绍完毕,下面我们就来看看 DBRX 的详细情况。

FlqyQkwjJS21BHIK64SqNaXCHcPR
树立开源新标准?

首先,万物基于 Transformer,DBRX 也不例外。

除此之外,DBRX 还是一个混合专家模型(MoE),总计 1320 亿(132 B)参数,在 12T 文本和代码数据 tokens 上进行预训练。MoE 架构引入了一种模块化的体系结构,从一个巨大的神经网络里分解出多个子网络(“专家网络”)协同工作,处理输入数据。

相比法国的 Mixtral 和 Grok-1 等其他开源 MoE 模型,DBRX 有个“独门绝学”:它配置了 16 个专家网络,从中选择 4 个参与运算,并且仅使用 360 亿 的参数。(Mixtral 和 Grok-1 则各有 8 个专家网络,选择其中 2 个参与)

Databricks 还发现,这种改进能有效提升模型质量。

不过 DBRX 和 Grok-1 有一个同款的毛病:贵。Databricks 在这两个月用了 3072 NVIDIA H100 GPU 训练 DBRX,而用户如果想在标准配置中运行 DBRX,则需要一台至少配备四张 H100(或 320GB 显存的任何其他 GPU 配置)的服务器或 PC。

在推理速度上,DBRX 比 LLaMA2-70B 快约 2 倍;从参数总数和激活参数数来看,DBRX 大约只有 Grok-1 的 40% 大小。Databricks 也提供了 API 服务,在 8 位量化(8-bit quantization)的情况下,DBRX 预计可以每秒处理高达 150 个 tokens 的吞吐量。

Fsc2D_Z4PsmeVZUDtODbtdY2wq9a

上图的表格体现了 DBRX 在语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K) 方面优于已建立的开源模型。

FpjrTO-RLpLsTRJyc38242SuucGB

同样被 DBRX 击败的还有 ChatGPT 3.5,Databricks 认为这可以“加速企业内开源模型取代专有模型的趋势”。事实上,DBRX 也没有真的“避战”如日中天的 GPT-4,反而在 SQL 等应用程序中对 GPT-4 Turbo 构成了挑战。

FucxblCwrPchontu0CU4hYnv3uXz
能讲故事的 AI 电影
下面来看一些评测对比。
FirGdJMzMiLHqwdIuUASxanyeMXH

这张表格的主要对比对象是 DBRX 对标的一众开源模型:

1. 综合基准测试表现优异。

DBRX 的“微调版” Instruct 在 Hugging Face Open LLM Leaderboard 这一复合基准测试中取得了最高分,得分达到了 74.5%,远高于第二名 Mixtral Instruct 的 72.7%。

在 Databricks Model Gauntlet 这套包含超过 30 项任务、横跨六个领域的评估套件中,DBRX Instruct 再次领先,得分为 66.8%,相比第二名 Mixtral Instruct 的 60.7% 有显著优势。

2. 编程与数学能力突出。

在编程和数学相关的任务上,DBRX Instruct 展现了尤为强大的能力。例如,在 HumanEval 这一评估代码质量的任务上,其正确率达到 70.1%,比 Grok-1 高出约 7 个百分点,比 Mixtral Instruct 高出约 8 个百分点,并超过了所有被评估的 LLaMA2-70B 变体。

在 GSM8k 数学问题解决测试中,DBRX Instruct 也取得了最优成绩 66.9%,胜过 Grok-1 和 Mixtral Instruct 以及其他 LLaMA2-70B 变体。

值得注意的是,尽管 Grok-1 的参数数量是 DBRX Instruct 的 2.4 倍,但在上述编程和数学任务上,DBRX Instruct 仍能保持领先地位。甚至在针对编程任务专门设计的 CodeLLaMA-70B Instruct 模型之上,DBRX Instruct 在 HumanEval 上的表现依然出色。

3. 多语言理解能力最强。

在大规模多任务语言理解数据集(MMLU)上,DBRX Instruct 继续展示出顶级性能,得分高达 73.7%,超过了本次比较的所有其他模型。不过关于这点,在实测之前还是无法完全证明它的中文水平究竟如何。

DBRX 对阵开源模型确实占据上风,如果让它去打当前的“绝代双骄”GPT-4 和 Claude-3 呢?Databricks 针对几大闭源模型也做了相关测评,还很详尽:

FhlFLm6p-PfPrkKF-w51xoYIjvlM

上面这张表主要对比的是基准测试,DBRX 对比 GPT-3.5 在几乎所有的基准测试中都优于或至少持平对比。

DBRX 对比 Gemini 1.0 Pro 则胜了 Inflection Corrected MTBench、MMLU、HellaSwag 和 HumanEval这几个基准,但 Gemini 1.0 Pro 在 GSM8k 测试中表现更强,这意味着在某些特定类型的数学问题解决上,Gemini 1.0 Pro 可能更具优势。

DBRX 对比 Mistral Medium 在 HellaSwag 上的得分相似,两者的推理能力五五开;Winogrande 和 MMLU 这两项语言类的测试全都是 Mistral Medium 占据了优势;而在 HumanEval、GSM8k 以及 Inflection Corrected MTBench 这些基准上,DBRX Instruct 则获得了更高的分数,所以 DBRX 还是更擅长编程和数学推理一点。

FhjzRU9bk9kLCUh6CtUE-JTFmIJ9

紧接着上面这张表是针对上下文窗口的评测,GPT-4 Turbo 还是杀疯了,值得一提的是 DBRX Instruct 在所有上下文长度和序列的所有部分上都比 GPT-3.5 Turbo 表现更好。

FoRZTevioBaiWj_7APz4l7gXNA4H

上表显示,Databricks 还做了检索增强生成(RAG)技术相关的测试,这是当前最火的大模型应用方案,让大模型检索外部知识源来提供更多信息。这项也一样,除了 GPT-4 Turbo,都能打得过

FjPltsCfVZI33J9T7bthCimT661F

除此之外,上方是训练效率相关的基准评测表格。DBRX MoE-B 模型相较于 LLaMA2-13B 用更少 FLOPs 获得了更高的得分。

FqSY2O3D5VzfanZIyql34CB8Euak

前文已经提到 DBRX 的推理效率高,其推理吞吐量比 132B 的非 MoE 模型还要高 2-3 倍。而上面这张图是 DBRX 在 NVIDIA TensorRT-LLM 的 16 位精度环境下,针对不同模型配置的吞吐量测试。使用了最优的优化标志,即尽可能地提升了模型运行效率。一言以蔽之就是:很稳。

GitHub:

https://github.com/databricks/dbrx

Hugging Face 链接:

https://huggingface.co/databricks/dbrx-base(基础版)

https://huggingface.co/databricks/dbrx-instruct (微调版)


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK