6

重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做

 1 year ago
source link: https://www.qbitai.com/2023/06/62980.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做

head.jpg丰色 2023-06-21 14:43:12 来源:量子位

性能媲美原版

丰色 发自 凹非寺

量子位 | 公众号 QbitAI

Meta“羊驼”(LLaMA)的开源可商用复现品OpenLLaMA发布重大更新:

1T token上训练出来的130亿参数版本现已正式上线。

至此,这一训练量和原版羊驼已完全一致。

重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做

与此同时,之前发布的70亿以及30亿参数版本也完成了1T token的训练,并发布PyTorch和JAX权重。

可谓“一家人整整齐齐”。

性能测试显示,OpenLLaMA在多项任务中的表现都与原始LLaMA相当,并且不乏超越的情况。

重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做

一个彻底开源且供商用的LLaMA竞品家族就此诞生了。

目前,OpenLLaMA在GitHub上的标星数已近5k。

重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做

重训“羊驼”,最香替代品全面开放商用

OpenLLaMA是UC伯克利的博士生Hao Liu发起的项目(Xinyang Geng拥有同等贡献,也是该校博士生)。

它在Together公司发布的RedPajama数据集上训练,该数据集其实也是LLaMA训练集的复制品,一共包含1.2T token。

除了数据集不太一样之外,OpenLLaMA使用了与原始LLaMA完全相同的预处理步骤和训练超参数,包括模型架构、上下文长度、训练步骤、学习率时间表和优化器,可以说是“重训”了一把。

今年5月,该团队率先发布了70亿参数版本,不过当时训练token还是3000亿。

按照计划,如今和原LLaMA训练数据量一致的130亿参数版本和70亿、30亿版本一同发布。

重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做

据介绍,130亿版本是与Stability AI合作训练的,后者主要提供计算资源(当初Stable Diffusion也是这么与Stability AI合作)。

和另外两个版本一样,OpenLLaMA-13B也以两种格式发布权重:

一是用于Hugging Face transformer的PyTorch格式。

使用该格式时需要注意先避免使用Hugging Face快速分词器(tokenizer),因为它的自动转换功能有时会给出不正确的tokenization。

所以可以先直接使用LlamaTokenizer class来实现,或者用AutoTokenizer class,将use_fast赋为False。

二是用于EasyLM框架的EasyLM格式。

在此请注意,与原始LLaMA不同,该OpenLLaMA的分词器和权重是完全从头开始训练的,因此不再需要获取原始 LLaMA的这俩信息。

接下来,在训练量已达成一致的情况下,看OpenLLaMA各规模模型的性能表现如何。

在这里,作者使用EleutherAI发布的自回归语言模型few-shot评估框架(lm-evaluation-harness)对两只“羊驼”进行评估,以及还加入了“第三者”:

EleutherAI在Pile数据集上训练的60亿参数模型GPT-J,它的训练token数是5000亿。

需要注意的是,可能是因为不同的评估协议,作者跑出来的LLaMA结果与原始LLaMA略有不同。

以下是结果:

红色小方框为OpenLLaMA超过或者与原LLaMA表现一样的情况。

在红框之外,两者的差距也不大。

重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做

从平均表现来看,OpenLLaMA-7B和LLaMA-7B得分都是0.55,OpenLLaMA-13B和LLaMA-13B也都一样,为0.57,主打一个势均力敌

与此同时,只有30亿参数的OpenLLaMA平均性能超越60亿参数的GPT-J。

Meta也要发可商用大模型了

特斯拉前AI高级总监Andrej Karpathy在上个月的微软Build大会的演讲上,曾多次表达一个意思:

LLaMA-65b就是目前最好的开源基础模型,可惜没能商用。

重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做

现在,650亿的商用平替羊驼虽然还没出现,130亿和70亿是已经妥妥安排好了。

不过,也有一则好消息。

就在几天前,据The Information爆料,Meta AI正计划发布一个新的LLM,并且免费供大家商用

有观点指出,在如今行业大佬如谷歌Bard和OpenAI ChatGPT都“紧闭大门”的情况下,Meta这一做法可能会引发连锁反应,并且开源模型和闭源模型的差距会越来越小。

就且拭目以待。

关于OpenLLaMA的所有相关链接:
https://github.com/openlm-research/open_llama
https://huggingface.co/openlm-research/open_llama_13b

本文参考链接还包括:
https://www.artisana.ai/articles/metas-plan-to-offer-free-commercial-ai-models-puts-pressure-on-google-and

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK