13

LLaMA模型微调版本：斯坦福 Alpaca 详解 - 陈城南

1 year ago

source link: https://www.cnblogs.com/chengnan113/p/17511100.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

neoserver,ios ssh client

项目代码：https://github.com/tatsu-lab/stanford_alpaca

博客介绍：https://crfm.stanford.edu/2023/03/13/alpaca.html

Alpaca 总览

Alpaca 是 LLaMA-7B 的微调版本，使用Self-instruct[2]方式借用text-davinct-003构建了52K的数据，同时在其构建策略上做了一些修改。

性能上作者对Alpaca进行了评估，与openai的text-davinct-003模型在self-instruct[2]场景下的性能表现相似。所以比起成本来看，Alpaca更便宜。

text-davinct-003 与 chatGPT 同为 gpt3.5模型之一，比GPT-3模型 curie、babbage、ada 模型更好的质量、更长的输出和一致的指令遵循来完成任何语言任务

整体思路如下图

基于 Self-instruct 的数据生成

Self-instruct

Self-instruct是一个利用LLM来生成指令遵循数据来指令微调模型的框架，核心贡献是生成指令遵循数据。

指令数据由指令、输入、输出组成。作者的数据生成piple包含四个步骤：

1）生成任务指令，

2）确定指令是否代表分类任务，方便3区别

3）正常任务使用输入优先方法，分类任务使用输出优先的prompt指令方法生成实例

4）过滤低质量的数据。

详细的Self-instruct可以看我别的文章。

Alpaca

Alpaca基于self-instruct，

改用GPT-3.5：text-davinci-003来生成指令数据（self-instruct使用的GPT-3：davinci）
指令生成时使用新的prompt，直接一次性生成20个任务的指令（self-instruct是迭代生成的，更费钱）
指令生成不区分分类/非分类任务，可能是GPT3.5更好，不需要区别了。
每个指令只生成1个实例。

最终的结果是以少于$500的便宜价格获得了52K的数据，下图反映了其数据多样性，内圈是词根是动词的指令，外圈是表示目标的指令。

Recommend

15
- www.qbitai.com 3 years ago
- Cache
训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升
训练CV模型新思路来了：用NLP大火的Prompt替代微调，性能全面提升
3
- www.cnblogs.com 1 year ago
- Cache
GPT大语言模型Alpaca-lora本地化部署实践【大语言模型实践一】 - 京东云开发者
GPT大语言模型Alpaca-lora本地化部署实践【大语言模型实践一】 ...
9
- www.51cto.com 1 year ago
- Cache
QLoRa：在消费级GPU上微调大型语言模型
QLoRa：在消费级GPU上微调大型语言模型作者：Benjamin Marie 2023-06-02 15:47:49 大多数大型语言模型(LLM)都无法在消费者硬件上进行微调。例如，650亿个参数模型需要超过780 Gb的GPU内存。这相当于10个A100 80gb...
9
- www.6aiq.com 1 year ago
- Cache
开源家族——中文羊驼LLaMA & Alpaca大语言模型
赞助商我要投放 ...
4
- www.qbitai.com 1 year ago
- Cache
最新RLHF拯救语言模型「胡说八道」！微调效果比ChatGPT更好，两名华人共同一作
最新RLHF拯救语言模型「胡说八道」！微调效果比ChatGPT更好，两名华人共同一作
8
- arthurchiao.art 1 year ago
- Cache
[译][论文] LLaMA 2：开放基础和微调聊天模型（Meta/Facebook，2023）
[译][论文] LLaMA 2：开放基础和微调聊天模型（Meta/Facebook，2023） Published at 2023-08-06 | Last Update 2023-08-06 本文来自 2023 年 Meta（facebook）的大模型论文：
8
- www.51cto.com 1 year ago
- Cache
大规模语言模型高效参数微调--BitFit/Prefix/Prompt 微调系列
大规模语言模型高效参数微调--BitFit/Prefix/Prompt 微调系列作者：hanscalZheng 2023-10-07 10:41:54 人工智能 Prompt Tuning 可以看作是 P...
3
- www.51cto.com 1 year ago
- Cache
0.2美元微调就能让ChatGPT彻底破防！普林斯顿、斯坦福发布LLM风险预警：普通用户微调...
0.2美元微调就能让ChatGPT彻底破防！普林斯顿、斯坦福发布LLM风险预警：普通用户微调也影响LLM安全性作者：新智元 2023-10-13 13:10:19 人工智能...
4
- www.8btc.com 1 year ago
- Cache
研究人员：微调大语言模型会削弱“安全性”，易被黑客进行后门攻击
2023-10-16 09:24 研究人员：微调大语言模型会削弱“安全性”，易被黑客进行后门攻击据 IT 之家 10 月 16 日报道，针对用户不同的需求，对已有的大语言模型进行修改，可提升相关模型的适用性，不过普林斯顿大学及 IBM 研究院的一项...
8
- www.51cto.com 1 year ago
- Cache
选择GPT-3.5、还是微调Llama 2等开源模型？综合比较后答案有了
选择GPT-3.5、还是微调Llama 2等开源模型？综合比较后答案有了作者：机器之心 2023-10-16 13:28:00 通过对 GPT-3.5 和 Llama 2 在不同任务上的微调对比，我们可以得知在什么情况下选择 GPT-3.5，什么情况下选择 L...

About Joyk

Aggregate valuable and interesting links.
Joyk means Joy of geeK