3

揭秘RLHF;可商用开源LLM列表;领域编译器的前世今生

 10 months ago
source link: https://blog.csdn.net/OneFlow_Official/article/details/130738100
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

揭秘RLHF;可商用开源LLM列表;领域编译器的前世今生

037befb0ca13fb76fbb9848608f6c70f.jpeg

1. GPT创造者:第二次改变AI浪潮的方向

那么,从推动这一系列变革的科学家角度,他究竟如何看待当先ChatGPT、GPT-4模型的发展?他对AI的思考和坚定信念从何而来?OpenAI下一步研究方向是什么?他又如何看待AI对社会的影响?

链接:

https://mp.weixin.qq.com/s/rZBEDlxFVsVXoL5YUVU3XQ

2. 科普:人类反馈的强化学习(RLHF)

ChatGPT中的RLHF究竟是如何运作的?它为什么有效?

链接:

https://huyenchip.com/2023/05/02/rlhf.html

3. ChatGPT作者John Schulman:通往TruthGPT之路

大型语言模型(LLM)有一个众所周知的“硬伤”——它们经常会一本正经编造貌似真实的内容。作为ChatGPT项目的主要负责人以及OpenAI强化学习团队的领导者,John Schulman在最近的Berkeley EECS会议上系统性地分享了OpenAI在人类反馈的强化学习(RLHF)方面所做的工作,以及语言模型的幻觉等亟待解决的问题,同时也介绍了解决这些挑战的潜在思路。

链接:

https://mp.weixin.qq.com/s/snS2ty4x7gJ9QoMxWU0_Lw

4. 为什么ChatGPT用强化学习而非监督学习?

随着ChatGPT等大型语言模型的发布,人们对“RLHF训练(即基于人类反馈的强化学习训练)”的重要性进行了诸多讨论。在训练语言模型方面,我一度困惑于为什么强化学习比从演示中学习(也称为监督学习)更好,难道从演示中学习(或根据语言模型术语中的“指令微调”,学习模仿人类写的回答)还不够?

链接:

https://mp.weixin.qq.com/s/4USDakdomupWuwwhex6fMg

5. 谷歌研究科学家:ChatGPT秘密武器的演进与局限

此前,ChatGPT负责人John Schulman介绍了RLHF想法的起源,关键在于他们在语言模型中应用强化学习,使用人类反馈去定义奖励函数。此外,OpenAI的RLHF所使用的诸多技术也是基于前人研究基础上组合而成的成果,其中就包括Natasha Jaques的工作。

链接:

https://mp.weixin.qq.com/s/HsJmaL3acV2yZJGd2npcLg

6. Constitution AI:训练大型语言模型的最佳方法?

语言模型如何决定它会处理哪些问题以及它认为不合适的问题?为什么它会鼓励某些行为而阻止其他行为?语言模型可能具有哪些“价值观(values)”?

这些都是人们努力解决的问题。Anthropic最近发表的关于“Constitution AI”的研究认为,这种方法为语言模型提供了显式的价值观,而不是通过大规模人类反馈隐式确定的价值观。这不是一个完美的方法,但它确实使人工智能系统的价值更容易理解,也更容易根据需要进行调整。Claude模型就使用Constitution AI进行训练,从而让其更安全。Anthropic认为,这种方法优于用于训练ChatGPT等系统的其他方法。

链接:

1. https://www.anthropic.com/index/claudes-constitution;

2. https://arxiv.org/abs/2212.08073

7. 向量嵌入:AutoGPT的幻觉解法?

此前,OpenAI首席科学家Ilya Sutskever谈到,他希望通过改进强化学习反馈步骤来阻止神经网络产生“幻觉”。不过,向量嵌入(vector embeddings)看上去是解决这一挑战的更为简单有效的方法,它可以为LLM创建一个长期记忆的数据库。通过将权威、可信的信息转换为向量,并将它们加载到向量数据库中,数据库能为LLM提供可靠的信息源,从而减少模型产生幻觉的可能性。

链接:

https://mp.weixin.qq.com/s/Hx52fL9hN5eLA13qJv-VCQ

8. 大语言模型(LLM)微调技术笔记 

在预训练后,大模型可以获得解决各种任务的通用能力。然而,越来越多的研究表明,大语言模型的能力可以根据特定目标进一步调整。这就是微调技术,目前主要有两种微调大模型的方法指令微调、对齐微调,OpenAI发布的ChatGPT主要应用了微调技术,从而获得了惊艳全世界的效果。

链接:

https://github.com/ninehills/ninehills.github.io/issues/92

9. 大型语言模型综述

在这篇综述中,研究者们介绍了大型语言模型的背景、主要研究方向、主流技术以及最新进展。他们特别关注LLM的四个主要方面,即预训练、适应性精调、应用和能力评估。此外,他们还总结了LLM的现有资源,并讨论了未来发展方向等问题。

链接:

https://arxiv.org/abs/2303.18223

10. 那些开源的LLM和数据集、研究洞见

开源的力量正在源源不断地影响着整个 AI 社区,无论是 LLM 还是数据集。本文作者 Sebastian Raschka 对相关资源进行了汇总,并分享了自己的洞见。

链接:

https://mp.weixin.qq.com/s/VleZkQT6Vga7vqZP8pvgQQ

11. Open LLMs:可供商业使用的开源大型语言模型列表

本文列出的 LLM 均已获得商业用途许可(基于 Apache 2.0、MIT、OpenRAIL-M)。

链接:

https://github.com/eugeneyan/open-llms

12. 羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

总的来说,该测试得出的结论是:MPT 还没有准备好在现实世界中使用,而 Vicuna 对于许多任务来说是 ChatGPT (3.5) 的可行替代品。

链接:

https://mp.weixin.qq.com/s/Gg-zbhzJcqmU0guSSvWpXg

13. 大型语言模型的推理演算

本文详细阐述了大型语言模型推理性能的几个基本原理,不含任何实验数据或复杂的数学公式,旨在加深读者对相关原理的理解。此外,作者还提出了一种极其简单的推理时延模型,该模型与实证结果拟合度高,可更好地预测和解释Transformer模型的推理过程。

链接:

https://mp.weixin.qq.com/s/2wfUQNsH4IRuJEF39mebUQ

14. Transformer模型的基础演算

Transformer语言模型的许多基本重要信息可以通过简单计算得出。不幸的是,这些计算公式在自然语言处理(NLP)社区中并不广为人知。AI非营利研究组织EleutherAI收集整理这些公式,并介绍这些公式的来源和重要性。

链接:

https://mp.weixin.qq.com/s/0Er0UOk6Wdky-0gzeQxK0g

15. 机器学习系统的九种设计模式

设计模式是针对软件工程中常见问题的可重复使用、经过时间考验的解决方案。他们将最佳实践和过去的知识进行提炼,成为从业者的实用建议,并提供共享词汇表,以便有效协作。本文作者分享了在机器学习系统中的主要设计模式。

链接:

https://eugeneyan.com/writing/more-patterns/

16. 编译器大佬Chris Lattner全新编程语言「Mojo」:兼容Python核心功能

Mojo结合了Python的可用性与C的性能,释放了AI硬件无与伦比的可编程性和AI模型的可扩展性」—— 它与Python一样易于使用,但具有C++和Rust的性能。此外,Mojo提供了利用整个Python库生态系统的能力。

链接:

https://mp.weixin.qq.com/s/EguqTuzJwehfWm7UqMtbdw

17. 领域编译器发展的前世今生

近年来,随着GPU和DSA架构在不同领域的广泛应用,特别是AI系统相关技术的飞速发展,对于编译器的需求越来越强烈。编译器已经从一个相对小众的研究领域,变为学界和业界都高度关注并大量投入的方向。与此同时,编译器的开发人员也从芯片研发团队开始延伸到更上层的软件层面。在很多领域的软件系统中,都开始引入编译技术来实现提升开发效率或运行效率等目标。本文从领域编译器的角色着眼,来讨论领域编译器发展的前世今生。

链接:

1. https://mp.weixin.qq.com/s/eiQ6dRgDxAR7zkuWCBPfqg

2. https://mp.weixin.qq.com/s/Z6qiwPDevG6mF29TWjOb4g

18. OneFlow源码解析:Eager模式下的设备管理与并发执行

通过这篇笔记,希望能初步了解 OneFlow 在 Eager 模式下对设备的管理方式、设备执行计算的过程以及如何充分利用设备计算能力。这里的设备主要指类似 CUDA 这样的并行计算加速设备。

链接:

https://mp.weixin.qq.com/s/RMF38IlkRcxza6A8W6fG-w

其他人都在看

欢迎Star、试用OneFlow: github.com/Oneflow-Inc/oneflow/icon-default.png?t=N4P3http://github.com/Oneflow-Inc/oneflow/


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK