1

Meta 发布 Megabyte AI 模型,较 Transformer 速度提升 4 成

 11 months ago
source link: https://www.8btc.com/article/6820142
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
2023-05-31 02:33

Meta 发布 Megabyte AI 模型,较 Transformer 速度提升 4 成

据 IT 之家消息,近日 Meta 团队开发了一款名为 Megabyte 的 AI 模型以抗衡 Transformer,据称 Megabyte 解决了 Transformer 模型所面临的问题,并且在速度上提升了 40%。

据悉,目前 Transformer 在自然语言处理等领域非常流行,但由于其序列数据的处理方式是逐步进行的,无法并行化处理,因此训练速度较慢;难以处理长序列;此外,由于需要在每一步保留历史信息,内存消耗较大。而 Megabyte 模型将输入和输出序列划分为 patch,而不是单个的 token。这种架构使得对大多数任务而言字节级别的预测相对容易。这意味着在大型网络中可以精简字符以提升效率,并且内部预测可以使用更小的模型进行。Megabyte 模型的这种方法解决了当今 AI 模型所面临的训练速度、可靠性及硬件占用比挑战。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK