1

谷歌DeepMind推出Mixture of Depths

 4 weeks ago
source link: https://www.williamlong.info/archives/7419.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

谷歌DeepMind推出Mixture of Depths

2024-4-5 17:4:36 | 作者: 投稿 | 分类: 业界动态 | 评论: 0 | 浏览:

日前有消息显示,谷歌DeepMind方面发布的Mixture-of-Depths(MoD),改变了以往Transformer架构的计算模式。

据了解,通过动态分配大模型中的FLOPs(运算次数或计算资源),优化不同层次模型深度中的分配,限制给定层的自注意力和MLP计算的token数量,MoD可跳过一些不必要计算,迫使神经网络学会主要关注真正重要的信息, 实现只给需要准确预测的token分配更多计算资源,从而显著提高训练效率和推理速度。

例如,虽然预测下一个句子的内容很难,但预测句子结束的标点符号很简单,如果给两者分配同样的计算资源,那么后者明显会浪费资源、而MoD则可避免这种情况。

据谷歌方面发布的相关测试结果显示,在等效计算量和训练时间上,MoD每次向前传播所需的计算量更小,而且后训练采样过程中步进速度提高50%。

据了解,谷歌研究团队还探讨了MoD和MoE结合的可能性MoDE,而且结果表明而这一结合能提供更好的性能和更快的推理速度。

此外值得一提的是,为解决AI幻觉问题,不久前谷歌DeepMind还与斯坦福大学联合开了一款AI事实核查工具“搜索增强事实评估器”(Search-Augmented Factuality Evaluator,SAFE)。

据了解,SAFE可通过四个步骤对AI聊天机器人生成的回复进行分析、处理和评估,以验证其准确性和真实性。具体而言,SAFE首先会将回复分割成多个单个待核查内容、对上述内容进行修正,然后再与谷歌搜索结果进行比较。随后,SAFE还会检查各个事实与原始问题的相关性。

为评估SAFE性能,谷歌方面的研究人员还创建了包含约16000个事实的数据集LongFact,并在包括Claude、Gemini、GPT、PaLM-2在内的13个大语言模型上测试了这一工具。结果显示,在对100个有争议事实进行的重点分析中,SAFE的判定在进一步审查下正确率达到76% 。与此同时,SAFE还具备显著的经济性优势,即其成本比人工注释便宜20多倍。

稿源:新浪网

谷歌DeepMind推出Mixture of Depths

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK