1

微软亚研院新作:让大模型一口气调用数百万个API!

 2 months ago
source link: https://www.qbitai.com/2024/03/131462.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

微软亚研院新作:让大模型一口气调用数百万个API!

head.jpg十三 2024-03-28 17:19:37 来源:量子位

TaskMatrix.AI:实现任务自动化的超级AI

金磊 整理自 凹非寺

量子位 | 公众号 QbitAI

近年来,人工智能发展迅速,尤其是像ChatGPT这样的基础大模型,在对话、上下文理解和代码生成等方面表现出色,能够为多种任务提供解决方案。

但在特定领域任务上,由于专业数据的缺乏和可能的计算错误,它们的表现并不理想。同时,虽然已有一些专门针对特定任务的AI模型和系统表现良好,但它们往往不易与基础大模型集成。

为了解决这些重要问题,TaskMatrix.AI破茧而出、应运而生,这是由微软(Microsoft)设计发布的新型AI生态系统。

其核心技术近期在《科学》合作期刊Intelligent Computing上发表的论文TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs中正式亮相,作者为微软亚洲研究院段楠博士团队

微软亚研院新作:让大模型一口气调用数百万个API!

(详见链接:https://spj.science.org/doi/10.34133/icomputing.0063)

TaskMatrix.AI将基础大模型与数以百万计的应用程序编程接口(APIs)连接起来完成任务。

其核心思想是利用现有的基础大模型作为类似大脑的中央系统,结合其他AI模型和系统的APIs作为各种子任务解决者,以完成数字和物理领域的多样化任务。

微软亚研院新作:让大模型一口气调用数百万个API!

△图:由DALL·E 3生成

TaskMatrix.AI如何工作?

TaskMatrix.AI的整体架构由以下四个关键组件构成:

  • 多模态对话基础模型(MCFM):负责与用户沟通,理解他们的目标和上下文(多模态),并基于API生成可执行代码以完成特定任务。MCFM能够处理文本、图像、视频、音频和代码等多模态输入,生成执行特定任务的代码。它还能够从用户指令中提取具体任务,并提出合理的解决方案大纲,帮助选择最合适的API进行代码生成。
  • API平台:提供一个统一的API文档架构,用于存储数以百万计具有不同功能的API,并允许API开发者和所有者注册、更新和删除他们的API。API平台通过统一的文档架构帮助MCFM更好地理解和利用各种API。
  • API选择器:根据MCFM对用户指令的理解,推荐相关的API。API选择器具备搜索能力,能够在拥有大量API的平台上快速定位到与任务需求和解决方案大纲相匹配的API。
  • API执行器:通过调用相关API执行生成的动作代码,并返回中间和最终的执行结果。API执行器设计用于运行各种API,包括从简单的HTTP请求到复杂的算法或需要多个输入参数的AI模型。

以上四个组件协同工作,共同构建了一个高效的系统。MCFM作为用户交互的主要接口,负责生成解决方案。API平台则提供了一个标准化的API文档格式,并作为一个集中存储库,容纳了数百万API。API选择器根据MCFM对用户需求的理解,从API平台中选取合适的API。

最后,API执行器负责执行由选定API生成的代码,并解决任务。

微软亚研院新作:让大模型一口气调用数百万个API!

此外,TaskMatrix.AI还提供了两个可学习的机制,以更有效地将MCFM与API对齐:

  • 基于人类反馈的强化学习(RLHF):这是一种基础大模型的通用技术,它使用强化学习方法,利用人类反馈来优化机器学习模型。在TaskMatrix.AI中,RLHF利用这些反馈来增强MCFM和API选择器,从而在处理复杂任务时实现更快的收敛和更好的性能。
  • 向API开发者提供反馈:TaskMatrix.AI完成任务后,会将用户反馈以适当的方式传递给API开发者,指示他们的API是否成功用于完成任务。这种包含<用户指令、API调用和用户反馈>的三元组不仅展示特定API的使用情况,还可以作为API开发者改进API文档的参考,使文档对MCFM和API选择器更加友好和易于理解。

因此,TaskMatrix.AI可以被视为一个超级AI,同时也是一个生态系统,具有以下关键优势:

  • 能够通过使用基础大模型作为核心系统,首先理解不同类型的多模态输入(如文本、图像、视频、音频和代码),然后生成调用API完成任务的代码,来执行各种数字和物理任务。
  • 拥有一个API平台,作为各种任务专家的存储库。该平台上的所有API都有一致的文档格式,这使得基础大模型可以轻松使用它们,开发者也便于添加新的API。
  • 具有强大的终身学习能力,因为它的技能可以通过向API平台添加具有特定功能的新API来扩展,以处理新任务。
  • 能够提供更加可解释的响应,因为任务解决逻辑(即行动代码)和API的结果都是可理解的。

TaskMatrix.AI能完成什么任务?

TaskMatrix.AI能完成的任务非常广泛,小到文字、图像信息的基本信息处理,大到控制机器人平台、接入物联网(IoT)等通用平台任务,TaskMatrix都能胜任。

图像处理任务

TaskMatrix.AI可以执行图像处理任务,并且能够接受语言和图像作为输入。下图展示了TaskMatrix.AI的相关版本Visual ChatGPT,它不仅能够理解人类意图,还能处理语言和图像输入,以完成包括图像生成、问题回答和编辑在内的复杂视觉任务。

微软亚研院新作:让大模型一口气调用数百万个API!

下图展示了使用多个API协作生成高分辨率图像的示例。在该例中,解决方案框架由3个API组成:图像问答、图像标题以及图像对象替换。

左侧框线部分展示了解决方案框架如何协助将图像扩展至2048×4096分辨率。通过迭代执行框架中的预定义步骤,TaskMatrix.AI可以生成任何所需尺寸的高分辨率图像。

微软亚研院新作:让大模型一口气调用数百万个API!

办公自动化

TaskMatrix.AI能够通过语音指令理解并自动执行计算机操作系统、专业软件以及智能手机应用的操作。利用TaskMatrix.AI,可以快速上手复杂软件。

此外,它还能帮助用户在不进行搜索的情况下直接访问所需功能。以下是一个PowerPoint自动化的实例,TaskMatrix.AI能够根据用户指定的主题自动生成幻灯片,智能调整内容布局,插入和优化图像,并应用相应的设计主题,从而显著提升工作效率。

微软亚研院新作:让大模型一口气调用数百万个API!

机器人和物联网设备控制

TaskMatrix.AI 可以连接机器人和物联网设备,实现对体力劳动和智能家居操作的自动化管理。通过集成先进的机器人技术,TaskMatrix.AI 能够执行一系列任务,如物体的拾取与放置以及对家庭物联网设备的智能控制。

此外,该平台还整合了多种流行的互联网服务,包括但不限于日历API、天气API和新闻API,提供了更加丰富和便捷的用户体验。

微软亚研院新作:让大模型一口气调用数百万个API!

TaskMatrix.AI的挑战

尽管TaskMatrix.AI已经在各种任务中证明了其强大的功能和通用性,但仍面临以下几个挑战:

  • 多模态会话基础大模型:TaskMatrix.AI需要一个能够处理多种输入(文本、图像、视频、音频和代码)的强大基础大模型。这个模型需要能够从上下文中学习,使用常识进行推理和计划,并生成高质量的代码来完成任务。此外由于TaskMatrix.AI需要处理更多样化的输入模式,这要求确定一个最小模式集来训练MCFM。
  • API平台:构建和维护一个包含数百万API的平台需要解决文档生成、API质量保证和API创建建议等挑战。API文档的清晰性和API的质量对于TaskMatrix.AI的成功至关重要。此外,平台还需要根据用户反馈指导API开发者创建新的API来解决特定任务。
  • API调用:在处理大量API时,TaskMatrix.AI需要能够合理选择和推荐相关的API来完成任务。此外还涉及到在线规划,即在无法立即生成解决方案时,与用户交互并尝试不同的解决方案。
  • 安全和隐私:在API能够访问物理和数字世界时,确保模型忠实于用户指令并保持数据私密性是至关重要的。这要求在执行操作前验证模型的行为,并确保数据传输的安全性和数据访问的授权。
  • 个性化:TaskMatrix.AI需要个性化策略来帮助开发者构建定制的AI界面,并为用户提供私人助理。这包括降低扩展成本和使用少量示例来学习用户的偏好,以便生成符合用户需求的解决方案。

关于Intelligent Computing

Intelligent Computing由之江实验室和美国科学促进会(AAAS)共同创办,是《科学》合作期刊框架中智能计算领域的第一本开放获取(Open Access)国际期刊。期刊以「面向智能的计算、智能驱动的计算」以及「智能、数据与计算驱动的科学发现」为主题,主要刊载原创研究论文、综述论文和观点论文。

投稿: www.editorialmanager.com/icomputing
官网: spj.science.org/journal/icomputing
邮箱: [email protected]

版权所有,未经授权不得以任何形式转载及使用,违者必究。

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK