1

印象笔记唐毅:通用大模型不会一统天下,用户需要不同的「机器大脑」

 11 months ago
source link: https://www.geekpark.net/news/319920
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
综合报道
18min read

印象笔记唐毅:通用大模型不会一统天下,用户需要不同的「机器大脑」

2023/05/31
5329e1c36184d086f62bcc73009e2acf.jpg

「全球共享一个大脑是不现实的。」

大模型的场景落地,印象笔记这次跑在了第一线。

今年 3 月,印象笔记公布了自研轻量化大语言模型「大象 GPT」,并率先推出了「印象 AI」,陆续在产品矩阵中落地,已为数十万内测及体验用户提供了多种场景下的智能服务。

正如印象笔记的 CEO 在采访中所说:「我们相信通过自主研发和创新,能够为用户提供更加个性化、高效的服务。」

印象笔记从前身 Evernote 就秉持着做人类「第二大脑」的初衷,2018 年,印象笔记与 Evernote 独立分拆后成立印象研究院正式研究 NLP。这意味着他们不仅仅是一个笔记软件,而是一个能够理解、协助和增强用户思维能力的工具。让用户能够更加高效地管理和利用他们的知识,这是作为一款笔记工具的初衷,也是印象笔记能够迅速推出自家大模型的原因,这背后,离不开前期以来的用户认知和用户数据的积累。

关于「大象 GPT」和「印象 AI」的由来以及未来,极客公园创始人&总裁张鹏和印象笔记 CEO 唐毅进行了一次对谈,唐毅讲述了印象笔记如何一以贯之地做好笔记自然语言理解和处理的革新,并在当前 GPT 的潮流中,如何在通用模型之外发现更大的专有模型市场的潜力和未来。

ecbe6f041ec6b3ba70780130614c22cc.png

通用大模型不会一统天下

你之前提到(印象笔记)很早就做 NLP(自然语言处理),那你们什么时候开始将AI路径转换到GPT上的?为什么要自己做一个大模型出来?

从 NLP 的逻辑来看,外脑必须能够处理知识中的自然语言力,尤其是逻辑,所以我们要对自然语言有清晰的理解,这也是真正的 GPT 拥有的能力。不管通用还是专用的大模型都具备分析,提取,总结,智能书写这些能力。

通用模型的基础逻辑是大家共用一个参数非常大的、千亿级的模型。它的基础逻辑经过了非常多的不同语料和数据的训练,形成了一个推理/预测机器。但是作为一个大脑,它是一个通用型的大脑,大家和同一个大脑交流。用户的个人数据或者个人知识并没有能够去训练这个大脑,即便跟它交流,甚至让它对一些个性化知识进行分析,都不会影响大脑思考的过程。

所以通用大模型从用户角度来讲,是很强,很通用的,但它绝对没有个人特色,它不会对你自己形成的知识、对世界的认知、积累的信息有任何形式的反应。而且还有一个问题,就是通用语料和专用语料确实不一样。用户个人所积累的,所独有的,或者一个团队、企业所积累的和独有的,一定是在专用模型里面来呈现。

如果有这样的工具,能结合我过去的知识库,将过去创造的概念与现在的概念融合,形成完整内容,我会很开心。然而,通用大模型或ChatGPT目前无法实现这一点,因为它不了解我的上下文和十年前积累的知识。

是这个意思,而印象笔记的外脑服务一定是有能力基于用户个人数据,个人知识和认知的。任何一个通用大模型都有局限,包括 GPT-4。它们都会有语料更新和范围的局限性。

外脑就是说不只能帮你存储,还要能调用。

对,笔记是线索,用于提示索引、记忆知识和记忆本身,但并不是所有的知识和记忆都完全存在于笔记中。外脑这个概念需要全面的数据收集来支持。未来的个人大模型是部署在云端还是设备上,这是一个需要做选择的问题。

在这个领域中,有许多前沿研究方向。我们并没有固定要进军某个方向,我们的智能硬件是基于听、说、写等功能的。所有的功能都要么输入,要么输出。例如,我们有智能录音、智能扫描、智能书写、墨水屏,它们要么让你书写,要么让你分享。

随着我们自己的大模型的不断推演,即使在 ChatGPT 和大象 GPT 以及印象 AI 全面上线之前,我们明显看到一个需求,无论是用户还是企业或产品,处理记忆和个人信息的需求都趋向于持续记录和持续记忆。

有一点是清晰的,就是我们刚才所说的,算力和算法变得越来越像基础设施,而数据变得越来越重要。形成个人知识体,实现外脑的概念确实需要持续不断的知识和记忆存储,这个方向是明确的。

那么印象AI可以算作一个垂直大模型吗?如何定义它?

我觉得从数据而言可以算是垂直的。

垂直领域在大模型和 AI 方向叫做 Domain Expertise,那么这个 domain 指的是某一个领域,可以是某一个垂直行业的域,也可以是某一种形态的数据。

我们有两个 domain 的逻辑,一个 domain 就是用户自己的数据或者企业自己的数据,或者用印象团队管理的自己的数据。另一个 domain 是相对比较严肃的知识。我们这个模型的训练会更加关注于知识,倾向于知识的更深入理解以及不同领域知识的连接。那么它在这个模型能力逻辑上可能就不如通用大模型大。

所以可以说,通用大模型即使接API也不能解决你们产品场景用户的真正问题吗?这是否是你们要自己做大模型的原因?

这是原因之一。还有几个深层次原因。

第一点是我们很久之前就有一个世界观来研究 NLP,对大模型也有好几年的经验。这个过程当中我们的理解是,未来的世界肯定不是几个通用大模型的世界,而是不同形态的模型的世界。这些模型可能是不同的通用大模型,也可能会是很多垂直领域的小型或者中型模型。

另外,我们和很多同行都认为生成式 AI 和大模型是一个工业革命级别的技术事件。这个前提下,我们判断未来会存在不同形态的、具有不同的通用和专用能力的、具有不同部署特性的模型来服务不同的人、不同的行业的不同企业。

第二点是,现在大象 GPT 或者其他通用模型也好,现在都不是在用用户个人的数据对它进行训练,只是让它作为一个分析机器对数据进行分析。

我们希望未来不管提供团队模型还是私人模型时,用户可以选择用我们的模型基础来对他们的数据进行训练和调优,这样训练出来的模型就是完全个人的模型。

我看直播间有观众提问,最近正好 OpenAI CEO Altman 在说大企业做大模型,开源社区做小模型,未来国内大模型的发展也是这样吗?

我也看到有人说中国至少有 100 个大模型,而且这些的核心不是都能被称为通用?

我觉得 Altman 在讲这句话的时候有一个背景,就是大模型的安全性问题。这个里面存在语料训练,模型涌现的能力如何去监管,去更好地为用户服务的问题。

另外一点,开源的社区和开源的模型给大模型的发展提供了巨大的帮助和助力。开源的开发者给大模型的技术能力和整个产品的产业业态发展带来了非常多的可能性,它是一个巨大的大模型能力驱动的方向。

第三点,其实所谓的小模型本质上来说还是大模型。参数上小一点几百亿,大一点几千亿,都是 large language model,没有 small language model。这些不同的大模型给技术发展带来了一个百花齐放的生态。

第四点我想说的是,我不认为一个产业永远有尘埃落定的时候,但相对来讲一个新的技术会逐渐找到主流方向和比较稳定的产业生态。

如果有一个大模型能力提高且通用的话,其他人做的大模型是不是就都没用了?如何面对这种焦虑?

从趋势来讲有一个很明确的方向,我们包括其他很多同行会把现在看成刚刚发明电,发明互联网的时候。

生成式 AI 的产业发展还是会遵循以往这些新事物发展的曲线。在急速上升过程中可能有些泡沫,但泡沫也被逐渐挤掉,真正的东西会出来,最后形成这一代的技术前沿。

在这个方向上就要不断去仔细思考两个事,一个是说,本着非常开放的心态去说,最前沿的可能性在哪里?另一点是说,它基础的逻辑在哪里?或者说我们怎么看大语言模型这个事?

但是前沿的问题,我们觉得是有完全不同的可能性的。这个可能性倒不是马上就出现了新的平台厂商,大模型厂商。更可能的方向是大模型加插件,以及 APP+专用模型。这两个方向我认为,私人的信息和一个更专用场景的模型提供的服务和通用大模型,以及所有厂商有限的或更多的为大语言模型通过插件开放自己的信息所提供的服务,都有很强的意义。

这两类服务都可能产生真正改变日常生活、工作和生产力的公司。未来每个人都需要的还是和自己的思考个性相匹配的个人助理。世界上绝对不会只有几个大脑在帮所有人思考,而是不同的机器大脑在帮不同人思考。

印象 AI 如何避免事实性错误的问题?

两类方法。一类是知识图谱,在一些事实性的判断上,知识图谱结合GPT。另一类是通过实时上网,实时通过不同的接口和 API 调用事实进行分析。

5f23c99628840b65dd7fa4a35240993e.jpeg

多个大脑为一个人服务

你提到有人期待将笔记和写作结合起来,这样会更加方便。有些人认为在一个笔记软件中添加写作功能有些奇怪,但也有人表示支持并希望能够实现结合。你如何看这个问题?

我们现在训练生成式 AI 学习真正的写作。知识管理和协作场景上的表现基本上是 2 类的呈现。

第一类的呈现就是对话形式,比如微软的 copilot。这个形式先是从 GitHub,然后到 Edge,紧接着到 Microsoft 365,最新又直接到 Windows,它已经是一个 AI 原生的操作系统。

它的交互形式更多的还是直接对话的形式,包括开放式的对话或者多轮的对话。这也是因为大模型的一个强势逻辑:in context momery(上下文记忆)。

另外一个形式体现在 Notion 这类下一代知识管理平台的产品上。它完全没有对话形态,而是一个纯写作助理的形态。基本上它是一个菜单式的逻辑。我们对这两个形式的判断是他们不会矛盾。

其实第一种就是 LUI(语言式用户交互界面),第二种是 GUI(菜单式用户交互界面)。两个有一个混合的逻辑在里边。

像微软把它家的这种 AI 辅助称作 Copilot,你们如何定位这种辅助写作的能力?如何去设定它的意义?

d703e2e1763807fb38facd676cadca77.png

有意义的智能写作未来越来越不是一个通才能够完成的任务,必须有一个专才基于它的能力和用户的个人数据来完成。

第一个角度是行动的迅速性。这种迅速性源自我们的经验积累。从逻辑上说,我们在引入 GPT 模型之前就已经推出了各种不同的模型,因此反应速度必定非常快。此外,除了现有的写作助手功能之外,用户很快就能够规划文档,并与多个文档进行对话,并开始与数据的整个记忆(如笔记和之前所写的文章)进行交互。随后,可能还会有进一步的迭代。

第二点是关于模型能力。我们认为,在行业和产业的推进过程中,大家逐渐能够看出通用模型服务通用场景与专用模型服务专用场景之间的区别。即使都是写作助理,由于我们的模型和一直以来所服务的用户专注于特定场景,我们积累的语料也专注于知识管理和知识生产力提升等领域。

第三点是用户对我们的信任和使用情况。我们深感荣幸得到了中国和全球众多用户的喜爱,印象笔记已经存在了十多年。在这段时间里,用户将大量的个人信息、知识类信息、生产力信息、学习、工作和生活的信息存储在我们的平台上。即使用户不选择自行训练模型,他们仍然会让我们的模型来处理这些信息。

我刚才提到了一个观点,即数据在逻辑上变得越来越重要、越来越有价值,无论是专项数据、专业领域的数据。我们始终是一家以提供不同技术,随着技术演进而为每个人提供更好用户界面的原生外脑的厂商。因此,我们对我们产品的能力和技术能力持续保持领先感到非常有信心。

很多AI产品都有辅助写作的能力,你们怎么定义辅助写作这个功能?你对如何运用大模型形成用户体验的壁垒有什么看法?怎么思考产品如何给用户带来价值?

我们觉得最首要的事情是思考问题,而不是想如何建立壁垒。或者说先想我到底做什么,服务什么,把这个做好了,然后把能力提高了,愿景想好了,壁垒就会慢慢显现出来。

印象笔记的产品壁垒是用户积累和存储的信息。因为用户对品牌的喜爱、认可和使用积累起来一些东西,逐渐形成了一个壁垒。

说到真正的壁垒的话,或者说优势,我们觉得有三点,第一点是模型/ AI 能力本身,第二点是部署本身,第三点是环境/交互,特别是我们在场景相关的交互上面的一些理解。

第一点,我们专门的一个逻辑是会存在不同模型的可能性。换句话说,在这个特定场景中,我们专注于积累语料、训练经验,并致力于为知识管理、写作和知识生产等领域提供专门的服务。针对这类场景需求,我们的模型具备一定的能力,无论是在模型容量、调优能力上,还是在多次迭代的模型持续能力上,以及在应用层进行索引和多次迭代运算的能力上,甚至在我们的提示工程能力方面,我们已经积累了相当长的时间。

模型部署角度的话,大家要思考的是不光是个人的需求,还有企业的需求,甚至一些政府场景的需求,那么它真正需要的模型一定是在防火墙这个背后来部署的。对于这个模型,我们考虑的不仅仅是它所训练的语料,而是要处理和分析的信息必须足够安全。因此,无论是私有部署、混合部署、通用模型还是私有模型,针对不同场景的模型,这是未来发展的方向。

交互来看,我们觉得有两种可能性,一个是菜单式的交互,一个是开放式的交互。开放式就是纯粹对话,它适用一些较不适用菜单式的交互。印象笔记的智能写作主要是菜单式的交互。在未来,我们将引入类似于 Copilot 的开放式对话,实现开放式的交互。这种交互逻辑类似于 ChatPDF 的逻辑。在这一点上,古典互联网的产品能力、交互设计能力和思考仍然非常有用,因为并不是所有场景都只能使用 LUI,而是介于 LUI 和 GUI 之间的边界点。何时选择何种方式,需要根据经验和积累做出决策。

对,一个简单的 LUI/对话框解决所有问题并不是最优的,那么哪些关键环节需要GUI来适时提升用户交互的效率和体验?

过去 GUI 胜过 LUI 的原因一个是背后技术能力的差距,比如像智能音箱这种传统技术驱动的 LUI 并不靠谱,所以之前交互体验上 LUI 选择远远落后于 GUI。

开放式 LUI 的逻辑和选择性菜单式 GUI 的逻辑,在不同场景和不同心理状态下,其实是有完全不同的边界和适用性,这一点是我们持续实践,持续思考的结果。

大模型最重要的能力是逻辑能力和进行多轮交互的能力,由于它处理的是语言,所以输入和输出的最优秀呈现到现在为止还是语言。因此未来一定是LUI会占更多的份额。

但是仍然有一些比如像单反相机用户这类人,它们喜欢从提供的选择中再选择,喜欢自己控制。从这一部分用户需求来说,GUI 肯定会存在。但 LUI一定会占更多的份额,因为 LUI 到现在为止还是最符合大模型技术逻辑的一种输入和输出的方式。

交互将持续是技术、产品以及技术通过产品为个人、企业、团队和每个人提供服务的过程中一个持续重要的领域。然而,这个领域本身的边界和内涵将发生变化,变得更加丰富。

也就是说,以前 UI 的核心是把所有工具放置好让用户方便调用。而未来 UI 的使命变成了在合适的时候出现,确保用户更好运用他们的能力。LUI 是一个新范式,但是光靠它是不够的,还需要一些其他的东西,有很多问题还要继续思考。

未来印象笔记的产品会有什么新的整合吗?会不会变成一个全新的东西?比如ToB的可能性。因为感觉现在好像很多到生产力级别的工具很快就到 ToB化了。而且 ToB 直接有非常强烈的付费意愿。

ToB 的话现在有很多企业已经在跟我们对接了。

就交互来说,未来肯定会有更多的设备适合 LUI,在这种设备的反向驱动下,一个应用厂商的选择一定会出来不同的交互选择和产品方向的选择。

大模型这件事之所以令人兴奋,就确实因为它是一个范式革命,产品有机会重新再造。它不是像原来的补丁更新,这个感觉就完全不一样了。

对,它是一次生产力底层变化的革命,让人兴奋的原因就是你会发现确实有很多东西只能重新构造,重新创造。

你们既然有这么多用户,有没有思考过这个产品未来的张力?比如像个人助理这种,因为你们已经有了外脑的概念。

谈到个人助理的边界和其在个人生活和产业中的角色,我认为有两点需要注意。首先,我们要认识到当前大模型的交互,无论是通过哪个软件或平台与其进行对话交互,或者让它处理任务,它都是同一个模型,不属于个人的模型,也没有通过用户的数据进行训练或优化。不论是通过单一提示工程的方法,还是通过向量数据库的形式进行索引,它都是一个大脑的思考。但很显然,全球共享一个大脑是不现实的。

第二点,一个大脑服务一个人也有些问题,因为一个人在不同场景下有不同的需求。例如,工作大脑、生活大脑,甚至可能还有娱乐大脑。

关于部署,除了形象上的部署之外,还存在一个非常技术角度的部署问题,即某些大脑我愿意放在云端,而某些大脑只有在设备上才让我放心。

因此,在选择 AI 助理或者 AI 助理的发展方向时,我们确实认为更个人化和更场景化是未来的趋势。它既不是一个大脑为许多人提供服务,也不是一个大脑为一个人提供服务,而是多个大脑为一个人提供服务。

另外,这些大脑,包括印象笔记的知识大脑和第二大脑的外脑思考,在产业和生产生活中的地位将会变得更加重要。它的重要性源于大脑思考的能力,它可以替代现有的一些平台级应用或信息聚集类应用,为用户提供最佳的服务、内容、产品、知识、协作和社交。

在目前阶段,所有人都会聚集在流量分发平台上。未来,我确信每个人的多个大脑将根据个人需求在各个场景中进行流量对接和分发。

像现在的不同产品,用户在使用过程中和它们建立了不同的连接(relationship)。

是的,个人助理在不同方面起到不同的辅助作用,但是这个助理有一个特点,即大模型具有所谓的「在上下文中学习」(in context learning)的能力,也可以称之为「思考链」或「记忆链」。当你与助理交互时,它能够理解上下文,并展现出这种能力,这是大模型训练过程中显现出的特征。然而,更重要的上下文是指一个人、一个系统或一个产品了解用户过去十几年写过的内容。

就我来看,我们应该从关系的角度来观察未来助理的状态。为什么我说助理不会成为一个全能型的助理呢?

因为这种关系并不符合人类的需求,人际关系是多层次的,你有用户、同事、朋友,甚至是酒友等等。在不同的领域中,你的关系是分层次的。所以不可能用一个模型来解决所有问题。

而且在某些场景下,上下文是不必要的,比如与酒友和球友交往时,知识和工作上下文并不重要。然而,与同事、学习伙伴、同学交流时,上下文非常重要,包括你过去积累的知识。

软件的未来:泛 API 化

软件未来还有没有价值?是不是软件都会变成API?这个时代如何重新理解软件?

我认为现在有机会重塑软件行业,它会增加软件的可能性并确认过去一些软件的趋势。

从我们的角度来看,软件具有广泛的含义。在过去的几十年里,软件行业涵盖了从基础设施、云架构、开发工具、服务到应用层的各个方面。

大模型和其带来的处理能力、思考能力、思维能力以及在生态系统中的角色,以及在算力、算法和数据上的不同方式(如从头训练、开源和调优)以及与厂商合作使用大语言模型的方式,将改变整个软件行业的形态和景观。个人认为,这种变化具有两个或三个明显的趋势。

第一个趋势是新的平台应用成为可能,未来聚集或者帮你分发和推荐的都是这个大脑。

第二点是,泛 API 化和插件化是一个很清晰的趋势。在软件和软件之间的交互中,API 扮演着重要的角色。从应用程序和应用程序之间的交互和对话来看,API 变得越来越重要。

第三点是,在重塑生态的过程中,我们的判断是还是要回到初心。在整个技术栈和应用栈的重塑过程中,包括新的大模型技术栈以及从底层芯片计算到应用层重新思考技术栈,我们始终要基于用户,需要从根本上以用户和用户体验为出发点进行思考。

总结起来,做软件的人在目标上需要更本分,即解决用户的问题。未来软件之间需要更加连通,形成一个用户群落。虽然想要实现「一切功能集合于一体」(all in one) 的目标很困难。

在未来的形态下,以前的策略可能行不通了。未来涉及到众多细分领域和场景,是否能在每个领域发挥最佳作用是关键。用户可能需要互相调用不同软件,在不同局部选择最好的解决方案。

不要假装自己已经想明白了

你们当时为什么决定推出「大象 GPT」和「印象 AI」的产品,并以如此快的速度实现它们?之前聊过印象笔记一直有个「第二大脑」的目标,这个目标是怎么出现的?

印象笔记在独立之前,很早就已经和生成式 AI 有联系了。

Evernote 最早期的创始人给这家公司的定义就叫 extented brain(扩展大脑)。当时这个老爷子已经有点帕金森了,所以创建 Evernote 的一个初衷就是能帮他记住并且想起可能忘记的事情,公司的愿景就是要成为人类的个人团队和企业的第二个大脑,或者说「外脑」。

这个愿景在之后公司的发展过程中一直在延伸,在生成式 AI 和 NLP 出现之前,印象笔记能够通过非常迅速地对不同形态的数据处理,帮助用户记录,并且永久记住内容。之前通过搜索实现,从关键词的匹配和算法上来解决这个问题。

在本土化之后,我们设立了印象研究院。我们在谷歌 Attention is all you need 那篇论文之前就在通过非 GPT 的形式进行自然语言处理和不同专业场景的自然语言理解的尝试。

研究院的目标很清楚,就是如何能够给个人、团队和企业提供「外脑「的服务。这项服务背后最重要的智能就是自然语言理解和处理。

在 2021 年左右我们就有了自动标注、智能标签、智能摘要这些功能,帮助用户把他们和他们的知识连接起来。我们的大象 GPT 之所以能这么快发布,也是基于我们多年研究的积累和经验。

现在的产品背后是驱动,用户从前端可以通过不同产品感受到这个影响,包括 AI 服务、一系列的智能生成、智能写作、智能总结这些功能。

产品背后是印象笔记自己研发多年的一个轻量级单元模型,也就是大象GPT,总体上所有的 AI 功能都是由大象 GPT 来运行的。它对印象 AI 中的写作助理,智能生成,智能文件分析这些功能进行驱动。

在你们3月份快速推进GPT这件事情的时候,有没有借助 OKR 或者 KPI 管理内部?你作为一个CEO,如何带领大家形成共识?

在目标管理和战略方面,我总结出几点观点。

首先,长期的战略方向是必要的,但短期调整也是必不可少的。我们需要明确一个大的方向,并持续进行调整。这个明确的过程可能需要花费更长的时间,我们需要思考自己的初衷和追求是什么。

另外,作为管理者,我不赞成只考虑短期内的事务,因为外部情况变化很多。印象笔记之所以在市场上有一定的实践成果,也不是因为我们仅仅短期想明白了,或者是因为 ChatGPT 的出现让我们想明白了。而是我们追求自然语言处理(NLP),追求通过语言为知识服务,通过知识服务为人类服务。

从这个逻辑来看,我们始终秉持初心,我们的方向符合大的趋势,当这个趋势出现时,就是一个机遇。所以,这一切都有一种顺理成章的逻辑。这是第一点。

第二点,我想分享一下印象笔记内部的公司文化。

我们公司的文化是硅谷文化和本土创业文化的结合,注重实际行动,同时也注重内部沟通。我们非常鼓励每个员工勇于承认自己的不足,不要假装已经完全想明白了,而是要倾听他人的意见。

同时在执行力方面,我们已经取得了显著的进展。印象笔记的代码量已经是当初 Evernote 的代码转移后的好几倍。所以,执行力非常重要,我们需要有战斗力,但也需要有思考能力,有讨论能力。

在这个前提下,我认为 KPI 和 OKR 才具有意义,它们并不是一个简单的解决方案,每个系统都有其自身的特点和优缺点,我们需要不断加强和改进,同时保持一致性和灵活性才能有意义。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK