当机器具备跨模态感知能力后，会有智商吗？| MixLab人工智能

640?wx_fmt=gif

大家好，我叫大铮，这是我的第一个专栏。我们将从脑科学，语言学，符号逻辑，决策推理等多个角度深入探讨什么是 跨模态感知 ，再从人工智能的角度，来认识跨模态感知的具体实现。

希望通过这个专栏能让大家知道： 人类是多么高级的智能体 ，而机器在模仿人类智能这件事上走了多远，最终将会去往何处。

不同形式的模态

我们在生活中会接触到不同形式的信息，视觉上的图像、视频；听觉的语言；嗅觉对应的气味等，都可以称为模态。

随着信息技术和传感器技术的发展， 模态的范畴也变得更为宽广 ：网络上的文本，深度相机收集到的点云等信息，都可以看作是不同形式的模态。 跨模态感知 涉及到两个或多个感官的信息交互，可以是通感（Synesthesia），也可以是转换感知。在实际应用中， 转换感知 更接地气：比如最基本的图像检索，就是一种从文本到图像的感官替换。反过来，从图像到语音的转换，可以帮助有视觉感官缺陷的人们，强化感知环境的能力。

640?wx_fmt=png

通感艺术家 Geri Hahn 根据她对英语语法内在相关性观察

创作的AND，BUT 和 NOT 三个词汇的视觉化形象

640?wx_fmt=png

微软的Seeing AI 可以帮助视障者

阅读文字，识别商品属性，感知好友的表情

为了让机器能自然流畅地和人交流，更好地让机器辅助人们用日常的生活语言完成多种多样的任务，研究者们在自然语言理解（Natural Language Understanding）方面做出了非常大的努力。

OpenAI，这家获得特斯拉创始人 Elon Musk、PayPal 联合创始人 Peter Thiel、LinkedIn 联合创始人 Reid Hoffman 投资的人工智能研究公司，最近开放了 迄今为止最为强大的文本生成人工智能，GPT-3 。

GPT-3

一种自动语言生成模型，它使用深度学习来生成类似于人类语言的文本。它是由位于旧金山的人工智能研究实验室 OpenAI 创建的 GPT-n 系列中的第三代语言预测模型。GPT-3 的完整版本包括了 1,750 亿个机器学习参数 。

开发者可以通过调用API（Application Programming Interface，应用程序接口），利用这个强大的模型玩出各种花样，比如：

1 用文本的描述，生成网页的前段代码；

2 根据输入的开支文本描述，修改资产负债表上的数据条目；

3 在Excel里写下需要查询的内容，通过网络搜索自动填充查询结果；……

640?wx_fmt=gif

开发者 Sharif Shameem 利用GPT-3开发了一个简单的 to-do app

只需要输入“我需要一个文本框和一个按钮来保存输入的内容，生成我需要的todos” 就行了

GPT-3 的实验结果，似乎验证了 Richard Sutton 在之前颇具争议的论断，他在《苦涩的教训》的最后写道：“ 我们应该从苦涩的教训中学到一点：通用方法非常强大，这类方法会随着算力的增加而继续扩展，搜索和学习似乎正是这样的方法。 ”

在GPT-3推出后，一些在更广泛任务上的实验也指出（他们让GPT-3完成了近一万六千道题目，内容涉及美国本科的课程、考试、牛津大学出版社出版物、研究生考试、美国医学许可考试等等），GPT-3 还不能真正地理解知识，其表现出来的能力更像是在死记硬背，缺乏对内容的系统性的理解能力。

图灵奖得主 杰弗里·埃弗里斯特·辛顿 （ Geoffrey Everest Hinton）在一次采访中提到，只有 1750 亿个参数的人工智能 GPT-3 与有 100 万亿个神经元的人脑相比，其参数数量依然是微不足道的。他认为就像人脑一样，真正对于语义的理解，需要依托存在大量的向量神经活动中

640?wx_fmt=jpeg

Geoffrey Everest Hinton

在另一篇，来自华盛顿大学的 Emily M. Bender 和萨尔大学的 Alexander Koller发表并获得ACL最佳论文主题奖的论文中，他们也探讨了关于自然语言理解的问题。

文章中讲，目前的语言模型，仅使用语言形式（form）来训练的方式永远也无法真正 “理解” 语言。这里的形式是指语言的任何实现（observable realization），比如标记序列（token），或者写在纸上的（written language），或者以声音形式存在的口头语言（spoken language）等等。而所谓的语义（meaning）理解则是指语言的形式（ form）和某种 语言之外的东西的联系 。

这个观点与辛顿的理解不谋而合：“如果一个智能体能打开抽屉，然后取出一个积木，然后说：‘我刚刚打开抽屉然后取出一个积木’，那么可以认为它是明白自己是在做什么的。”

640?wx_fmt=gif

UCberkeley的机器人正在学习做咖啡

在深度学习框架的具体实现中，两个模态间的语义转换，需要将具有抽象概念的符号逻辑，与具有良好的视觉/文本形象表征能力的深度神经网络相结合。符号逻辑虽然不是最自然的事物的展现形式（最自然的应当是自然语言），但其优势是符号间的逻辑运算在数学上有一套完备的规则，而且这些规则能很 清楚地用代码写出来 。

符号

泛指的是我们的语言中经常被使用的抽象概念（比如交通信号灯的“红色”代表停止，“绿色” 代表通行；数学上的 “加法” 是一种线性运算方式的实例；“携带” 指两个物体间空间位置关系的一种状态），这些概念可以不区分具体的环境或者特定的任务而广泛成立，所以有时候我们也叫之为 “常识” 。

由于符号在不同的环境中是通用的， 少数几个符号 就能表示大量的视觉/文本形象，避免了特征向量在语义上是含糊不清的这一特性，这将有助于解决目前深度学习模型存在的一些问题：数据利用效率低，模型泛化能力差。而又由于符号的含义通常是明确且相互独立的，这就能让深度学习模型能够进行可解释的决策推理。

要想 把符号和深度学习结合 起来，需要先提取符号，再建模符号：

1 符号的提取是：

把现实世界的实体抽象化成符号，简单的做法是把深度神经网络的输出稀疏化从而转换成抽象的符号，也可以利用先验性的约束（例如贝叶斯模型）指导模型自行学习符号。

2 有了抽象的符号之后要做的是：

把符号和符号关联起来。根据辛顿对于大型向量的解释，符号应该是向量中的一组基本元素，这组元素可以代表符号的含义，同时不同的符号之间又是相互独立的。

目前的使用深度学习模型来建模符号关系的方式主要有图神经网络，基于自注意力机制的Transformer (例如GPT-3)两种。这些结构结合了符号推理的框架，就能够实现 符号层面的推理 ，所得到的推理关系能够很容易地迁移到其它的任务上去，并产生同样的效果，这就如同辛顿说的：

640?wx_fmt=gif

图神经网络的信息传递和更新过程

“如果一个智能体能打开抽屉然后取出一个积木，然后说：‘我刚刚打开抽屉然后取出一个积木’，那么可以认为它是明白自己是在做什么的。 ” （编辑：chunfang）

640?wx_fmt=jpeg

大铮

复旦大学计算机应用技术在读博士

研究：机器学习、深度学习、媒体大数据分析

“我想去未来看看”

在下一期专栏里，我会带大家来认识 人脑的认知过程 ，以及计算机科学家是如何 “仿脑” 的。

2020-2021 Mixlab 年度线下聚会

报名 正式开始

640?wx_fmt=jpeg

2020-2021 Mixlab 年度线下聚会

Recommend

印度尼西亚：中国短视频平台的新战场

Go运行时中的 Mutex

四轮战事又起，出租车重回C位

理解电动汽车，也许要在“出行”以外

从实战中来，到实战中去——Elasticsearch 技能更快提升方法论

中国光伏二十年：周期的狂欢，补贴的毒药

下一代笔记应用Notion，我是如何使用他来管理知识的

三年入行五年懂行十年称王 - 卢松松博客

你未能进入网络营销行业，可能是你没碰到给你三颗痣的人 - 卢松松博客

15分钟写一篇利于SEO的高质量文章的方法 - 卢松松博客

About Joyk