10

当机器具备跨模态感知能力后,会有智商吗?| MixLab人工智能

 3 years ago
source link: https://mp.weixin.qq.com/s?__biz=MzA3MDgyMjMwMA%3D%3D&%3Bmid=2649940553&%3Bidx=1&%3Bsn=18b40a71900bb11d71948f5789b91e99
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

640?wx_fmt=gif

大家好,我叫大铮,这是我的第一个专栏。我们将从脑科学,语言学,符号逻辑,决策推理等多个角度深入探讨什么 跨模态感知 ,再从人工智能的角度,来认识跨模态感知的具体实现。

希望通过这个专栏能让大家知道: 人类是多么高级的智能体 ,而机器在模仿人类智能这件事上走了多远,最终将会去往何处。

不同形式的模态

我们在生活中会接触到不同形式的信息,视觉上的图像、视频;听觉的语言;嗅觉对应的气味等,都可以称为模态。

随着信息技术和传感器技术的发展, 模态的范畴也变得更为宽广 :网络上的文本,深度相机收集到的点云等信息,都可以看作是不同形式的模态。 跨模态感知 涉及到两个或多个感官的信息交互,可以是通感(Synesthesia),也可以是转换感知。在实际应用中, 转换感知 更接地气:比如最基本的图像检索,就是一种从文本到图像的感官替换。反过来,从图像到语音的转换,可以帮助有视觉感官缺陷的人们,强化感知环境的能力。

640?wx_fmt=png

通感艺术家 Geri Hahn 根据她对英语语法内在相关性观察

创作的AND,BUT 和 NOT 三个词汇的视觉化形象

640?wx_fmt=png

微软的Seeing AI 可以帮助视障者

阅读文字,识别商品属性,感知好友的表情

为了让机器能自然流畅地和人交流,更好地让机器辅助人们用日常的生活语言完成多种多样的任务,研究者们在自然语言理解(Natural Language Understanding)方面做出了非常大的努力。

OpenAI,这家 获得特斯拉创始人 Elon Musk、PayPal 联合创始人 Peter Thiel、LinkedIn 联合创始人 Reid Hoffman 投资的人工智能研究公司,最近开放了 迄今为止最为强大的文本生成人工智能,GPT-3

GPT-3  

一种自动语言生成模型,它使用深度学习来生成类似于人类语言的文本。它是由位于旧金山的人工智能研究实验室 OpenAI 创建的 GPT-n 系列中的第三代语言预测模型。GPT-3 的完整版本包括了 1,750 亿个机器学习参数

开发者可以通过 调用API(Application Programming Interface,应用程序接口),利用这个强大的模型玩出各种花样,比如:

1 用文本的描述,生成网页的前段代码;

2 根据输入的开支文本描述,修改资产负债表上的数据条目;

3 在Excel里写下需要查询的内容,通过网络搜索自动填充查询结果;……

640?wx_fmt=gif

开发者 Sharif Shameem 利用GPT-3开发了一个简单的 to-do app

只需要输入“我需要一个文本框和一个按钮来保存输入的内容,生成我需要的todos” 就行了

GPT-3 的实验结果,似乎验证了 Richard Sutton 在之前颇具争议的论断,他在《苦涩的教训》的最后写道:“ 我们应该从苦涩的教训中学到一点: 通用方法非常强大,这类方法会随着算力的增加而继续扩展,搜索和学习似乎正是这样的方法。

在GPT-3推出后,一些在更广泛任务 上的实验 也指出 (他们让GPT-3完成了近一万六千道题目,内容涉及美国本科的课程、考试、牛津大学出版社出版物、研究生考试、美国医学许可考试等等) ,GPT-3 还不能真正地理解知识,其表现出来的能力更像是在死记硬背,缺乏对内容的系统性的理解能力。

图灵奖得主 杰弗里·埃弗里斯特·辛顿 ( Geoffrey Everest Hinton)在一次采访中提到,只有 1750 亿个参数的人工智能 GPT-3 与有 100 万亿个神经元的人脑相比,其参数数量依然是微不足道的。他认为就像人脑一样, 真正对于语义的理解,需要依托存在大量的向量神经活动中

640?wx_fmt=jpeg

Geoffrey Everest Hinton

在另一篇,来自华盛顿大学的 Emily M. Bender 和萨尔大学的 Alexander Koller发表并获得ACL最佳论文主题奖的论文中,他们也探讨了关于自然语言理解的问题。

文章中讲,目前的语言模型, 仅使用语言形式(form)来训练的方式永远也无法真正 “理解” 语言 。这里的形式是指语言的任何实现(observable realization),比如标记序列(token),或者写在纸上的 (written language),或者以声音形式存在的口头语言(spoken language) 等等。而所谓的语义(meaning)理解则是指语言的形式( form) 和某种 语言之外的东西的联系

这个观点与辛顿的理解不谋而合:“如果一个智能体能打开抽屉,然后取出一个积木,然后说:‘我刚刚打开抽屉然后取出一个积木’,那么可以认为它是明白自己是在做什么的。”

640?wx_fmt=gif

UCberkeley的机器人正在学习做咖啡

在深度学习框架的具体实现中,两个模态间的语义转换,需要将具有抽象概念的符号逻辑,与具有良好的 视觉/文本 形象表征能力的深度神经网络相结合。符号逻辑虽然不是最自然的事物的展现形式(最自然的应当是自然语言),但其优势是符号间的逻辑运算在数学上有一套完备的规则,而且这些规则能很 清楚地用代码写出来

符号

泛指的是我们的语言中经常被使用的抽象概念(比如交通信号灯的“红色”代表停止,“绿色” 代表通行;数学上的 “加法” 是一种线性运算方式的实例;“携带” 指两个物体间空间位置关系的一种状态),这些概念可以不区分具体的环境或者特定的任务而广泛成立,所以有时候我们也叫之为  “常识”

由于符号在不同的环境中是通用的, 少数几个符号 就能表示大量的视觉/文本形象,避免了特征向量在语义上是含糊不清的这一特性,这将有助于解决目前深度学习模型存在的一些问题:数据利用效率低,模型泛化能力差。而又由于符号的含义通常是明确且相互独立的,这就能让深度学习模型能够进行可解释的决策推理。

要想 把符号和深度学习结合 起来,需要先提取符号,再建模符号:

1 符号的提取是:

把现实世界的实体抽象化成符号,简单的做法是把深度神经网络的输出稀疏化从而转换成抽象的符号,也可以利用先验性的约束 (例如贝叶斯模型 指导模型自行学习符号。

2 有了抽象的符号之后要做的是:

把符号和符号关联起来。根据辛顿对于大型向量的解释,符号应该是向量中的一组基本元素,这组元素可以代表符号的含义,同时不同的符号之间又是相互独立的。

目前的使用深度学习模型来建模符号关系的方式主要有图神经网络,基于自注意力机制的Transformer (例如GPT-3)两种。这些结构结合了符号推理的框架,就能够实现 符号层面的推理 ,所得到的推理关系能够很容易地迁移到其它的任务上去,并产生同样的效果,这就如同辛顿说的:

640?wx_fmt=gif

图神经网络的信息传递和更新过程

“如果一个智能体能打开抽屉然后取出一个积木,然后说:‘我刚刚打开抽屉然后取出一个积木’, 那么可以认为它 是明白自己是在 做什么的。 (编辑:chunfang)

640?wx_fmt=jpeg

大铮

复旦大学计算机应用技术在读博士

研究:机器学习、深度学习、媒体大数据分析

“我想去未来看看”

在下一期专栏里,我会带大家来认识 人脑的认知过程 ,以及计算机科学家是如何 “仿脑” 的。

2020-2021 Mixlab 年度线下聚会 

报名  正式开始

640?wx_fmt=jpeg


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK