48

竹间智能翁嘉颀:人机交互技术探索 | AI 研习社 60 期猿桌会

 5 years ago
source link: https://www.leiphone.com/news/201811/1yDcT3Q83sAfO3l4.html?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

雷锋网 AI 科技评论按:随着语音识别 ASR 的进步,对话机器人从简单的指令式的语音助手,进化到关键词交互方式,人们能够使用较为完整的句子来表达意图,机器人从中截取关键词判断用户意图。

现阶段利用 NLP 、NLU 技术,以及机器学习方式,慢慢脱离关键词的束缚,可以更聪明的去理解用户意图以做出正确的回应。再下一步是否能脱离一问一答的回应方式?是否机器人能主动的跟人产生互动?没有情绪情感的机器人真的算是智能机器人吗?情绪情感又有哪些可能的应用?

近日,在雷锋网 AI 研习社公开课上,竹间智能 CTO 翁嘉颀分享了人机交互技术探索。公开课回放视频网址: http://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin

翁嘉颀 Phantom Weng:竹间智能 CTO,作为 AI 领域的技术专家,他带领团队负责竹间在 AI 领域产品研发与技术规划,领域主要涵盖对话机器人、计算机视觉、金融科技等领域。此前,翁嘉颀在中国大陆及台湾的多个科技类创新企业担任 CTO、首席架构师等职位,带领团队进行 AI 及大数据领域的研究开发。他毕业于台湾大学资讯工程学系,此后就读于纽约州立大学。熟悉算法、编程语言、搜索引擎、网络安全以及邮件安全,使用过的语言超过 35 种。

分享主题: 人机交互技术探索

分享提纲: 情感计算、意图、主题、上下文、中文 NLP 应用、多轮对话、算法与数据的关系

雷锋网 (公众号:雷锋网) AI 研习社将其分享内容整理如下:

今天讲的主题是人机交互技术探索,我会着重讲这些技术的应用以及怎样解决当前的问题。

人机交互现状

先看一下人机交互目前的现况:第一个,双十一快到了,我在系统推荐了三件 T 恤后,回答「要黑色的」,大家可以看一下图左边智能客服的回答,竟然在介绍黑色的基本定义。第二个例子是与某家知名银行的智能客服的对话。最后这个例子就有点可怕了,这是去年发生的事情,大家可以看下图最右边对话框的对话。

6nMNze6.png!web

为什么现况是这样的?这是因为大部分人机交互都使用关键词匹配和模板的方式,没有上下文,语料都是从网络上爬来的——根本无法控制质量,怎么清洗基本上都没法使用。

我们再来看更多的例子:

第一个,机器人交互的情商:

Y3qm637.png!web

第二个,机器人交互的智商:

v2e6R3z.png!web

(关于人机交互现况更多案例的讲解,请回看视频 00:02 : 50 处, http://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin

使用模板的机器人没有情商,也无法进行多轮对话。Siri 曾在美国做过一个测验,测验结果显示它的智商为 2 岁,其他的机器人也差不多。而对于成年人来说,智商达到 16-18 岁的机器人,才是我们需要的机器人,然而,如何做到这种程度?

公司介绍

在此之前,我先介绍一下竹间智能这家公司。

IbaYRfz.png!web

我们似乎可以发现,目前在人工智能的文本分析和语义理解领域,很多公司的技术人员都是做搜索引擎出身的。

我们公司的 EMOTIBOT 是一个情感机器人,光文字情绪就做了 22 种,人脸表情 9 种,语音情绪 4 种,此外,还做了多模态情感识别。

Qfaqu2E.png!web

(关于 EMOTIBOT 的更多介绍,请回看视频 00:08 : 23 处, http://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin

需要的技术

做到较好的人机交互,需要哪些技术呢?

第一个是上下文理解技术,有三种方式:补全、指代消解和对话主题式补全。

BZbYriy.png!web

e22ARr3.png!web

第二个是主题、Speech Act &情感以及 Memory 的运用:

一是利用主题做对话控制;

r67fI3A.png!web

二是利用 Speech Act &情感;

Vri2ia2.png!web

三是利用 Memory;

b6zI3mQ.png!web

第三个是 Contextual graph;

v6juiiI.png!web

第四个是直接生成。

UZbeAve.png!web

第五个是场景和多轮对话。

U7vMBfN.png!web

(关于人机交互所需技术的更多讲解,请回看视频 00:11 : 05 处, http://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin

NLP 重要性

我们再来讲 NLP 的重要性,刚刚所提到的技术有一个自然语言处理平台,能够提供我需要的线索。我们先来看一个 NLP 平台的 Demo。

(关于 NLP 平台的 Demo 演示,请回看视频 00:32: 31 处, http://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin

而我们底下其实做了大量苦工,做得模块较多,就有更多机会,让各个模块在匹配时能够 Cover 对方的弱点。

r2aqIvI.png!web

那我们如何利用 NLU 的基础信息呢?

N3eMbeM.png!web

(关于 NLU 的模块架构和基础信息的具体讲解,请回看视频 00:37: 30 处, http://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin

中控中心

然后讲到一个中控中心的问题,这就涉及到刚刚所提到的多轮对话问题。那多轮之间能不能切换?下面是几个例子:

yYzmMvu.png!web

(关于多轮之间的切换的案例讲解,请回看视频 00:41: 00 处, http://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin

竹间科技经验分享

最后我分享一下竹间科技的实战经验。

一是算法。单一算法在图像识别上的应用表现可能还好,但在文本和语义理解上基本不可能获得好的准确率,下面是其无法解决的一些问题:

qiaQZb6.png!web

我们多模型的构建采用以下方式:

2yu2ay3.png!web

二是语言学家与数据质量。我们在数据标注上非常严谨,花了超过 3 万人/天的人力去做数据表述和检查。在 NLP 的数据专业度方面,我们每年至少投入 1500 万,三年以来,竹间的语言学家都维持庞大的队伍(纯硕士跟博士),目前有近 30 个语言学家。

(关于竹间科技的实战经验的详细分享,请回看视频 00:43:45 处, http://www.mooc.ai/open/course/587?=aitechtalkwengjiaxin

未来会不会存在这么一个世界:每个人都有一个机器人,机器人会懂你,就像好朋友和闺蜜一样;每家企业也会有机器人,会帮助员工完成订餐等事宜。这是一个理想的状态,虽然现在还有一段距离,但是也有很大的希望,不过我们只有将技术底层做好,才能一步步走到这个理想状态。

以上就是本期嘉宾的全部分享内容。更多公开课视频请到雷锋网 AI 研习社社区观看,关注微信公众号:AI 研习社(okweiwu),可获取最新公开课直播时间预告。

雷锋网原创文章,未经授权禁止转载。详情见 转载须知


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK