14

AI做“军师”?先赢过Reddit用户再说吧

 4 years ago
source link: https://www.leiphone.com/news/202004/dpYTgOkRIpG0BLiJ.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

ymYJNb7.jpg!web

雷锋网消息,日前,西雅图的研究人员推出了一项被他们称为“TuringAdvice”的新人工智能大挑战,挑战的核心是创建语言模型,为使用真实世界语言的人类提供有用的建议。

TuringAdvice挑战赛是基于动态的RedditAdvice数据集而发起的。Reddit advice是为迎接挑战而创建的,它是一个众包的数据集,在过去两周里共享的建议在Reddit小组中获得了最多的支持票。为了通过挑战,机器提供的建议必须要与那些受欢迎的人类建议一样有用,甚至更好。

作为TuringAdvice的一部分,研究人员还发布了一个静态RedditAdvice 2019数据集,用于训练提供建议的人工智能模型,其中包括Reddit子社区用户分享的18.8万个情景下的61.6万条建议。

初步分析表明,像谷歌T5(去年秋天推出的一个拥有110亿个参数的模型)这样的高级模型,只有在9%的情况下,写建议版主发现至少和人类建议一样有用。研究人员还评估了Grover变压器模型和TF-IDF的版本。这项研究没有评估像Google的BERT这样流行的双向NLP模型,因为它们通常被认为在生成文本方面不如从左到右的模型。关于人际关系、法律事务和日常生活方面的建议,可以在网上找到人机对比演示。

最近发布的一篇关于TuringAdvice的论文写道:“今天最大的模型在REDDITADVICE上苦苦挣扎,所以我们很高兴看到新模型得到发展。”

“我们认为,如今存在一个深层次的问题:人类在现实世界中如何使用语言,与我们的评估方法能够衡量的,这二者之间存在差距。当今的主流范式是研究静态数据集,并根据输出结果与预先定义正确答案的相似性对机器进行评级。”

“然而,当我们在现实世界中使用语言进行交流时——比如提供建议,或向某人传授一个概念——很少有一个通用的正确答案可以与之相比,这只是我们想要实现的一个松散的目标。我们引入了一个框架来缩小基准测试和实际语言使用之间的差距。”

作者们表示,TuringAdvice挑战赛中的AI进展,可能会使人工智能更好地为人类提供建议或充当虚拟治疗师。

为了确保结果与真实世界的语言使用保持一致,研究小组选择了一种动态评估方法,他们在最近两周内从Reddit的各个子社区收集了200个情况。他们选择把建议作为一个测试场景,因为它是所有人都非常熟悉的东西,并且与阅读理解等核心NLP任务重叠。

TuringAdvice挑战是华盛顿大学和艾伦人工智能研究所(Allen Institute of AI)的工作,上周在arXiv上发表的一篇研究论文对此进行了详细阐述。该论文题为根据机器的实际语言使用情况来评估机器》(evaluation Machines by their Real-World Language Use)。华盛顿大学副教授Ali Farhadi是艾伦研究所先前团队的负责人,也是本文的合著者之一,他的人工智能初创企业Xnor最近被苹果收购。

所有的模型性能评估都来自于通过亚马逊的Mechanical Turk雇佣的人员。这篇论文曾对获取人工智能模型培训数据的方式表示不满,但它认为,比起发布自动化机器建议来回应需要帮助的人类,雇佣Mechanical Turk员工的做法更有道德;它也承认,获得报酬来完成这项任务会引入外部动机。倾向于选择机器建议而非人类建议的工人被解雇了。

首席研究员Rowan Zellers在采访中透露,研究人员将有机会创建并调整他们的模型;第二轮排行榜结果预计将在未来几个月内公布。

研究人员表示,他们选择了Reddit各子社区分享的流行建议,试图创造一种内在的动力,就像人们在Reddit上响应求助时所体验的那样。

TuringAdvice挑战赛的一个关注点是价格。评估200条关于Mechanical Turk的建议大概需要370美元。未来挑战赛的参与者将被要求支付Mechanical Turk的费用,以便他们的模型被评估或出现在TuringAdvice排行榜上。

TuringAdvice是过去一年中为建立更健壮的自然语言模型而创造的最新挑战。去年秋天,华盛顿大学的NLP实验室曾与纽约大学、Facebook的AI研究院和三星研究院一道,推出了SuperGLUE挑战赛和“排行榜”(leaderboard)这一个更复杂的评估性能的任务系列。

雷锋网编译,via VentureBeat: https://venturebeat.com/2020/04/14/researchers-challenge-ai-to-give-advice-as-well-as-humans-on-reddit-can/

雷锋网雷锋网 (公众号:雷锋网) 雷锋网

雷锋网原创文章,未经授权禁止转载。详情见 转载须知

Z3yEviu.jpg!web


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK