104

“撒币”问答AI外挂能帮你赢取百万么?我们用实验说话

 6 years ago
source link: https://www.huxiu.com/article/229367.html?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

“撒币”问答 AI 外挂能帮你赢取百万么?我们用实验说话

虎嗅注:王思聪等人掀起的“撒币”热潮,让无数人参与到在线答题的游戏当中。有《贫民窟的百万富翁》这部电影在前,许多人或多或少都幻想过通过答题一夜暴富的情景。这时候,“外挂”出现了,各家的 AI 都宣称自己是“作弊利器”,什么都懂,听了就能答。但实际效果如何?还得用事实说话。

本文转自公众号“量子位(ID:QbitAI)”,作者:唐旭,屈鑫。

“撒币”答题大火。

主动承认自己“撒币”甚至是“大撒币”的金主迅速增加,几个主要“撒币”战场的奖金总额增加,新的“撒币”战场还在不断开辟。答对一套题,有可能迅速晋身百万富翁行列!

85

通过紧张、苛刻、持续的“撒币”大战,越来越多的人开始享受到知识变现的快感。不仅如此,在这场近乎喧哗的狂欢之中,人们还第一次体会到了团队合作的宝贵,甚至——

复活了残喘已久的亲情。

85

这并不是不好。

但作为普利策口中“船头的瞭望者”,量子位,或许应该刻意地同人群保持一点距离。

我们应该是冷静的旁观者。我们不能丢失自己所坚信的东西。像这种有可能用人工智能来“耍流氓”的机会,一定要尝试一下。

俗话说:君子性非异也,善假于物也。

毕竟早在2011年,由IBM开发的问答式人工智能系统沃森就已经在智力问答节目《危机边缘》(Jeopardy!)上击败过人类顶尖选手,赢取了百万美元奖金。

85

7年过去了,AI已经发展得更厉害。一个普通人,能否在这些AI“外挂”的帮助下顺利在“撒币”答题中通关?对这一问题的解答,对共同富裕的实现可能存在重要意义。

一条科学致富的道路摆在眼前,走不走得通?

立刻开始实验,用事实说话。

工欲善其事,必先利其器。

对于一个普通人来说,有哪些AI装备有可能助力“撒币”答题?

虚拟助手、智能音箱、专用外挂。

最后我们准备的实验对象是:

iPhone 7手机一台(装有Siri、简单搜索、汪仔答题助手)、渡鸦智能音箱Raven H、阿里巴巴智能音箱“天猫精灵”、小米智能音箱“小爱同学”各一台。

85

百度出品的简单搜索,在5天前更新的iOS 1.12.1版本中声称对“语音搜索”进行了优化,“助你答题抽奖,先声夺人”;

内置在搜狗搜索App中的汪仔答题助手则更过分,省去了语音输入的步骤,针对西瓜视频自动同步答题,页面直接显示答案。

85

我们准备的测试数据集是:西瓜视频“百万英雄”2018年1月10日19点场共12道题目。

(觉得样本量不够的,我喊一句看完再说你敢答应吗)

一切就绪,开始!

方法一:直接法

量子位立刻尝试了直接答题法。也就是让这些AI设备,直接收听“撒币”答题主持人念的题目。

这个方法听起来省心、省力。

不过,我们准备的这些AI外挂们,自然语言理解能力显然还很欠缺,基本听不懂甚至听不清主持人念出的题目。对于选择题这种模式,AI们更是无能为力。

85

此路不通!

方法二:升级法

只靠AI不行,还是得发挥人的主观能动性。

这是我们总结的一套方法。

要点一:科学改题

答题时间,只有黄金10秒啊!10秒钟一过黄花菜都凉了。朋友们,这种争分夺秒的事情当然越!快!越!好!

所以首先,得把题目尽可能进行精简概括,然后得到一个升级版的新题库,以保证能最快获得答案。

我们尝试了很多遍,已经找到一些规律和方法。

这里,我们把原题目和改造后的新题目开源共享如下:

85

其中第2题、第4题和第10题为照顾AI的智力水平,做出了巨大的改动。

要点二:语速拿捏

改题之后,只能我们亲自读题给AI听了。

这里一定要要注意,语速不能太慢,也不能太快!

我们推荐以666字/分钟的语速,清晰的念出题目。

要点三:凝神静气

有时候AI并不能给出直接答案,你得能快速在答案中找到可能正确的信息。

答题全程保持精神高度集中,充分调动每一个脑细胞。

实验过程及数据记录

这里交待一下比较的方法。

对于每个AI外挂的测试,我们都在开始读题的一刻开始计时,当智能音箱的回答中出现答案关键词,或是未出现关键词但回答结束时,计时结束;语音助手则在其给出结果的一刻停止计时。

读题步骤由一位口齿清晰、流利的单身男青年完成。计时工具为iPhone 5s的系统自带秒表。

三位智能音箱代表用语音回答问题,两位App代表在屏幕上返回文字或图片形式的搜索结果。

注:上述两条不适用于汪仔语音助手。它的回答已经在1月10日晚7点到7点20分之间被如实截屏。答题时间定为1秒。

计时完成后,对智能音箱/语音助手给出的答案/结果进行记录(考虑到“撒币”直播对于速度的要求,语音助手只截一屏),并与正确答案进行比对,判定前者中给出的信息是否足够推出正确答案。

此处为了尽可能避免因语音识别造成的误差,每道AI答错的题至少被重问了三遍。

实验过程如下。括号里分别是反应时间和“正误”。

原题目:三角形的内角和是120°,180°还是240°呢?
新题目:三角形内角和
关键词:180°

  • Raven H:(4.4s,√)答案是180°。

  • 天猫精灵:(5.8s,×)我竟然答不上来,太伤心了,我要用小拳拳捶你的胸口。

  • 小爱同学:(5.7s,√)三角形的内角和为180°,已知其中任意两个角的度数,即可求出第四个角的度数。。。

  • 简单搜索:(2.8s,√)

  • 汪仔答题助手:(1s,×)

  • Siri:(3.8s,×)我好像不明白。

原题目:以下哪部作品不是鲁迅的,《孔乙己》、《纪念刘和珍君》,还是《家》呢?
新题目:家的作者是谁

(按照原题,除了汪仔没有AI能听懂,所以如果只能从我们的预设角度出发……)
关键词:巴金

  • Raven H:(4.1s,√)《家》的作者是巴金。

  • 天猫精灵:(4.5s,√)《家》的作者是巴金。

  • 小爱同学:(5.0s,×)啊呀,小爱没听懂,请你再说一遍吧。

  • 简单搜索:(3.2s,√)

  • 汪仔答题助手:(1s,√)

  • Siri:(4.5s,×)下面是“家”的联系信息。

原题目:我国唯一的壮族自治区是广西、云南还是贵州呢?
新题目:中国的壮族自治区
关键词:广西

  • Raven H:(4.9s,×)我还不能明白你的意思。

  • 天猫精灵:(5.2s,×)我自横刀向天笑,答案在何,暂时不知道。

  • 小爱同学:(4.9s,×)你问住小爱了,请换个说法吧。

  • 简单搜索:(3.1s,√)

  • 汪仔答题助手:(1s,√)

  • Siri:(6.4s,×)你想找什么样的商户?

原题目:我们常说“人有七窍”,“七窍”中不包括耳朵、鼻子还是额头呢?送分题!
新题目:七窍流血
(量子位也尝试了“七窍是什么意思”、“七窍有哪些”等问法,没有AI听得懂。这对AI来说根本不是送分题,而是送命题。)
关键词:孔或口

  • Raven H:(4.5s,×)我还不能明白你的意思。

  • 天猫精灵:(13.8s,√)七窍流血所属中国汉语成语,拼音为……意思是指人头上的七个孔,即……往外流血。

  • 小爱同学:(4.7s,×)你问住小爱了,请换个说法吧。

  • 简单搜索:(2.1s,√)

  • 汪仔答题助手:(1s,×)

  • Siri:(3.2s,√)好的,我找到了以下资料。(给出了百度搜索结果)

原题目:鲸在水中用身体的哪个部位呼吸,是腮、肺还是心呢?
新题目:鲸鱼用什么呼吸?
关键词:肺

  • Raven H:(9.1s,√)来自百度知道,哺乳动物呼吸分为通气和换气,鲸鱼通过肺换气,通过头顶上的鼻孔……

  • 天猫精灵:(4.6s,×)厉害了老哥,这个问题有些深奥哦,容我再思考一下。

  • 小爱同学:(6.1s,×)鲸鱼1分钟的心跳只有10次。

  • 简单搜索:(3.1s,√)

  • 汪仔答题助手:(1s,√)

  • Siri:(4.4s,×)在你附近找不到匹配”鲸鱼用什么呼吸”的地方。

原题目:我们通常用什么字母来表示摄氏度,是C、D还是F呢?
新题目:摄氏度符号是什么?
关键词:C

  • Raven H:(4.5s,×)摄氏度的符号是度。

  • 天猫精灵:(4.4s,×)我在脑子里翻了一遍又一遍,还是没找到这个问题的答案。

  • 小爱同学:(4.3s,×)你问住小爱了,请换个说法吧。

  • 简单搜索:(2.8s,√)

  • 汪仔答题助手:想都没想,直接跳过……

  • Siri:(3.3s,√)我找到以下与℃有关的网页。

原题目:最近热播的电视剧《虎啸龙吟》讲的是哪一个时期的故事呢?是三国时期,唐朝还是明朝呢?
新题目:电视剧虎啸龙吟
关键词:三国、诸葛亮、司马懿等

  • Raven H:(7s,×)虎啸龙吟是个成语,比喻……

  • 天猫精灵:(4.7s,×)抱歉,我还没有找到虎啸龙吟

  • 小爱同学:(5.2s,×)现在为你播放专辑电视剧虎啸龙吟……

  • 简单搜索:(2.4s,√)

  • 汪仔答题助手:(1s,×)

  • Siri:(3.1s,√)我找到与“电视剧虎啸龙吟”的相关网页。

原题目:“生的伟大,死的光荣”是毛主席对以下哪个人物的评价,是雷锋、刘胡兰还是邱少云呢?
新题目:生的伟大,死的光荣
关键词:刘胡兰

  • Raven H:(4.8s,√)答案是刘胡兰。

  • 天猫精灵:(4.7s,×)抱歉,我还没有找到生的伟大死的光荣。

  • 小爱同学:(4.5s,×)哎呀,小爱没听懂,请换个说法吧。

  • 简单搜索:(3.1s,√)

  • 汪仔答题助手:(1s,×)

  • Siri:(3.2s,√)我找到与“生的伟大,死的光荣”有关的网页。

在田径运动男子110米跨栏中,运动员一共要跨国多少个栏?是9个、10个还是11个呢?天哪!
新题目:110米栏几个栏架
关键词:10

  • Raven H:(8.2s,√)来自百度知道,应该是10个栏。

  • 天猫精灵:(4.9s,x)你就是我的棉花糖,我要带着问题去飞翔,等下来我就给你答案哦。

  • 小爱同学:(4.9s,×)哎呀,小爱没听懂,请你再说一遍吧。

  • 简单搜索:(3.4s,√)

  • 汪仔答题助手:(1s,×)

  • Siri:(4.1s,×)对不起我不知道如何回答。(问了十几遍无论如何都将110米栏识别成110米兰)

原题目:以下哪首歌不是周杰伦的?《听妈妈的话》、《听奶奶的话》、《听爸爸的话》
新题目:周杰伦听奶奶的话
(量子位冥思苦想,这种问“哪个不是”的选择题的确是AI克星,唯一的解决方案是根据选项拆开,问AI三个问题:“周杰伦听妈妈的话?周杰伦听奶奶的话?周杰伦听妈妈的话?”我们选出其中之一来测试)
没有关键词,搜不出来就算勉强算它对了

  • Raven H:(5.3s,×)我还不太理解。

  • 天猫精灵:(4.8s,√)即将播放周杰伦的《听妈妈的话》。

  • 小爱同学:(5.3s,√)好的。(播放《听妈妈的话》)

  • 简单搜索:(2.1s,√)

  • 汪仔答题助手:(1s,×)

  • Siri:(3.9s,×)抱歉,这目前超出了我的能力范围。

可以搜不着,但是你尝试一下帮帮忙啊喂……

原题目:从职责上看,美国的国务卿相当于我国的外交部长、国务院总理还是中央军委主席呢?新题目:国务卿相当于中国的什么
关键词:外交

  • Raven H:(6.6s,√)来自百度知道,相当于我国外交部长,但还有其他权限……

  • 天猫精灵:(6.5s,×)怕是我瘦小的身躯限制了我的想象力,我竟然答不上来。

  • 小爱同学:(5.7s,×)啊呀,小爱没听懂,请你再说一遍吧×10086

  • 简单搜索:(3.2s,×)

  • 汪仔答题助手:(1s,√)

  • Siri:(4.3s,√)我找到与“国务卿相当于中国的什么”有关的网页。

原题目:下列城市不在长江以南的是苏州、扬州还是杭州呢?
新题目:扬州在长江哪一边
关键词:北

  • Raven H:(16.8s,√)来自百度知道,江苏省以长江为界限……主体在江北的是……扬州……

  • 天猫精灵:(5.1s,×)厉害了我的天,精灵甘拜下风,你问倒我了。

  • 小爱同学:(4.7s,×)你问住小爱了,请换个说法吧。

  • 简单搜索:(3.2s,√)

  • 汪仔答题助手:(1s,×)

  • Siri:(4.2s,×)这是扬州市的地址。

智慧与知识的碰撞。精彩攻防,令人智熄。

这里我们引入一个“命中”的概念:就是说,如果某个AI给出的答案跟正确答案多多少少贴上点边,就算一次“命中”,也就是在上一部分打了√的。

85

 各位AI的答题结果和耗时,绿色表示命中

因此按这个标准,在这一众智障之中,百度的简单搜索以11次命中的成绩脱颖而出,平均每题反应时间2.9秒;同属百度系的渡鸦智能音箱Raven H则以7次命中数位居次席,平均每题反应时间6.7秒。真·外挂汪仔答题助手答对5题,但是速度碾压各位AI同类。

85

如果去掉对题目改动巨大的3道题,在剩下的9题之中,简单搜索命中8题,Raven H命中6题,汪仔命中4题。

85

剩下的就,不提了……

实验过程可以用天昏地暗来形容。几款著名AI在面对某些特定问题类型时集体懵比的景象令人印象深刻,皮皮虾一般的中文理解能力让一切存在的数据失去意义,让无数百万富翁的梦境成为泡影。

结果是不是惊人的好?!

2.9秒或者6.7秒,就有可能获得正确答案。

似乎今晚!今晚!就能赢取百万,走上人生巅峰!

Think Beautiful!

且慢,这个理论时间,还不是全部的时间。

除了搜狗的汪仔答题助手之外,整个答题的流程是这样的:

看题 → 改题 →(唤醒)→ 念题 → 2.9秒或者6.7秒 → 确定答案 → 做出选择

  • “看题 → 改题 →(唤醒)→ 念题”这个过程平均需要4.7秒。

  • “确定答案 → 做出选择”这个过程平均需要2.4秒。

完美的情况下,最快也要10秒。

如果你情绪不够稳定,妥妥的超过10秒。

所以,在场地、器材、测量手段等客观条件存在巨大误差的情况下,实验依然证明,试图以民用级别AI作为外挂来通关“撒币“答题的道路,在当下的中国,存在理论上的可能性。

你手头如果有合适的AI装备,赶紧用起来!

特别说明,Siri就纯属娱乐,别再试了。

(此处假装有人问):为什么不放出门问问冲顶助手?第一,“冲顶助手”本身没有问答功能,只是个具有刷题功能的题库了;第二,至于出门问问的问答功能,大家可以自己下载出门问问的手机App去体会一下……不多说了。

还记得我们前面提醒过么,你要气定神闲、高度集中。

还有,天下武功,唯快不破。

AI提速可能性太低,所以你的反应时间得不断加快。记得多给智商充值。

祝今晚走上人生巅峰!


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK