36

百度搜索部分学校幼儿园导向色情网站 词条目前已修复

 5 years ago
source link: https://www.cnbeta.com/articles/tech/822899.htm?amp%3Butm_medium=referral
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

随后,笔者测试了部分小学的百度百科,发现百度已经在今晚20:48分前后批量对这些学校的百科词条进行了修改,文章所指的参考资料链接 网站 已被删除。

nMJ32q6.jpg!web

Nju2EbI.jpg!web

截止到发稿时,百度并未对此事做出回应。

在百度搜索部分小学和幼儿园,会被导向色情网站

yiQZJbY.jpg!web

作者:方可成

前两天,一位广州的家长在微博上发来私信,他发现:在百度中搜索广州的很多小学和幼儿园的名字,结果中排在首位的一般都是百度百科,而进入百度百科页面之后,点击参考文献中的“广州上学网”,却会进入色情网站。

z2aiQru.jpg!web

我测试了一下,的确如此。

7JFviur.jpg!web

通过搜索,我发现至少有这些学校的百度百科参考资料会指向色情网站:广州 开发 区第二小学、广州市海珠区星云幼儿园、广州市越秀区大沙头中英文幼儿园、沙河小学、北山小学、化龙中心小学、滨江东路第二小学、左边小学、复甦小学、五凤小学、芳华小学、协和小学、广州市海珠区江南西艺星幼儿园、广州市越秀区黄金实验幼儿园、小洲小学、侨乐小学、金影小学、培红小学、天河区龙洞小学、同福西路小学、聚德西路小学、博雅小学、天河区棠下小学、长安东街小学、增滘小学、禾丰小学、长湴小学、天河区骏景米洛英文幼儿园、瑞宝花园小学、黄村小学、广雅实验学校、横沙小学、花都区新华镇九潭小学、从化市从化英才幼儿园、乐贤坊小学、黄埔同仁小学、握山小学、三善小学。

为什么会出现这种荒唐的情况?

根据我的分析,原因是:“广州上学网”此前是一个真实的学校信息汇集网站,这些学校的百度百科页面在编写的时候,确实是指向了真正的“广州上学网”。

后来,这个网站关闭了,内容无法再访问。

再后来,“广州上学网”的 域名 被色情网站运营者买下,设置成了自动跳转色情网站。这样一来,所有原本指向“广州上学网”的链接,现在都会被跳转到色情网站。

所以,百度是躺枪了?都怪色情网站太狡猾,百度对此并无责任?

并非如此。百度百科自称“全球最大的中文百科全书”,是亿万中国人认知世界的渠道,并且在百度搜索结果中获得了极高的展现权重,这就要求它必须采取措施,保证内容质量。

虽然百度百科是人人都可以编辑的,但平台应该对最终呈现的内容负责。实际上,百度自身也对外强调:“参考资料要权威”,要杜绝色情、违法、广告、虚假、灌水、恶意编辑等现象。

7Z3uIva.jpg!web

杜绝色情违法内容,不仅是编写词条的时候要审核,在词条通过之后也应该时常检查:链接是否失效或被跳转到其他网站。

以百度高超的技术能力(前不久刚刚平稳应对了春晚红包的巨大流量),写一个程序检查百度百科中的失效链接和可疑跳转,是一件再简单不过的事情。

然而遗憾的是,百度并没有做这件事情,而是让色情网站的运营者钻了空子,让部分查询小学和幼儿园信息的家长(乃至学生)被导向了色情网站。

过期链接问题是互联网面临的一大挑战,我们可以对比一下维基百科是怎么做的。

为了处理过期链接问题,维基百科特别制定了如何处理过期链接的详细规则。

ayA3UnR.jpg!web

过去几年中,在互联网档案馆(Internet Archive)的帮助下,维基百科还利用机器人自动检测失效链接,并替换为有效的历史存档链接,抢救了多达900万个失效链接。

emYVjuB.jpg!web

这里就不得不提一嘴互联网档案馆这个高能的资料库。它最有名的“馆藏”,就是互联网时光机(Wayback Mahince),通过它,你可以看到很多网站过去的样子,也可以找回现在已经不存在的网站之前的模样。

比如,我在互联网时光机中输入“广州上学网”的网址,就能看到:从2011年下半年开始,就有了这个网站。

326zeyz.jpg!web

点进2013年的一个快照,可以看到当时这个网站长这样:

FfuE7vY.jpg!web

从2015年开始的快照,就显示这个网站不再正常运转。2018年的快照,抓下来的就是色情网站。

互联网时光机这个神奇工具的社会意义,怎么说都不为过。它保留下了珍贵的档案资料,供我们探索和研究。

正是在时光机的帮助下,维基百科上的几百万失效链接,都被重新指向了正确的历史版本。

为了防止今后再出现链接过期现象,现在,每当用户在维基百科上添加了一个外部的引用链接,互联网时光机就自动会把这个页面爬取下来储存到自己的 服务器 上,以保证之后一定可以追溯得到。

互联网档案馆的“馆藏”还不止于此,它还收录了巨量的图书、音频、影像、软件、游戏等资料,还开设了专门的“川普 数据库 ”等主题馆藏,收集了和川普有关的电视新闻、演讲、辩论等。如果你喜欢翻阅资料,你一定会在其中找到自己感兴趣的内容,很可能陷入其中无法自拔。

维基百科和互联网档案馆,都能够让你感受到互联网最美好的样子:丰富、优质的信息,悉心的编辑整理,无偿开放的使用,借助技术解决最紧要的问题。

最最重要的是:对信息负责任的态度。

重金投入人工智能的百度,不妨分出一点点资源解决失效链接问题,以免小学生误入色情网站?

最后想说,我和百度并无私人恩怨,我只希望通过对问题的揭示,以及对国外解决问题的方法的介绍,来告诉大家:我们的互联网信息环境很不理想,我们的互联网平台本来是可以做得更好的,它们也应该做得更好,而这需要我们每一位用户向它们施加更大的压力,大声说出自己的不满,告诉它们用户真正的需求是什么,更加在意地挑选手机中安装的app。

我会继续观察和监督,希望你也是。

维基百科和互联网档案馆,都能够让你感受到互联网最美好的样子:丰富、优质的信息,悉心的编辑整理,无偿开放的使用,借助技术解决最紧要的问题。 最最重要的是:对信息负责任的态度。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK