5

与被捧上天的AI相比,元数据可能更重要-InfoQ

 3 years ago
source link: https://www.infoq.cn/article/OY4NDteXtkcVTFYic7xX
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

与被捧上天的 AI 相比,元数据可能更重要

2021 年 5 月 05 日

与被捧上天的AI相比,元数据可能更重要

在网络搜索领域,元数据或将逐步取代 AI。

元数据正逐步取代 AI

元数据又称中介数据、中继数据,是用来描述数据的数据(Data that describes other data)。

元数据最大的优势在于,它具有良好的开放性。利用元数据,你可以轻松编写一款面向 OpenGraph 标签的解析器,既不需要 AI 模型也不需要云计算,就能轻松了解页面中包含哪些内容。此外,元数据的获取门槛也并不高,无需大量交互或协同即可快速获取。

软件工程师 Cal Paterson 认为,在网络搜索领域,元数据正逐步取代 AI。准确来说,当前的 AI 无法支持搜索引擎查找各类内容、切实理解内容含义,真正在背后起作用的,其实是元数据。当搜索引擎找到目标页面后,网站管理员需要提供丰富的元数据,来帮助搜索引擎快速理解页面内容。

以谷歌搜索引擎为例,谷歌一直爬取整个互联网体系页面,但过去的事实证明,即使是 20 个简单的网站,谷歌的页面爬取效果都堪称“惨不忍睹”。也就是说,常规的爬取网站方式根本驾驭不了无穷无尽的网络资源。

因此,在 2005 年的时候,谷歌推出了 Sitemaps 标准,允许网站管理员直接提交页面列表。有了 Sitemaps 标准,任何一个站点有更新,就会自动通知谷歌,方便谷歌进行检索,大大减轻谷歌的爬取负担。不过,即便多数网站都提供站点地图文件,谷歌面对如此庞大的、包含页面链接的 XML 文件,还是需要借助专门的工具来帮助互联网管理员调试具体问题。

比如,谷歌会通过添加一段元数据的方式,从两个相似页面中准确判断出到底谁才是真正的原始页面,以便谷歌不被链接所误导,从而在搜索结果中显示正确的页面。

此外,谷歌在对页面作者进行识别时,也会用到元数据。此前,谷歌上线了 Google+,并鼓励网站管理员提供当前页面作者的 Google+ 个人资料。而随着 Google+ 项目被废弃,谷歌转而从 Facebook 的 OpenGraph 规范当中读取元数据,以此处理谷歌主要搜索结果集以外的内容(例如向 Android 用户展示的新闻报道)。而对于其他数据,谷歌则选择解析 JSON-LD 元数据标签、“微格式”乃至其他指标。

虽然谷歌当前掌握文本分析功能,但与其他搜索引擎相比,谷歌的核心优势并不在于更强的自然语言处理能力,而在于其善于使用元数据——他们会根据反向链接判断代理的知名度。

例如,PageRank 真正关注的并不是页面的实际内容,相反,它的办法更加简单粗暴——哪个页面在其他页面中的链接使用量大,就证明前者的优势地位越强。而这,仍然是在依靠元数据的力量。

不过,元数据也并不是“万能神药”,只有元数据内容完全正确时,搜索引擎才能充分利用它分析内容。当前,有很多中立第三方提供元数据,例如公共记录或者多个不相关数据点的加权累计等等。谷歌在搜索引擎结果页面中展示维基百科数据就属于这种情况,PageRank 的工作原理也是以此为基础。

AI 神话快编不下去了

很明显,在网络搜索领域,当前的 AI 还没那么智能。那么,在响应搜索查询、返回文档内容方面,AI 的表现怎么样呢?答案依旧是否定的。

当前,AI 虽然可以从维基百科右侧信息框里提取结构化数据,但其带来的“边栏提取”与“零点击结果”反而让维基百科原始页面的访问量大大下降。

在搜索结果方面,AI 整理出的结果基本是由商业网站上那些博眼球的劣质“标题党”组成。这些网站的作者往往是设计页面元数据的专家,他们特别懂得如何利用谷歌算法,为自己的网站积累人气。用户要想得到自己真正想要的搜索页面,只能采用更复杂的办法进行查询,比如在搜索时加上网站名等等。

虽然谷歌声称“网络管理员应该放弃元数据,专注于内容本身”,但这种喊口号的方式并没有真正解决问题,只会误导用户,让用户以为当前的搜索引擎可以解决很多问题,元数据扮演的只是辅助角色。但实际上,不只是在网络搜索领域,在一些发展更快的领域中,元数据的作用也比 AI 明显。

以政府对网络活动的监控为例,执法机构更倾向于跟踪往来邮件、语音呼叫或者聊天消息等元数据内容,而不是采用 AI 模型去逐一分析民众在说些什么。同样的道理,很多人以为自动驾驶汽车会读取路标来计算特定道路的限速规定,但实际上,自动驾驶系统大多会结合当前 GPS 坐标直接查询限速规定。也就是说,只要移动应用与卫星导航配合良好,我们就会有这种“智能化”的体验。

人们朝着增强 AI 的目标一路狂奔,看上去一切美好。但拧巴的是,数据科学家们费尽心力打造的 AI 模型一旦公布,人们就会不断利用元数据让其推理过程更可靠、更具可解释性。有些时候,一个标记甚至可以抵得上 AI 模型计算半个小时。这个真实世界,就是如此魔幻。

参考链接:

https://calpaterson.com/metadata.html

划线
评论
复制
2021 年 5 月 05 日 06:003203
轻点一下,留下你的鼓励

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK