3

从亚运会看框计算与数据时效性

 3 years ago
source link: https://blogread.cn/it/article/3844?f=hot1
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

从亚运会看框计算与数据时效性

浏览:1223次  出处信息

    在2010年亚运会期间,百度框计算携手网易,提供了实时的赛事概况、直播、赛程进展、奖牌榜、比赛项目进程及直播等等一系列的服务,取得了重大突破。数据显示,亚运会的15天时间,通过百度框计算进行亚运相关检索的数量达到了4000万次,较上届2006年的多哈亚运会15天仅有74万的检索量相比,今年的网页检索量增长了54倍之多,可见框计算的威力之大!

    

wp-display-data.php?filename=151307008005.jpg&type=image%2Fjpeg&width=745&height=788

    框计算的优点是数据准确,更新及时。传统的大搜索由于数据量庞大,无法满足一些像亚运会这样时效性要求特别高的查询需求。这就决定了框计算技术从理念上区别于大搜索。为此百度框计算团队做了很多创新,以下以亚运会这个案例为背景介绍一下框计算的主要流程。

一、数据源准备

    框计算在百度内部的代号是阿拉丁,意指神灯可以照亮大搜索搜不到的“暗网”。将一些用户需求很明确,但是大搜索无法很好地展示给用户的资源以特殊的样式展示给广大用户。由此,优质资源的引入是个难题。

    框计算目前为了确保数据的正确性,需要站长直接整理并提交数据,并及时以适当的周期更新数据。但是像亚运会这样的大case, 合作方除了网易之外,还有央视,迅雷,新浪等数据要同时插入到结果中做展示,需要各资源方提供了数据后,由我们的机制生成合并后的可用数据。目前这样的case还有一些,如nba,足球赛事,以及天气和列车数据等重点资源,都需要介入资源数据整合,加入一些逻辑控制(如亚运会的重要赛程选择,奖牌榜数据计算等),以提供给用户更丰富、更明确、更需要的信息。

    在数据拼装过程会同时伴随有数据正确性验证的一系统监控机制,旨在资源进入框计算平台前保证数据的正确性。

二、平台生成规则数据

    目前我们的框计算平台(即百度搜索开放平台)每天会接受到大约200多个新的资源,同时也会增加200多个新的用户。如何从这么多的资源里挑选出可用的呢,平台首先会通过自动化检查机制筛掉一部分不合理资源,如数据无法获取,xml格式错误之类的。接着管理后台列出所有用户新提交的资源,并在PM(产品经理)的协助下进行人工筛选,这中间可能需要涉及到跟站长联系的过程。

    当PM初步确认了资源可用之后,站长的大量数据会被平台第一次抓取,并经过一连串地检查及数据重写过程,生成对应配置文件给建库端进行预览建库,生成预览数据给PM查看。

    如果一切正常,则可以通过审核并发起资源上线过程,平台会通知数据抓取模块按照站长设置的频率定期地抓取站长数据。如此反复地更新资源,最终展示给用户便是实时的确定性结果。

    需要说明的是,开放平台收录的各种资源在百度结果页上的展示样式不尽相同,这是通过一种模板技术实现的。我们会事先做好一些通用的模板,并将模板对应的数据样式提供给站长,这样就能确保数据跟展示对应上。一些特殊的资源如亚运会,我们会单独做模板,并以公有私有进行分类管理。

三、Query变换分析

wp-display-data.php?filename=161307008041.jpg&type=image%2Fjpeg&width=600&height=387
wp-display-data.php?filename=171307008060.jpg&type=image%2Fjpeg&width=602&height=337
wp-display-data.php?filename=181307008081.jpg&type=image%2Fjpeg&width=602&height=320

    query变换是另外一个不得不说的亮点,也许你曾经注意过,搜索“亚运会赛程”,“广州亚运会赛程”,“广州 亚运会 日程”会出现同样的开放结果,事实上他们都对应于亚运会赛程这个key,那么具体是怎么做的呢。

    大体上有三个过程:

同义词替换:

    如赛程与日程、时间、赛果,比赛是同义词,会在query变换过程中进行同义词替换。这个过程需要调用自然语言分析模块提供的接口。

    2. PM人工配词:

    有些特殊需求的query需要PM手动增加,如可以增加广州,中国,全部这种词语,这个配置会告诉检索端,遇到这些字眼时忽略掉就是了。所以搜索“广州亚运会赛程”,“中国亚运会赛程”,“全部 亚运会赛程”都会对应到亚运会赛程。注意第三个query中的空格也是pm配置的可忽略词语。

    3. 站长提供数据的key:

    再有就是站长提供数据中的所有key了,这个不多说了。

    还可以配置必须以某某开头,长度如何等更严格的变换规则,通用特殊库检索模块会在用户搜索一个query时,进行query变换,再去建好的库中检索出对应的数据,通过模板规则拼装页面结果,最终与大搜索页面进行合并后展示给用户。

四、调权与类聚

    如果你留意,亚运会赛程这样重要的query,通过开放平台展示的结果始终排在前列,这个效果是在gss拼装完结果后,将html送给US模块进行整合,配置该条结果的weight(权重)值实现的。对于一般的资源,我们也可以不指定位置,而是从用户的点击情况来自动分析权重,跟据统计出来的信息判断该条结果应该处于什么位置。

    另外一个细节,亚运会期间我们事实上对很多query做了类聚配置。所谓类聚,通常是指为了不出现重复结果,从链接到同一个url的几条结果中选出最重要的一条显示出来,而其它的结果隐藏。百度框计算平台可以配置某query是否参与类聚,以确保重要结果能够展示。

    百度开放搜索平台在两年的期间,无论从技术,还是从产品,都有了相当大的成就,现在已经成为了百度的明星项目,并主导着行业规则的制定。

    一切都是过去,百度框计算团队有更远的目标,如何获取更多的资源,如何使站长容易地理解我们的平台,是否可以尝试自动抓取优质资源,是否可以将我们收录的优质资源提供给外界使用。不久的一天,当你在百度框里输入‘打开电视机’,‘呼叫某某’时,意外地发现百度为您完成了所有的步骤。

    还只是开始,为了广大用户的搜索体验,我们一直在路上。

觉得文章有用?立即:

和朋友一起 共学习 共进步!

建议继续学习:

QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK