21

我们推出了 极客搜索 1.0

 3 years ago
source link: https://zhuanlan.zhihu.com/p/28218863
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

我们推出了 极客搜索 1.0

青峰之巅,山外之山

加盟极客邦科技已经四个多月了。很多关心我和极客邦的朋友最近常常询问:

最近在忙什么?(意思是这么久了怎么一点动静没有,到底行不行啊)
整合资源,研发产品

什么时候发布?(能不能做出来啊)
正在快马加鞭

好,坐等(我倒要看看你什么时候发)

今天就和大家说说我们新上线的一款副产品,极客搜索(极客搜索)。

这个产品的域名是:http://s.geekbang.org

极客邦科技最初是一家媒体加会议的公司,前身是 InfoQ 中国,我们产出的产品是 InfoQ 网站资源和各种技术大会、沙龙、社区活动。微信时代到来,InfoQ 中国也演进成了极客邦科技,我们依托微信平台推出了一系列公众号,形成了极客邦的公众号矩阵,在各个领域与我们的用户建立连接和沟通,同时推出了直播节目「大咖说」和短视频「二叉树」,并积累了上百万的用户。这种业务布局可以实现业务的快速增长,带来的问题是我们的用户和资源是不统一的,散落在各个平台。我的职责就是去把这些珍珠串起来,整合成更有价值的链条,然后呈现给客户。

极客搜索 的初衷其实是整合公司的资源库,给我们另一个新产品所用。结果做的过程中,搜索慢慢形成了自己的特点。我想,干脆做个 SideProject。

如前所述,产品一诞生,就会有自己的生命力,最终这个内部的资源库项目,演化成了今天的「极客搜索」。

极客搜索

极客搜索是一款针对极客邦科技全站内容资源的轻量级搜索引擎,内容覆盖了 InfoQ 中文站资源和极客邦旗下的公众号矩阵,其中包括:InfoQ、AI、前线、大数据杂谈、聊聊架构、移动开发前线、细说云计算、前端之巅、高效开发运维、EGONetworks、StuQ、极客官舍、极客邦科技。

v2-92d7af169e3d0772e94ba379c19f4330_720w.png

有了谷歌和百度,为什么我们还要做一款垂直的极客搜索呢?

极客邦科技为用户提供的主要服务之一就是生产高质量的泛技术化内容,随着公司形态的变迁,这些内容散落在 InfoQ 中国网站和大量的微信公众号内。

InfoQ 中国站的内容以国外技术文章翻译和国内技术人原创为主,本身是提供了站内搜索的,但是网站的移动版并不尽如人意,研发和服务器都在海外,访问速度也是个问题。在互联网时代,如果你的访问速度超过3秒,就会损失掉一大部分没有耐心和时间的用户。

公众号矩阵则从技术主题出发,生产更为专业和独立领域的内容,与该领域的读者建立连接通道。随着技术知识的泛化和对技能全栈的要求,越来越多的技术人员需要了解更多领域的信息。如何打通隔阂建立一个快捷、方便和统一的通道呢?

特性

我们构建了极客搜索。它可以让你快速、精准的触达极客邦科技的所有内容资源。

  • 快速:我们对极客邦科技的所有技术资源进行了索引,通过对前端和后端服务的优化,每次检索时间在50毫秒以内,并以非常简约的方式呈现给读者。
  • 长尾:挖掘技术文章的长尾效应,尤其是针对公众号文章。大量的公众号资源在发布三天以后就沉没了,无论对作者还是读者,这都是资源的极大浪费。
  • 精准:如果你是一个懒人,直接在极客搜索的输入框里键入你想要搜索的内容就可以了。如果你想走的更远,我们提供了多纬度的搜索方式。我们实现了按照 InfoQ 中文站的主题搜索,按照公众号的内容搜索和全站搜索。

举例说明,如果你想搜索 InfoQ 中国网站的 AI 资源,点击首页下方的 AI 主题,进入搜索页,在输入框输入深度学习,就可以找到 InfoQ 站 AI 主题下所有深度学习相关的文章。

如果你想搜索公众号「InfoQ」的机器学习资源,点击首页下方的「InfoQ」图标,进入搜索页,在输入框输入机器学习,就可以找到「InfoQ」公众号内所有机器学习相关的文章。

如果你想全站搜索 Python 和机器学习的文章,在首页输入「Python 机器学习」即可。

最后,我们把搜索结果按照类型进行了分类:新闻、文章、迷你书、演讲和访谈。取你所需。

技术实现

产品的技术实现并不复杂,重要的是解决用户的痛点,并构建轻量级的用户体验。系统的数据分析模块根据网站的不同主题资源进行结构化和特征抽取,结合公众号资源的特征,进行公众号自动识别。数据采集模块要处理历史数据和新增数据,基于队列机制,并根据特定的规则进行数据去重处理。同时我们要针对数据进行清洗,处理脏数据,保证数据质量,得到标准干净的数据,供存储和呈现使用。

检索系统采用了开源的 Elasticsearch,从近实时、可扩展、中文分词、搜准率和授权率平衡、同义词等几个角度出发,对聚合结果按规则进行索引构建,并进行了部分同义词调优。

展现层面使用了 vue2 + webpack 技术开发的单页应用,打包时小图片和图标字体资源会被 webpack 编码成 base64 代码嵌入 CSS 里, 其他静态资源会被 webpack 打上该文件的 hash 推送到 CDN 上。得益于轻巧高效的 vue2,极客搜索的响应和渲染速度相当快,几十毫秒内就能完成一次请求和页面渲染。

可爱的程序员

最后给我们的研发人员画个像。负责极客搜索研发的是两位工程师,一个叫涛哥,一个叫司令。俩人工作风格迥异。无论产品经理给涛哥提什么需求,他的回答就两个字「好的」,没过一会就告诉你「做完了」。有时候提的需求比较多,产品经理老白会不好意思的说「这个不急哈,往后面放放也可以」。涛哥会说,「咦,这个很容易做啊」,一会又做完了。测试人员提 bug 的时候絮絮叨叨,结果 bug 还没录入测试系统,涛哥就会腼腆的说「那什么,bug 已经修完了」。私下里我们都叫他快手涛神。

司令就不一样,每天皱着眉头在座位上咔咔写代码,你去提需求的时候他总是一脸不高兴「又要改?你们这帮产品啊,知不知道我压力特别特别大」,有时候还会给你讲一些产品实现的技术细节,搜准率啊,近实时啊,权重什么的,讲到一半会说「我知道怎么改了」,没过一会他就完成了 A 需求,还顺手把 B 需求给做了。

这能怪谁呢?我们只好可劲给他们提需求了 —— 未来我们会为极客搜索接入更多第三方的高质量技术资源。

体验一下快如闪电的极客搜索吧,我们的域名是:http://s.geekbang.org

Mac 和 Windows 用户请把它放到自己浏览器的收藏夹里,移动用户可以这么操作 —— 以 iOS 用户为例:

在 Safari 里打开网址 http://s.geekbang.org,点击分享,选择「添加到主屏幕」:

点击添加,极客搜索的图标就会放到你的桌面上,下次使用直接打开即可。安卓手机类似操作。

这次随着极客搜索上线的还有 极客邦科技官网 的更新,突出了极客邦科技为用户提供的核心价值和知识社区属性。

2017年的下半年,我们会陆续上线极客邦科技的新产品,包括软件和内容。最终,我们会按计划发布2017年技术社区的年度产品。

极客搜索 发布后,收到了大家非常多有价值的反馈。在1.0版本,我们力图用 20% 的力量解决极客邦用户 80% 的搜索需求。未来会逐步优化搜索结果,接入更优质的技术社区资源。

再给我们一些时间,谢谢。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK