70

浙江移动“神灯·大数据行业知识图谱”隆重发布

 5 years ago
source link: http://www.10tiao.com/html/732/201806/2650500194/1.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

、背景

浙江移动经过长期探索和努力,已建成了BOM三域数据+互联网外采多维数据整合的大数据平台,作为企业级大数据平台共有服务器2000多台,日均采集数据量超过200T,运行任务数14万个,实时处理963亿条消息,为大数据应用提供了有力的PaaS能力支撑。但是随着数据的不断丰富,数据的内容理解和解析显得尤为重要,要精确理解用户行为数据,内容标签化、自动化是必然的趋势,运营商需要形成自己的内容知识体系,才能深度挖掘数据价值、为数据赋能,最终实现对客户标签的细粒化和多元化。浙江移动立足自身生产合作经验,吸收互联网行业知识,开展了新技术、新产品的研究和创新,在2018年自主开发建设了自己的内容知识图谱,发布了名为“神灯.大数据行业知识图谱”的产品。


二、产品内容

“神灯.大数据行业知识图谱”是指通过行业体系构建-用户行为识别-用户行为映射到行业体系中而形成的一套行为内容知识库+用户内容标签的组合。目前已构建38个一级行业,487个二级行业。一般行业粗分到二级目录,核心重点行业按照需求价值进行深耕开发排期,逐步拓展行业,重构行业体系和知识库。如金融行业深耕到四级共108个子类,餐饮行业已经深耕到三级共80个子类等,截止2018年3月,浙江移动的整体知识库已超过8000多万记录数。

知识库体系框架示例:

行业知识库数据示例:


三、知识图谱实现架构 

       浙江移动公司通过大数据技术,借助自研的云爬平台能力,采用DPI深度解析和自然语言处理,形成了从行业体系构建、知识库数据采集、用户行为解析、行为映射行业分类、沉淀行为事件标签的自动化流程,最终实现了用户行业内容标签自动标记的功能,该过程经历数据采集,DPI二次解析,机器分类,映射体系到行为输出的各个步骤,将用户手机上丰富的业务行为进行捕获沉淀,标记出通话事件、位置事件、短信事件等7维度事件,它是大数据平台用户挖掘标签的行为数据核心来源,产品架构设计如下:


四、技术创新点

随着互联网爆发式发展,用户标签海量化,自动化,大数据行业知识图谱在技术上对标签进行创新,采用自研的云爬平台来丰富标签来源,采用深度二次解析技术来加深用户标签深度,采用自然语言算法精准分词分类用户标签。

1)自研的云爬平台:用户的行为理解,需要大量的知识库数据,光运营商自有数据远远无法满足需求,需要有一套爬虫平台,满足稳定可靠的爬取所需知识库信息数据来源。浙江公司自研开发了一款B/S架构的云端爬虫平台,一个浏览器,一些明晰的规则配置,即能将一张张异构的互联网页面转变成一条条结构化的数据,并能按照一定的策略设置与数据源保持同步。

2DPI深度二次解析:通过DPI深度解析技术,对互联网日志进行解析:先探索解析规则,沉淀规则库;再根据解析规则过滤相应DPI日志还原真实URL;通过此URL爬取页面内容;最终解析页面要素并结构化形成知识库。以爱奇艺视频解析为例:

3)自然语言精准分词:借鉴互联网热门网站行业分类,结合传统移动黄页、POI分类等构建行业知识图谱的分类体系架构。通过云爬平台、结构化解析html,从而获取商家的urlid、名称、地址经纬度、电话号码、原始网站分类、简介、评论等互联网信息,作为待分类项目。根据待分类项目的原始分类、项目名称、简介、评论等信息,基于自然语言处理算法,计算爬取文本与行业体系内各分类的相似度,逐一归并到行业知识图谱体系中,完成待分类项目与行业体系的映射:


五、研发团队

         大数据行业知识图谱已培养了一支专门的自研团队,日常负责开发优化。主要工作为:

        1)重点行业的深耕开发:通过评估日常涉及垂直行业的需求内容,提炼新的深耕行业开发需求;端到端负责外采数据爬取,用户DPI数据二次解析,用户行 为分类识别标记形成用户内容标签,沉淀知识库,沉淀用户内容标签。

        2)新深耕行业上线的培训推广:每个行业深耕完成后负责组织专题使用培训,每月对相关模型使用热度进行分析,提炼优化需求,并落地实施。

        3)存量深耕行业的日常维护:按制定的外采模板统一收口所有工作中的知识库数据,周期性录入知识库,拓宽知识库数据的来源。随着行业发展不断优化更新存量行业的内容。



六、效果

自大数据行业知识图谱上线以来,在对内对外的需求实现上发挥着重要的作用。尤其在金融、餐饮、电商、视频、阅读、音乐等深耕行业的案例应用中,知识图谱的需求支撑度达到80%,较未采用大数据行业知识图谱支撑的营销成功率提升了1倍以上。



About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK