1

博睿数据OneAlert:统一告警带来的智能运营

 2 years ago
source link: http://net.zhiding.cn/network_security_zone/2022/0302/3139245.shtml
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

博睿数据OneAlert:统一告警带来的智能运营

作者:王聪彬   【原创】   2022-03-02 18:06:00

关键字: 博睿数据

告警源的分散,导致告警无法统一管理,在告警处理上就会产生流程无序,缺乏统一处理,统一通知,无法标准化处理。而且监控越完善,告警越多重复、冗余、大量的告警导致无法快速筛选关键故障信息。

企业的信息化建设如火如荼,当信息系统的覆盖越来越广,IT运维也困难重重。

告警源的分散,导致告警无法统一管理,在告警处理上就会产生流程无序,缺乏统一处理,统一通知,无法标准化处理。而且监控越完善,告警越多重复、冗余、大量的告警导致无法快速筛选关键故障信息。

其实不同厂家平台的告警数据、各类开源监控工具的告警数据、自定义采集的告警数据,这些告警数据缺少统一的集成和标准处理。

这也是博睿数据推出统一告警平台OneAlert的原因,其实现了对故障(事前)及时发现、统一管理,(事中)快速响应、精准处理,(事后)分析统计的全生命周期完整管控。

OneAlert的六字价值

OneAlert的产品价值可以总结为六个字“统一、标准、智能”,即事件统一接入、故障标准处理、收敛智能决策。

统一:OneAlert平台支持对主流运维监控告警源,包括云类、博睿、开源、自定义监控工具,提供统一接入功能,以及对这些接入后的多源异构数据提供完整统一的标准化映射处理,实现了全场景下运维异常事件监控全覆盖统一接入,避免因自身监控数据相互独立导致的重大事件无人发现的监控死角。

标准:接入多来源的告警数据后,OneAlert平台进行标准处理,提供统一、实时的故障信息展示,运维人员不再需要登录多个平台查看故障情况。OneAlert支持针对不同的通知要求选用不同的通知方式,实现将故障快速通知到相关负责人,保证故障及时响应,缩短故障处理时间,最小程度降低对业务的影响。OneAlert支持对故障进行处理跟踪,实现故障生命周期的闭环管理,使运维故障处理从以前的无序到有序流程化,提升一线运维人员、运维管理人员的整体工作效率。

智能:OneAlert平台通过对海量杂乱事件降噪处理,形成告警,降低了故障分析的信息量。并通过自定义标签规则收敛、标签AI相似、AI时域的AI智能决策收敛的功能,识别出异常事件之间的关联性,将多个关联事件归并处理成一个故障,从而辅助运维人员聚焦处理关键故障信息,避免告警风暴,极大程度降低整体运维成本。

博睿数据产品管理部高级总监孙丽认为,OneAlert的优势在于将多源异构数据统一标准化接入,把海量杂乱告警标签规则关联收敛,并对海量无序告警通过AI算法进行智能收敛,最后降噪收敛运维故障标准分析处理。

告警的全生命周期管控

OneAlert通过多源事件统一接入,形成便准化事件,对海量告警事件做降噪收敛处理,形成故障,对故障做通知、分析、处理、统计等,实现对异常告警全生命周期的完整管控。

多源事件统一接入:将告警关键信息,例如告警源、告警对象、告警指标、告警描述等,通过Webhook回调、Restful API上报方式做集成,之后对关键信息进行标准化,映射成统一的一套标准信息,同时支持信息内容丰富拓展。

海量告警降噪收敛:标准化处理后的告警事件接入后,告警通过自动去重的方式,丢弃一些无用事件,降低告警风暴干扰。当事件形成告警后,自定义创建收敛规则,分为标签类和AI智能。

故障标准处理:通过收敛形成的故障,在处理时提供标准化的处理,故障提供统一查看页面,可以看到故障详细信息,基于信息更好地进行处置,并进行处置评论。告警处置完成,OneAlert提供统一故障分析,对历史产生的故障做趋势分析,以减少相应故障。

孙丽表示,系统有很多重复和相似的告警,OneAlert通过AI可以不断学习,预测什么时间会出现故障,当出现故障时,之前处理相似故障的方案是什么,形成告警知识库,提升故障修复效率。

OneAlert和博数据的其他产品也是互相联动的,博睿数据的APM产品,具备一定的告警能力,但是在功能性上相对基础,OneAlert则具备了智能收敛和降噪功能来实现统一告警。而且OneAlert也是博睿数据在不断进行产品合并的表现,将一些产品的能力集成到统一的平台来真正解决IT运维问题。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK