0

优维科技CTO访谈实录:“大场景+小算法”构建AiOps运维技术哲学

 2 weeks ago
source link: https://studygolang.com/articles/35978
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

优维科技CTO访谈实录:“大场景+小算法”构建AiOps运维技术哲学

EASYOPS_youwei · 大约5小时之前 · 27 次点击 · 预计阅读时间 6 分钟 · 大约8小时之前 开始浏览    

智能运维、自动化运维发展到现在,已经有将近7成的IT管理者学会利用大数据、人工智能产品及解决方案赋能团队,在生产效率、适应性和决策能力等层面实现了切实有效的正向转型。

今天的中国企业,已经在云端新基建、数字化转型的浪潮中实现降本增效和商业创新,海量的新应用、新技术不断冲击着传统IT运维的陈旧壁垒。传统的IT运维如何向智能运维进阶?这是优维人持续思考和实践的重要课题。

446c3d2efa154575aff174e0b553c3a7~tplv-tt-shrink:640:0.image

前段时间,对优维科技联合创始人兼CTO黎明进行了一个视频采访,与大家一起聊了聊优维AiOps!

以下为访谈实录:

Q1:运维管理的发展历程都会经历哪些阶段?能否谈谈优维在运维领域的发展路径和现状?

A:我认为IT运维管理的发展大致会经历5个阶段,分别是标准化、工具化、自动化,数字化、最终是智能化运维。

结合优维多年在构建智能化运维平台的实践经验,这是一个相对客观且环环相扣的路径,我们没有直接跳到智能化阶段去,因为智能化的底层是以数据、标准以及自动化的能力为基础的。

另外,智能化实际上是为一些特定的场景服务的,并不是说单纯研发一个算法就能解决所有的问题。

这里我提一个与异常检测相关的场景:故障自愈。目前业界也有不少有益的探索和积累,总的来说落地效果还收到比较多的因素影响,比如金融行业因为受到合规性的监管要求限制,相当多必要的措施很难在短期内得到大规模的普及。以目前的技术发展程度来看,主要起到辅助的作用,实际上并不能完全代替人工快速定位出问题的根源。

Q2:优维科技在AiOps在容量规划和异常检测方面的场景应用表现如何?

A:谈到AiOps,大家经常会探讨容量规划和异常监测方面的场景应用。优维在这方面积累了非常丰富的落地经验。

首先,优维早在建设智能化的能力之前,就已经在数字化、标准化、自动化这几个层面打好了基础。在过去的几年中,我们给客户提供的方案也有意识地倾向于数字化运维、标准化运维以及自动化运维这“三驾马车”,我们的产品策略就是在夯实基础能力的前提下,再按需去做智能化的落地提升。

说到容量规划这个层面,首先我们要明确它可以解决什么问题?假设客户在运营一个大型的资源池,我们可以通过对用量数据、负载数据等历史数据的分析,实现对容量或者资源用量的一个预测。

这个预测不但支撑着扩容的需求,同时还要承担起容量规划的重任——例如说有的容量分配得太多了,就有必要进行适当的回收;或者阶段性的容量需求暴增,就需要提前做好采购计划。这是很典型的容量规划或者容量管理的场景。

根因定位也是一个比较有效的场景。我们用AiOps来平衡降低平均故障修复时间(MTTR)和延长系统无故障时间(MTBF)的相对关系。在这个语境里,MTBF引申出MTTR,在MTTR里又包含几个相关联的指标,比方说故障识别时间、故障定位时间、故障修复时间以及故障验证时间,只有把这些指标全部优化之后,才能达成MTTR、MTBF的优化。

这种根因定位可以有效的帮助客户减少故障定位的时间,从而使得MTBF、MTTR的指标得到系统性的优化。

Q3:优维科技在异常检测、容量规划、根因定位等这些层面的的规划过程中,AI算法在技术层面是怎么体现的?

A:关于AiOps的规划,其实并不会用到一些特别先进,或者市面上不曾出现过的算法和机制,都是对常用算法的调整优化。

容量管理的核心就是容量的预测,比如说存储容量、网络容量、计算容量的增长跟哪些指标有关系?本质上需要做相关性的分析,它的算法并不深奥。但是场景对于数据的准确性和质量的要求是非常高的,在对某一个应用、集群进行容量管理之前,首要工作就是明确该应用、集群本身的资源图谱有没有构建好。如果我们连一个应用、一个集群所覆盖的资源都没有精确的数据描述的话,那么所谓的AI算法得出来的结果肯定是不准确的。

Q4:在优维产品的规划当中,从您对产品的定义角度看,容量规划是否包含在AIiOps和智能运维这个模块里?

A:实际上我们的产品体系中并没有去规划某一个叫做AiOps的模块。

早在2016年AiOps这个概念刚刚诞生的时候,大家都认为这个概念就是应该以智能算法体系为主,但是经过这几年的实践,有了太多的踩空经验之后,大家突然发现并不是这样的。

第一,所谓的这种智能肯定是面向场景的;第二,智能不是一个通用的概念——优维在这么多年的实践中总结了一个表达方式,我们称之为“大场景,小算法”。例如说在我们的监控资源里对相应的指标趋势进行预测,本质上是把智能的功能揉到场景中去,它并不是一个脱离场景单独存在的产品。

Q5:作为一家以DevOps解决方案起家的科技企业,优维科技跟AiOps重叠的部分是哪一块?

A:优维对AiOps的定位,是在现有能力的基础上做智能化功能的延伸。业界有一种现象,不论原先是做ITSM的、做监控的还是做APM的,大家后来都转身去做了AiOps,说实话真的做得很成功吗?我觉得未必!这是一个很尴尬的事情。

所以,优维在这方面的策略相对“保守”一些,我们会在主要的产品线中加入智能的成分或者智能的功能,但我们不会对外宣称我们在做AiOps、智能运维、无人运维这种东西,我们是真正把AI的技术融到每一个产品的功能里面。

所以你会看到,我们把整体解决方案称作“智能化运维能力中台”,除此之外,优维其他的产品里并没有着重突出“智能”的概念,但是你能说我们的产品不智能吗?显然不能。因为我们确实赋予了它非常实用的智能化色彩。

Q6:现在也有一些传统IT厂商在做核心系统,它也会涉及到用AI的能力去为传统的IT系统或者解决方案赋能。优维在这个方面有什么创新性的做法吗?

A:很多传统IT厂商做核心系统的时候会面临传统IT系统和解决方案的AI化转型的问题,这是两种赋能的方式。

第一个方向是给现有的IT系统或解决方案赋能,在过去、现在以及未来的一两年内,作为一家提供产品和解决方案的DevOps厂商,我们还是会专注于为产品和场景注入AI能力,这是我们一直坚持深耕的方向。

第二个方向以AI能力来改变整个运维体系,或者以AI为动力去推进运维解决方案的创新,想要短期内实现还为时过早。

坦白讲,这是一个很难的事情。我们在过去几年接触了大量成熟的金融客户,也做了不少落地的AiOps项目,但是在生产环境中的使用表现并没有想象中乐观。

Q7:很多银行和传统的金融IT厂商也组建了专门做运维的团队,对金融行业而言,容量预测和异常检测在Ai赋能IT运维的过程中,哪个难度更大一些?

A:比如说我们在做指标监控的时候,按传统的做法需要设置系统的阈值,而部分指标的阈值是很难判定的。在这样的场景需求下,我们通过机器学习或者数据分析就可以判定出合理的阈值,通常说的异常检测,实际上就是一种基于动态基线或者动态阈值的异常检测。

当然了,具体的效果还是看具体的场景。另外,我并不认为容量预测和异常检测这两者哪一个更难一些,严格来说它们背后的技术实现难度都差不多。

Q8:优维在生产环境中应用最广泛的技术有哪些?

A:第一,IT资源图谱,实际上就是新一代的CMDB。因为无论是要做预测还是做自动化,都需要有IT资源的图谱数据。这个是优维应用最广泛的一个产品。另外,优维在围绕构建资源图谱相关的一些技术,比如自研的图数据库引擎,在行业内都是比较高阶的存在。

第二,DevOps。其实DevOps底层还有一个支撑——AutoOps,只有实现了自动化,才能在自动化的基础上去构建DevOps。

第三,服务观测。我们从应用的角度看运维:第一它是否健康?第二它的资源运行状态怎么样?一旦出现问题,是否可以快速帮助运维人员定位问题源头,同时判断这个事件可能会影响到什么系统?归根结底到底什么才算智能?

我认为不一定非得用到智能算法、数据分析的才算智能,只要是能提高现有的运维效率的,并且是传统工具、传统手段做不到的,都可以认为是智能。

Q9:业界普遍认为,优维的产品服务覆盖的客户比较广,优维的核心技术维度主要应用在哪些行业?这些行业对优维解决方案的需求是刚性的吗?

A:主要在金融行业,同时也在其他行业做了大量的布局,但我们并不会特别关注行业属性,而是侧重产品在”双态”运营中的表现。

一般来说,像金融、保险、物流等大型业态,甚至国企、央企等国家巨头企业,基本上都是处于一种稳态的现状,但是在当前的“新常态”下,稳态的同时它又要做数字化转型,这必然会带来敏态业务。

所以很多企业,无论当下它是处在敏态还是稳态,都会面临“双态运维”的场景需求,基本上优维做的就是解决稳态的问题,至于敏态,因为原生服务技术本身已经具备解决问题的能力,其实就不需要重复解决。

但我们早在去年就已经推出了SaaS化和订阅化产品,也就是逐渐被大家所熟知的HyperInsight超融合持续可观测解决方案,这款产品在行业里属于新生事物。我们认为企业IT管理中所面临的问题和需求,是可以被标准化和针对性解决的。

对于企业的敏态需求,我们的SaaS产品输出的是开箱即用的精细化套件式服务,体量小,开发需求轻量化,但解决问题快准狠。这很符合优维科技的产品哲学,我们很乐于把技术创新精神发挥在客观实际当中,去解决实实在在的问题。

Q10:就敏态来说,现在很多企业都是混合IT的架构,会涉及跨云管理需求,那么优维在这方面有没有提供相关的解决方案?

A:优维目前没有“跨云管理”或者“多云管理”平台产品,但是我们的IT资源图谱是完全可以横向覆盖敏态和稳态管理要求的。

因为无论是敏态还是稳态,它们的应用都离不开IT资源的支撑,云上资源也好,本地自有资源也好,支撑资源和应用组成资源图谱,然后再做自动化衍生场景,逻辑上归根结底都是相通的。

Q11:关于分布式系统、算法、数据管理等,优维有没有比较突出的、先进性的概念或理念?优维最大的优势和技术特点是什么?

A:首先,优维把数据治理的理念引入运维体系建设中,把IT资源图谱作为驱动整个运维体系的主数据中心,这个理念在业界是领先的。因为通常情况下大家很难想到运维数据之间到底有什么必然的联系,但我们对这个梳理得很清楚。

第二,围绕着资源图谱,我们有自主可控的自有技术,包括但不限于基于图谱数据库的存储引擎、基于图谱的查询等完全自主知识产权的技术。

第三,我们具备“能力化”的建设能力,优维带给客户的不是具体的哪个产品或功能组件,而是赋予其能力。

第四,优维特别注重场景建设,我们赋予客户的能力一定要用到场景里去,离开场景谈能力是一种空谈。例如我们面向场景开发的护网、巡检、切换等微应用,对于客户来说是非常有价值的。

第五,优维在交付方案和产品的同时,也非常注重给客户进行DIY赋能。例如我们运维的低代码开发平台,本质上就是提供给客户的技术工具,客户借助低代码平台技术可以定制自己的微应用,从而满足其频繁变动的运维需求。

“授人以鱼”也“授人以渔”,这是优维在过去的六七年中总结出来的服务理念和产品思路。

Q12:未来的三到五年,AiOps的规划方向在哪里?AI在实际的运维场景中还会有哪些拓展?A:现在运维数字中台的技术已经非常成熟了,在未来的三五年的发展中一定会是普及的趋势,也会有越来越多的企业逐渐认识到数据治理、数据运维在整个运维体系中的重要性。

优维在AI运维场景领域的拓展方向一定还是“赋能”,我们有个理想叫“AI anywhere”,就是把AI技术用到每一个角落里去,不断落地“大场景,小AI”的运维哲学。

如果说AI领域技术有所突破的话,我们肯定也会跟进。

但就目前而言,AI技术还不具备思维能力,虽然在日常生活场景中我们可以做到指纹识别、人脸识别、声音识别等等这些识别动作,但对于运维行业来说,我们还在等待AI技术质的飞跃,期待AI真正能为我们的运维业务带来思考和决策的能力,这个才是AiOps最为浪漫的时代。

目前的AI技术离那一天还有很长的路要走,我们会持续努力。

伴随着大数据平台、机器学习等关键技术的日臻完善,智能运维势必乘风而起,成为运维领域未来的重点演进方向。目前,智能运维在国内仍处于初始发展阶段,但从Gartner发布的IT运营技术成熟度曲线变化来看,智能运维在国内的发展快于全球的进展。这既是巨大挑战,同时也是全新机遇,或将实现国内运维发展从跟随到引领的重大跨越。

知大势,行致远,我们在智能运维的大道上一起向未来!


有疑问加站长微信联系(非本文作者)

280

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK