聊一聊自成长智能运维模型
大部分AIOPS厂家主要是面向算法来提供智能化的分析能力,无论是异常检测、趋势评估还是自动分类,都是基于对无法完全认知的数据的算法实现。其智能化的能力完全依赖于算法、数据、训练与标注。
这种方式的智能化运维对于实际的日常AIOPS来说,可能都过于“重”了,每个项目都需要有比较高成本的实施过程,无法让AIOPS的能力开箱即用,在缺乏算法专家的长期协助下,算法的能力也无法持续自成长和自动进化。而算法专家是十分稀缺和昂贵的资源,这使得采用此类方法的智能运维项目变成了有钱人的游戏。
造成这种局面的主要原因还是此类智能运维系统的基础架构问题导致的,传统的软件是基于“目标”的软件,其逻辑都是根据目标预先编制好的,为实现某个已知的特定目标而设定好具体的目标,设计出具体的实现路径,完成软件基础能力框架的设定,最后开发出软件系统。
在实际应用场景中,为了适应不同用户的特定场景,顶多是修改配置、调整参数参数、按照目标去清理数据,从而可以实现一定的差异化化定制化。但是这种差异化与智能化之间还是存在巨大的差距的,这种差异化仅仅被限制在有限的范围内,不能图谱系统预先设定的能力极限。
智能化运维工具应该是能够根据不同的运维对象、不同的运维场景、不同的运行负载、不同的故障场景,实现差异化的分析诊断,实现较为准确的故障定位。智能化诊断工具应该具有极强的抽象能力,能够通过不断的自我学习或者在一定的外部辅助下自己发展自己的能力,以应对不同运维环境的需求。也就是说,AIOPS分析工具应该具备自我感知、自我调整、自我学习、自我成长的能力。
神经网络实际上也是一种对传统程序的高度抽象,将软件中的应用逻辑高度抽象为神经网络。通过深度学习,可以实现异常诊断需求到神经网络的自动化的翻译。通过不同的数据经过训练生成的神经网络模型来实现对于不同输入的智能化感知,从而完成分析。因此在理论上,只要有充足的历史数据,进行充分的训练,是能够完成抽象的。看到这里我们还不要高兴的太早了,因为充分的训练需要极高的成本,无法低成本的获得这种能力。
通过神经网络的智能化分析算法可以解决AIOPS领域的一部分问题,但是无法解决所有的问题。更加复杂的运维环境需要更复杂的知识抽象后通过知识推理才能够实现。这种知识抽象模型无法从混沌的数据中自动形成,必须依托于一个初始推动力才能够形成。因此我们需要两个关键因素来实现这种初始化的推动力的产生。
其中之一是知识组织形态的确定,我们需要一种具有很强知识抽象能力的技术手段来存储被抽象出来的知识。从目前的实践来看,图数据库是比较好的基础载体,知识图谱是知识抽象和描述的较好的实现方式。
第二个关键因素是已有的领域知识的导入,哪怕我们已经有了一个十分强大的知识抽象模型,在一个空白的知识库里自动产生知识,或者说发展知识,在初期阶段是十分困难的。因为缺少足够的基础知识,使得知识推理无法完成,同样,自动学习和自生长也无从谈起。如果能够导入一定量的质量比较高的知识图谱,以此为基础去积累、自学习、自生长知识库,其知识库的生长过程会相对简单。就像一个婴儿一样,最初的能力成长是相当缓慢的,随着智力的发展,知识增长的速度会越来越快,知识库的生长也是如此。
我们如果以上面的框架来构建一个智能化分析系统,其中蓝色部分的代码框架基本上是固定的,不太变化的稳定框架。里面包含了高度抽象的模型和算法。知识图谱是动态生长的部分,知识图谱的变化,将会改变蓝色部分计算框架产生的结果, 最终决定了整个系统的能力。
指标数据集是动态的,个性化的输入参数。知识图谱中存储的是通过高度抽象后的知识数据。这部分内容是今后要不断扩展,甚至自动生长的。黄色部分是最终实现的智能化分析能力。核心框架代码维持稳定的情况下,随着指标数据的持续输入,模型抽象模块依靠知识图谱不断的对数据进行加工,不断动态调整和优化在线分析引擎和离线分析引擎,同时根据已知的分析结果,自动调整知识图谱,生成新的顶点和边。
分析引擎通过标准化的框架,根据问题感知输入的参数数据,通过知识推理衍生图谱,裁剪图谱,形成与当前场景相适应的子图,再通过标准框架转换为已知的指标与规则的集合。输入到异常检测模块进行探测,发现可能存在的异常,然后通过标准的智能裁剪框架,根据问题收敛知识图谱对问题进行归类,通过迭代生成诊断结论。再根据诊断结论进行二次发散,找到可以定位问题的工具,通过自动化执行这些工具,进行故障路径二次裁剪,最终获得诊断结果。
知识成长的方法除了不断由人工注入新知识外,还可以通过模型抽象器自动发现知识,自动生成知识点。该知识点被称为智能知识点,加入到知识图谱之后,可以根据标准接口自动与现有的知识网络的其他知识点建立关联。从而优化整个知识网络。
(作者:白鳝)