解决方案

SOLUTION

智能化监控解决方案
得力助手 2020-08-20 10:00:07

智能化监控解决方案

一、方案功能

用户在系统中提交报警配置,报警配置提交后会触发模型训练,训练完成后,会对指标历史数据进行一遍离线异常检测,然后用户就可以在报警配置详情与回溯效果页中看到指标近两周数据的离线异常检测效果,部分场景还可以查看指标基线和阈值同时,报警策略配置提交以后同时会分发给异常检测系统,异常检测系统根据配置创建任务并加载算法模型,对指标进行在线异常检测,当满足了事件产生条件就会产生事件,事件产生和结束的阶段会发送报警给用户的通告系统,事件产生的同时会触发指标排查,用户收到报警后在系统中查看报警事件列表,点击列表项可查看报警事件的详情及对应指标排查结果。

二、方案架构

image.png


三、方案优势

1、本方案只需要选择指标监控场景和指标,不需要配置任何阀值,0成本接入,减轻大量人力维护成本。

2、本方案提供防抖动设置,放置单个异常抖动告警,提高告警准确率。

3、系统报警后自动触发热点机器排查,直接呈现排查结果,直接展现故障关联关系及根源。

四、成功案例

中国银河证券股份有限公司利用北京得力助手AIOps智能化监控方案对其下辖50余类业务进行了智能化监控。通过对业务核心监控对象的应用黄金指标进行综合智能化监控(包含请求量突降检测、请求耗时上升检测、响应率下跌检测、错误率上涨检测等),利用泊松分布、二项分布等算法,自动检测出指标异常点并进行告警,然后与机器指标相关联,直接找出对应问题关联最大的指标进行排查。大大缩短了故障发现时间与故障处置时间。下图为具体案例场景:

image.png

异常现象:XXXXXX功能的请求延迟经过分析得到的结果,常态请求延迟围绕在15ms左右波动,系统训练得到该功能的阈值为41.56ms,黑点位置是判断系统发生异常的异常点,对应异常时刻为2019-12-16的23点到2019-12-17的7点,请求延迟明显突升至80ms。

故障影响:夜间因为证券行业请求优先级并不高,夜间此波动可视为正常,但是鉴于此故障持续时间较长,如果持续到开始期间,开市期间的请求延迟可能会远超平日水平,甚至可能发生容量不足导致的系统雪崩。

故障诊断:因此时多个功能都存在类似现象,怀疑是例如DB或者消息中间件等系统容量发生退化。