网络监控解决方案
一、方案功能
1、 告警管理
得力提供全面的网络管理解决方案,核心围绕网络告警管理,将所有的告警集中管理。告警信息能够覆盖支付系统生产网络设备及广域网电路,括路由交换设备、防火墙、F5、反向代理、光传输设备、PC服务器等设备的软硬件信息,可以提供动态数据对比告警,包括核心路由交换设备的路由表、生成树、HSRP、SPANNING TREE、ARP、防火墙和F5连接数等变化的告警。告警信息能够准确、全面、及时、易理解。告警的内容、阈值、级别等可灵活调。管理人员通过直观的事件信息监控,就可以了解网络实时的运行状况。
2、性能管理
网络性能采集主要包括,设备性能、端口性能以及线路延时情况,采集后数据存储在数据库中,能够供其他平台引用。通过统计列表的形式,方便查询整体性能排序,同时可以快捷定位到特定设备、端口以及线路的性能数据,同时,在性能展示页面上可以选择查询时间,查看特定时间内的性能数据,提供基线视图,能够对设备进行性能比对。
3、维护管理
网络监控对象的维护是指对所监控的网络资产信息进行维护,所有的维护操作均可在界面上完成,支持批量导入导出,可以手工或者自动更新。所有的网络资产信息存放在统一监控平台内置的监控CMDB中,能够对各类监控工具、监控对象资源进行统一管理,针对网络监控,能够完成设备管理、线路管理、端口管理、生命周期管理等。
4、视图管理
系统为不同的人员角色和管理需要提供灵活多样的展现方式。能够灵活的配置各种纬度数据的展现方式,定义用户、角色、组织机构,为不同角色提供不同的功能模块和展现内容。运维人员单点登陆后,系统会自动根据用户权限提供其可以访问的界面,提供面向实时的系统运行状态,从而可以全面了解、监控和展示全国范围内IT系统的管理状况。
5、拓扑管理
网络拓扑管理能够对网络的三层和二层连接同时进行自动发现,生成网络真实的连接拓扑,为管理人员提供真正的网络拓扑视图。并根据网络组织的方式,自动建立拓扑关系,生成网络拓扑配置信息,这些拓扑信息,可以通过管理界面进行网络拓扑的检查,也可以将这些信息反馈到事件中,实现信息丰富。
6、报表管理
报表是网络系统监控的重要组成部分,用来汇总展现网络故障、网络性能、网络配置、网络流量等情况,为网络排错、网络优化、网络改造等提供参考依据。
7、工具管理
经过多年的技术积累,得力积了大量实用的网管工具,所有工具的需求均来源用户,工具的设计、开发贴近实际,简单易用,获得客户的认可。包括IP地址规划、巡检管理、配置备份管理等。
二、方案架构
网管平台的整体架构分为三层:
工具层:主要是采集组件对被管对象的性能信息进行采集和监控监控,通过各类Probe完成对syslog/Trap告警的收集。相应的告警进入告警事件库,而性能进入性能数据库;
处理层:主要通过事件处理中心完成告警信息的处理,主要包括告警的压缩、关联、过滤等,同时结合监控CMDB完成对于监控资产信息的管理,如:监控对象、监控策略、监控工具等的管理;
展现层:采用得力自主研发的UMP进行各类视图的展现,用户通过统一入口访问,查看告警信息、性能信息、报表,完成相关告警的处理工作。
三、方案优势
1.本方案监控方式采用主动POLLING+TRAP/SYSLOG,而且SYSLOG/TRAP占80%以上,TRAP实现很困难,一般选择SYSLOG,但SYSLOG的标准化和实用化也是非常费时费力的,我们通过在大型商业银行的多年积累,基本完成了主流网元设备SYSLOG的标准化和实用化,在很多客户的大型网管项目中实现主动告警率为100%或接近100%。
2.网络告警事件处理性能高效且稳定,每秒钟处理1000条,且150万条记录入库无丢失。并且可以对告警进行压缩、丰富、关联、过滤等。也可以通过后台触发器定制复杂场景(如告警风暴抑制、多线路关联等)
3.提供大量实用网络运维工具(如:IP地址管理,配置管理等)供运维人员在实际工作中应用,大大提高了工作效率。
4.实用的视图和报表在隐含问题发现,趋势分析,扩容决策,建章建制等方面发挥很多作用。
四、成功案例
中国民生银行2005年开始通过多期项目建设来持续提升网管系统的监控管理功能。随着民生银行网络规模的扩大化,网络结构的复杂化,网络设备种类的多样化,造成引起网络故障的原因越来越复杂,故障的定位难度不断加大,同时监管部门对银行业务故障解决时间的监管要求越来越高。亟需通过提升网管系统网络故障的诊断定位能力及复杂告警的故障隐患发现能力。于是民生银行于2013年联手得力助手在全行部署了全行网络监控管理系统,此系统在民生银行现有网络监控运维中得到了广泛的应用,特别是在网络故障发现、通告及容量管理上起到了重要作用,可以及时反映网络故障,准确提供网络运行数据,大大提升了民生银行网络系统的整体可用性。
通过项目的建设,全行网络监控管理系统建设项目以保障全行网络的整体可用性为主要目标,采用行业内成熟的网络监控管理解决方案,并结合我行网络业务特性及运维管理办法,形成具有民生银行网络运维特色的网管系统。该系统作为全行网络运维监控的核心系统,可及时准确的发现并通告网络故障,降低网络运行风险,保障全行网络的整体可用性。同时,系统可通过采集真实、准确的网络运行数据,为网络规划、扩容提供可靠的科学依据。
网络监控管理系统建设以实现全面监控、精确告警、精准定位为核心,结合对日志、性能、资源、拓扑、配置等网络数据的采集分析,打造新一代面向服务、面向流程的全行网络集中监控管理系统。系统自2013年投产上线以来,经过四期项目的迭代建设,监控管理范围不断扩大,监控管理内容不断丰富,告警发现率、有效率逐年提高,基本实现全行网络监控的精确告警、快速通告,以及网络数据的集中管理。2015年至今,网络生产故障事件监控发现率一直保持在100%,告警响应及时率超过99%,有效保障全行网络的高性能稳定运行。