摘要:随着智能电网、大数据等新兴电力应用的发展,电力企业的IT系统和应用已经变得非常的复杂,只有IT运维的监控管理一体化方案才能对全网系统进行全面的监控管理、快速的问题相应和解决,并且将运维人员从繁琐的检查和信息搜集工作中解放出来。本文介绍了一个电力企业数据中心监控管理一体化系统成功示例,为企业的现代化IT管控提供支持。
关键词:电力系统、统一监控、一体化管理
ABSTRACT:The IT environment of Electric Power Systems has become very complicated, along with modern applications as Smart Grid or Big Data. The unified monitoring and management of IT is the only solution to better manage all the entire systems with rapid response and troubleshooting capabilities. And it can help release the man power of maintenances from the tedious low level and repeatable tasks, like routing system check. This article gives an example and best practice of such Unified Management for an enterprise for electric power, aiming at providing guidance and help on how to successfully set up this management system.
KEYWORD:ELECTRIC POWER SYSTEM, UNIFIED MONITORING, UNIFIED MANAGEMENT
引言
企业核心应用宕机,机关、下属单位等不满意,主管领导质疑!虽然技术人员做了很多工作,但仍然无法分清轻重缓急,也很难快速定位问题根源,迅速解决问题。网管说网络是好的,开发人员说近期代码没有改动,数据库管理员说数据库所有组件运行正常,也许租用的基础服务也在说所有服务都在正常运行。这些现象在当今电力企业数据中心屡见不鲜,对信息中心的服务、管理提出了一系列挑战!因此,对信息系统的管控与运行就显得格外重要。
为了实现上述目标,具备关键系统全面监控能力,国内某知名电力企业上线了监控管理一体化系统。经过一年左右的运行,基本实现了初步目标,下文就通过一些文字说明和总结演示,说明该系统的特性与成果。
建设目标
借鉴电力企业生产的成熟管理经验和国际先进的信息服务最佳实践,全面构建电力企业信息系统调度运行体系,规范优化组织结构,实现统一指挥、分级管理;建立健全高度符合集团一体化信息系统运行的制度、规程和标准,实现管理规范化、流程标准化;建成符合智能化需求的信息运行支持平台,实现运行的可视化、可控化、自动化;使企业信息系统运行达到国际领先水平,目前已经成为信息系统监管运行的基本目标。
一个理想的企业信息系统监控与管理体系,除了需要借鉴ITIL最佳实践来指导企业信息服务体系建设以外,对整个数据中心所负责的基础架构、应用系统与业务系统的全面、统一监控也是现代企业信息管理必不可少的基础建设之一。一个全面、统一的数据中心运维监控系统,至少需要具备下面五种关键能力:
·拥有能满足现在与将来革命性变化需求的体系架构,拥有良好伸缩性与扩展性;
·全面的数据采集能力,覆盖面要广,同时应具备API接口使集成、部署工作简单化;
·业务系统适应能力,不仅仅能从各种IT系统中采集、分析数据,更可以从各种业务系统中采集、分析数据
·灵活的报表与可视化能力,整个系统应该基于可定制策略的用户组机制,对所有仪表板、报表、报警都可以灵活定制;
管控平台的建设范围
本电力企业的监控管理一体化系统建设范围包括如下几个方面:
统一运维管理门户建设
通过统一运维管理门户,用户可以灵活的访问各种管理应用,或者针对任何一个故障进行深入挖掘,得到详细的实时和历史性能信息。
统一运维管理门户还提供了丰富的视图呈现方式,如线图、柱图、阴影图等。统一运维管理门户还支持根据不同维护人员角色的不同,提供不同权限的管理视图。维护人员可以通过拖拽的方式灵活的定义管理门户和各类报表。报表呈现方式多样灵活。
提供多种层级的视图展示
监控管理一体化系统可以直观、准确地体现各层面的系统运行状态,分别展示不同管理层次和范围的系统运行状态。根据客户的系统特点和管理习惯,可将展示视图分成根视图、一级视图、二级视图和三级视图,分别展示不同管理层次和范围的系统运行状态。
一级视图也称为系统整体健康度总体视图。主要针对CIO的运维管理需要,提供企业系统整体运行状态的查询和管理。在这张视图上,管理员可以清晰地看到企业网中所有系统的整体健康状态,当某个系统内的监控对象出现性能问题或告警时,将会有红色或黄色的告警提示符出现。通过这张视图管理员可以快速定位和判断系统总体健康状态。
图1、一级视图——全业务视图
二级视图也称为特定系统或设备类型监控视图。主要针对IT主管的运维管理需要,提供针对关键IT系统的状态查询和监控管理。在这张视图上,管理员可以清晰地看到企业网中某个特定系统的整体健康状态,当某个系统内的监控对象出现性能问题或告警时,将会有红色或黄色的告警提示符出现。通过这张视图管理员可以快速定位和判断该系统中的哪个被管对象出现问题或故障。
图2、二级视图特定业务系统视图
三级视图也称为资源监控视图。主要针对设备运维人员的运维管理需求,提供针对具体设备组件性能指标的告警管理和性能分析。在这张视图上,管理员可以清晰地看到企业网中特定被监控对象的健康状态,当出现性能问题或告警时,管理员可以在这张视图上查看告警状态、分析历史性能数据、执行系统命令或者自动发出告警等。
图3:三级视图资源监控视图
统一监控平台建设
统一监控平台的建设包括三方面的建设内容:集中的监控管理、事件管理功能、性能管理功能。
监控管理一体化系统提供了丰富的事件管理功能,事件管理可以覆盖所有需要管理的设备,快速捕捉到服务器、网络、存储、数据库和中间件的日志和消息等事件。
监控管理一体化系统提供的解决方案实现了全面的性能管理,包括各种设备性能管理,维护人员可以根据需要灵活的设定性能阀值,生成相应的性能告警。
集中的监控管理介绍
通过监控管理一体化系统可以实现集中的监控管理,监控管理一体化系统提供了丰富的监控探针,覆盖了监控系统的各个层面,包括:服务器管理、虚拟化管理、存储管理、网络管理、机房环境管理、中间件管理和数据库管理。通过对各个层面的监控,全面监控和分析系统的性能状态。
服务器监控介绍
监控管理一体化系统以服务器为中心的监控理念能够监控包括Cisco UCS、AS400、Linux 、Unix、Netware、Windows等在内的所有主要操作系统,可以从单一控制台方便容易的完成对服务器关键资源(如CPU,内存,磁盘,事件日志,计数器等)的完美监控,允许管理员从集中的控制台对远程的服务和进程进行客中操作如自动或手动启动、重启、停止等。同时,对于承载在服务器上的各种商业软件,如Web,数据库系统,邮件系统等提供了开箱即用的缺省配置模板。
虚拟化环境监控介绍
针对虚拟化建设所面临的困难,企业需要引入先进的虚拟化健康度管理方法来逐步改进和完善虚拟化建设的不足。
过去的仅仅是强调对虚拟机自身管控的管理思路,已经不适合当前企业对虚拟化健康度管理的需要。当前,国外先进的虚拟化健康度管理方法强调对整个虚拟化环境进行统一的管控。从用户体验的角度,自上而下的全面评估虚拟化环境的健康度,从而提高虚拟化环境的可用性和性能,扩大虚拟化环境的适用范围。
一方面,这种全新的虚拟化健康度管理方法覆盖了虚拟化环境所涉及到的软硬件的各个层面,统一运维,综合分析,从而全面保障了虚拟化环境的健康度。另一方面,企业通过引入先进的健康度管理方法,还可以使得业务人员和IT运维人员可以更好地明确自己的管理职责,更好地合作,提高了工作效率,同是也优化的虚拟化环境的可用性。
图4、虚拟系统资源利用率
存储监控介绍
监控管理一体化系统提供了针对存储设备的管理探针,可以快速实现对存储设备的监控管理。该平台基于标准设计,通过Web 控制台整合不同厂商的存储设备资源,包括存储局域网(SAN),网络附加存储(NAS)和直接附加存储(DAS)。
监控管理一体化系统支持SAN交换机,存储设备和磁带库的管理。能够管理存储分配情况,存储利用率,对于超过性能阀值的性能指标系统能够进行故障告警或者预警通知到相应的运维管理人员,生成错误日志。
网络设备监控介绍
监控管理一体化系统支持通过SNMP V1、V2、V3协议,对网络设备的拓扑管理、事件管理和性能管理功能。
图5、公司本部所有关键交换机运行状态
机房环境监控介绍
机房环境作为集中监控系统的一部分,针对机房环境、精密空调和UPS设备的监控,监控管理一体化系统通过Web Service接口与相应的传感器相连或者采用SNMP的方式,来采集相关数据,并根据用户需要提供相应的运维管理报表。
中间件监控介绍
中间件是重要的应用组件,也是此次项目监控的重点。监控管理一体化系统支持对所有主要流行的中间件系统的监控,主要包括:Weblogic、Websphere、Tomcat、JBOSS等等。
监控管理一体化系统可以监控中间件的主要事件和性能指标,从而有效保障中间件的可用性,从而保障系统的正常使用。
数据库监控介绍
数据库作为应用系统基础的组成部分,其重要性不言而喻。对于系统而言,一旦数据库崩溃或者数据库的性能降低,那么会直接导致依赖于数据库的应用系统运行速度缓慢或者根本无法使用,其最终结果不仅仅是会影响应用系统的使用效率,甚至会造成客户和利润的流失。
数据库在使用中所出现的问题,可能由表空间、文件系统、数据文件、进程等组件当中的任意一个造成,甚至有可能是由于某一个SQL语句的性能太差造成。
因此,当数据库出现问题,彻查问题的根本原因成为重复、繁杂的劳动,监控管理一体化系统将管理员从重复劳动中脱离出来,以主动管理的方式,为管理员提供自动化的监控管理,一旦数据库出现问题,可以马上通知相关的管理员。
应用系统监控
SAP ERP是公司最重要的应用之一,本系统将复杂的ERP系统进行了简约化管理,通过简单的界面就可以完整看到ERP的运行总体态势和性能曲线
图6、SAP ERP应用系统监控
用户和权限管理
对于监控系统本身,由于其特殊性,即具有管理其他网络设备和主机的权限,因此其自身的安全性更加重要,管理系统具有多级操作员权限控制,不同的操作员管理不同的对象,并且具有不同的权限。可以考虑特定的管理员只能管理职权范围内的设备,根据人员的多少,可以细分为各种管理员,如网络管理员、服务器管理员、存储管理员、数据库管理员等。监控管理一体化系统完全支持这种灵活的用户和权限管理方式。
监控管理一体化系统具有完善的用户管理功能,包括用户的认证与授权机制,首先在系统中创建用户,对于每一个用户,都可以指定管理的设备,收到的消息,可以使用的应用程序。不同的用户有以上不同的设置和权限,每个用户在登录系统时,需要通过用户口令的认证。不同的用户可以有自己的视图,只接收自己的事件,例如,我们给不同的管理人员建立一个用户,他们登录到网管系统上,看到的是自己关心的设备、应用的拓扑图,收到的消息全部是关于相应设备、应用的消息,并可以也只能对这些对象进行查看或配置。
考核指标和服务水平管理
监控管理一体化系统的SLA管理包括了用户自定义的考核指标以保障SLA满足要求,下面也一个实例来说明监控管理一体化系统的SLA报告系统的功能。
例如电子商务系统的SLA报告系统:
以该电力企业的电子商务系统为例,要求按周考核的CRM系统指标在98%以上:
电子商务系统所有操作时间不超过6秒钟
电子商务登陆时间不超过5秒钟
电子商务系统查询公司时间不超过5秒钟
实际生成的SLA报告如下:
图7、电子商务系统的SLA报告系统
管控平台的建设需求分析
研究分析电力企业的IT管理特点和业务特点,本监控管理一体化系统应具有如下特点:
监控面广
·对集团内网数百台服务器、近两百台网络设备、数套存储系统、数十套虚拟系统进行了基础架构层面的全面监控;
·主要服务器平台包括Intel服务器、IBM Power小型机,承载的操作系统主要包括了windows、Linux和AIX;同时,该企业全面部署了VMWARE虚拟系统,运行的客户机近百台,越来越多的重要业务在逐步迁入到虚拟化平台中。该监控系统统一完成了跨平台、跨系统的健康度监控检查。
·对多种数据库(ORACLE、DB2、SYBASE、SQL SERVER、MySQL)、中间件(IIS、TOMCAT、WebSphere、WebLogic)等以及其承载的业务系统进行了有针对性的个性化监控,突出了组件间的关联关系与性能状态。
·该监控系统拥有近200中不同功能的探针,既能够以Agent方式驻留服务器获取详细的监控指标,也能够以Agentless方式通过ssh、SNMP、SYSLOG、ODBC、CLI等多种技术手段无干扰获取远程设备系统的关键运行状态。
扩展性好
·该系统是一个典型的分布式统一监控系统,采用了与众不同的广播/订阅机制,可以像部署网络设备一样灵活组网构建面向多单位、多中心、多部门的监控系统,不仅很好的满足了当前本部机房监控的需求,将来也可以基于本系统对下属分支单位进行快速的运维监控。
·该系统拥有全面开放的API,可以对整个监控系统的安装部署、配置调度、告警策略、展示统计等进行个性化的定制,支持Java、Perl、LUA、Script等多种编程语言接口,使新功能开发、定制变得更加容易。
·在本项目中,创新地引入了Zigbee无线传感设备,其先天的低功耗、高可靠、超稳定特征使得对机房温湿度、光感等场地监控功能达到了无需重新布线、灵活部署监控地点、精确获取机房环境状态的目标。
展示效果好
·监控系统基于企业级门户技术Liferay,内置了统一告警控制台、统一性能报表、统一监控列表、统一架构管理等多种展示组件;同时,独特的参数级自定义仪表板设计器可以像VisualBasic编制新程序一样为每一个用户定制所需要的各种个性化仪表板。如下图所示:
·专业的报表服务引擎能够满足电力企业苛刻的报表定制需求,其内置的数百套通用报表涵盖了系统监控所需的主要功能,独有的SLA报表生成器更可以按照国际流行规范制定本单位服务品质承诺指标。
·无论是发电企业亦或其他行业,专门的短信告警成了监控系统必备的功能要求,该系统针对提供了适合中国监控特色的短信引擎,可以灵活制定告警规则,规避敏感词汇,批量发送不同短信内容。
管控平台实施效果
该电力企业通过本监控系统的有效部署,经过近一年的稳定运行,该企业监控管理一体化平台初步具备了如下能力,初步达到了提前发现、准确定位、深入诊断的监控目标:
·基础服务器监控能力──包括且不限于Linux、Windows、UNIX服务器等等;
·应用服务器监控能力──包括且不限于如下应用服务器,IIS、TOMCAT、APACHE、WEBSPHERE、WEBLOGIC等等;
·数据库系统监控能力──包括且不限于如下系列数据库系统,ORACLE、SQLSERVER、SYBASE、MYSQL等等;
·网络系统监控能力──包括且不限于如下网络设备及网络系统的监控, Cisco IPSLA、DNS、DHCP、 LDAP、SNMP设备、路由器、交换机等等;
·存储系统监控能力──包括且不限于如下存储设备的监控,EMC,IBM,HP,SUN,HDS等等;
·场地监控能力──包括且不限于如下动力设备:高、低压配电屏、整流设备、开关电源、UPS、油机、蓄电池组等。
在上述成功实践的基础上,该企业正全面梳理数据中心监控需求,结合企业未来业务系统建设目标,制定了本监控平台的下一步规划,主要内容包括了:
完善现有系统监控内容
·将机房内网所有设备及软件进行纳管,不留盲点;
·完善移动办公软件的监控统计功能,增加客户体验管理;
·完善机房中环境信息、场地系统、安防系统的监控指标,消除死角。
增加目前系统监控功能
·增强与ITIL管理平台、新一代呼叫中心等系统的全面集成能力;
·增加机房与办公区域等大屏幕展示,动态展示数据中心运行状态;
·增加移动终端如IPAD、智能手机等的监控功能,实现移动监控目标。
深度监控核心业务系统
·针对企业核心应用SAP ERP HR系统、SAP财务资产一体化系统等,引入专业监控模块,按照SAP BASIS运维规范进行完整监控,确保核心业务运行的可靠、平稳、高效。