数字化不是请客吃饭,无法一蹴而就,需要逐步推进。对于传统企业来说,数据是数字化的基石,而打通数据孤岛,构建一体化监控体系,实现IT资源的统一管控是数字化转型成功的第一步。

随着数字业务规模不断扩大,上线的业务系统日益增多,核心业务越来越依赖IT系统的稳定运行。这时,我们会发现应用性能、服务器性能、网络性能、大量接口调用性能、容器等微服务组件性能、云平台性能等诸多因素都会影响业务运转及用户体验。而现有基础设施监控系统的监控范围和颗粒度都无法满足目前的监控管理需求,缺乏自动化技术手段对业务系统实时监控,存在故障无法预警的风险。在技术管理层面,业务系统的计算、网络、中间件及数据库存在大量数据孤岛,导致故障排查困难,不能快速定位故障根因,无法满足中大型企业的数字化转型需求。

因此,企业需要一套涵盖基础架构、网络、系统应用性能和用户体验管理的统一监控平台,提供故障预警和快速故障定位,并可快速跟踪分析应用性能问题至故障根源,为应用系统性能优化提供建议,从而提高IT系统运维工作的整体效率及服务水平,保障业务系统的持续稳定运行。

以某大型企业用户为例,有几百个业务系统支撑着该企业核心业务的日常运转,每天的工单、告警数量堪称海量,传统运维管理流程和相关工具暴露出严重不足,主要体现在以下几点:

业务信息子系统众多,却缺乏统一管理平台

业务系统涉及众多的服务器、服务、应用、数据库和网络设备,缺乏统一的综合运维管控平台,运维难度大,成本高;

缺乏统一的业务、应用、网络及基础设施性能监控可视化平台;

难以感知业务应用健康状况

无法实时了解核心系统的运行状况(网络、服务器、数据库、服务、应用及业务系统运行是否有性能问题、错误等);

无法实时了解不同业务系统进行业务数据交换和业务调用时的网络质量和性能状况;

无法了解不同业务用户使用业务时的真实体验,无法知晓全国各地或海外终端客户使用产品或业务的真实体验;

系统问题发现,无法快速定位根源

业务系统出现问题,无法第一时间进行准确定位,故障无法复现,无法准确定位原因;

数据过于分散,无法有效整合,无法最大化挖掘数据价值,问题原因不清晰,协调人员困难

云智慧一体化运维监控解决方案

云智慧一体化运维监控解决方案基于用户典型应用场景,利用海量运维大数据处理能力和机器学习等智能运维技术手段,通过模块化监控工具和日志分析系统,实现竖井式系统的打通和数据的关联分析,通过业务调用链路实时监控与追踪,全面掌控各核心系统的服务状态及业务支撑能力,为业务和系统性能分析奠定了数据基础,并为IT运维管理决策提供有效的数据支持。

云智慧一体化运维监控平台

基于此解决方案,云智慧构建的一体化运维监控平台,帮助用户实现了IT资源可视化呈现,通过统一告警、大屏展现,实时掌控IT资源运行状况,提高信息化技术管理水平。云智慧一体化运维监控平台包括:

统一监控管理平台:提供统一的界面,实现统一登录,包含:基础设施监控、应用性能监控、网络质量监控、业务监控、用户体验监控、统一告警和大屏可视化展示。

基础设施监控:包括主机监控、Hyper-V监控、存储监控、网络监控、网络设备、机房管理、中间件、数据库监控。

端到端应用系统性能管理:包括移动APP用户体验分析及行为分析、网站用户体验及行为分析、服务端应用系统性能分析、业务系统自动拓扑、端到端性能关联分析(实现从用户体验出发,涵盖移动APP、浏览器网站、后端代码、应用中间件在内的全环节性能问题追踪)以及智能化告警功能。

网络链路主动监测:提供网络链路监控,对外网访问的应用/网站进行全国互联网分布式监控服务,节点覆盖国内全部一二线城市和三大运营商的全部线路,同时可支持私有化监测节点部署。同时提供网站/应用用户感知分析,通过地图方式展示全国各地用户访问网站的体验情况视图,网站监控的性能指标主要包括可用率和响应时间。

大屏展示:以应用系统为核心,实现不同层级数据的关联,包括:用户体验、网络链路、应用性能和基础硬件性能数据,能够直观的体现应用、IT基础架构和告警的整体健康状况,展示监控对象的关键数据,方便对所有业务应用和IT运行情况整体把控。

云智慧一体化运维监控解决方案以云智慧DODP数字化运维数据处理平台和云智慧DOIA数字化运维智能分析平台为基础,由松耦合的云智慧DOEM数字化运维事件管理产品、云智慧DOLA数字化运维日志管理与分析产品、云智慧DOMC数字化运维监控中心产品组合,同时通过API开放接口与Zabbix等运维监控和ITOM产品对接,帮助企业实现以下价值:

打破数据孤岛,实现统一告警,构建立体化IT监控和运维管理体系。

从业务视角实时感知业务及系统运行状态,实现业务和IT的双向驱动,确保业务连续性,提升业务效能。

充分利用大数据和AI技术,构建智能化运维管控平台,自动识别业务问题,持续改善业务健康状况。