云智慧DOCPV5.2-DOCC,三大能力助力运维构建统一采控中心
在全行业大力开展数字化转型的背景下,企业部署的服务器、云主机等资源节点暴增。如何对各节点资源的日志、指标等数据进行采集和统一管控,成为当下多数企业必须要解决的运维难题,主要表现为以下几个方面:
• 数据众多难以采集:服务器、云主机、中间件等各种资源产生的日志、指标等不同类型、不同维度的数据难以高效、实时采集;
• 采集器统一管控难:为了更全面地采集数据,企业部署、安装的采集器种类和数量逐渐增加,导致运维人员需要通过不同的后台对其进行管理,不仅效率低、学习成本高,并且不利于后期对采集器进行统一升级、启停等运维管控操作;
• 缺乏安全保护机制:采集器的异常和资源过度消耗会导致服务器宕机,影响业务发展,但不少企业目前缺乏安全保护机制来对采集器及采集任务进行约束管理。
问题虽然很多,但归根结底,是企业缺少一个安全、统一的数据采集及任务调度控制平台。
基于这一思路,云智慧在智能运维平台(DOCP)中推出了采控中心(DOCC:Digital Operation Collect & Control Center),能面向企业提供一站式各类采集任务的配置与自动化部署功能,支持针对各类日志、IT基础设备等数据进行采集、清洗、转换、发送、监控和告警等操作,同时也对采集任务及行为进行统一规范的调度和管控,避免不规范操作导致宕机等异常情况的发生,全面保障业务的正常运行。
2021年8月1日,云智慧发布了智能业务运维平台(DOCP) V5.2,其中的采控中心也升级到了全新版本。新版采控中心旨在以三个层面的能力,帮助企业搭建更统一、更安全、更好用的数据采集及任务调度控制平台。
聚焦流程,打通从数据采集到管理的渠道壁垒
新版采控中心实现了物理机、云主机、虚拟机、容器等节点设备的统一管控,支持将采集任务批量下发到目标,并通过 CDC、API、SDK 等多种方式对日志文件、服务器、中间件等指标监控数据进行采集,采集结果实时传输至服务端。
值得一提的是,新版采控中心融合了边缘计算能力,支持在节点处直接完成数据采集、解析、转换、清洗和发送等操作,不仅提高了计算速度(比如日志处理速度能达到每分钟上亿条),还能将计算压力分散到节点端,保证服务端性能。
除此之外,新版采控中心还具备 Agent 管理功能,能够统一收集各 Agent 的状态,帮助运维人员进行判断和下发安装、卸载、升级、启停、更改配置等指令。
力求便捷,开箱即用和任务批量处理
新版采控中心提供一键式、自动化的脚本安装程序,用户仅需点击页面,即可完成整个 Agent 的安装部署过程。
针对大规模数据中心需要批量处理的场景,新版采控中心能提供单次最大并发上千台主机的安装、升级、卸载、启停 Agent 及采集任务下发等运维操作。除此之外,新版采控中心还在原来的基础上增加了开箱即用的模板库,实现采控能力脚本化、插件化扩展。
新版采控中心的便捷性不仅体现在功能层面,也体现在产品的可用性层面。它能支持对几十种数据源和上百项指标的采集和监控,兼容Linux 、Windows、AIX、MacOS、银河麒麟OS等多种不同类型、不同版本的操作系统,以及嵌入式设备、网页、服务器、程序等,能为客户节省大量适配时间和成本。
安全为先,自动负载均衡和主动告警、熔断
当前市面上很多采控类产品虽然能满足数据统一采集和管控的要求,但是缺乏完善的保障机制,主要有以下问题:
• 主机故障导致业务中断;
• 负载不均导致单机节点过热。
为了实现更安全的数据采控,新版采控中心不仅实现了自动负载均衡,能根据业务情况自动调整采集和发送速率,还能提供系统级的保护机制。当平台监控到 CPU、内存、磁盘和网络使用情况超过设定的阈值时,自动触发熔断机制,停止该 Agent 的所有任务,防止因为资源的持续消耗造成主机系统瘫痪对业务产生影响。
另外,新版采控中心还具备灵敏的自动告警功能:系统在运行过程中对主机状况、Agent 状态和任务状态进行实时监控,一旦监控数据超过告警红线,第一时间通知运维人员对异常进行处理。
接下来,云智慧将继续着力思考采控中心更广泛的应用场景,持续对产品进行优化和升级,进一步整合智能业务运维平台(DOCP)的能力,帮助客户解决数字化转型过程中面临的运维难题,为客户业务稳定、高速发展保驾护航!