Responsive image

智慧运维 - 基于大数据的智慧运维

概述


    å½“今,企业所面临的经营环境越来越复杂, 业务创新与 IT 重塑已经成为了 企业保持增长的重要动力来源。 随着业务发展的深入,企业的 IT 系统也日益复杂。网络、服务器、软件应 用系统之间错综的关联关系,使得 IT 管理和运维人员面对最终 用户反映的应用 慢、系统中断等问题时,无法快速准确的定位问题根源,让企业数据中心的管理 和维护面临前所未有的挑战。

     传统的 IT 运维模式以组件为管理对象,自底向上的对网络、服务器、存储、 中间件、数据库等 IT 资产进行监控。这种条块化的监控 方式,由于缺乏统一的 业务和 IT 视图,无法从业务角度去衡量 IT 服务质量,无法实现端到端的用户体 验和应用管理。新型的以应用 系统为核心的监控技术已经成为行业发展的热点。

     应用监控管理软件的发展大致可以分为三个阶段:第一阶段是以网络为中 心,网络速度等于应用速度。提供了监控、故障发现、带宽 管理、数据分析和服 务水平等级协议(SLA)等支持。第二阶段是以 IT 组件为中心,实现 IT 组件安 全监控,以及基础设施可用 性监控。IT 组件包括网络、主机、存储、操作系统、 中间件、数据库等。第三阶段是以应用系统为中心,高度复杂交易为核心,实 现 面向用户、面向应用的端到端生命周期管理。


  • Responsive image

    全局应用、系统由内到外健康监控,X光式系统扫描

    Cloudwiz对整个系统从上到下(应用软件, 中间IT组件, 操作系统和网络)的运行状态进行实时可视化监控, 在一个整体的界面里提供各种曲线和图表。帮助运维人员对整个应用系统的运行状态一目了然。


    智能告警

    运维人员可以通过设定报警规则。如果系统发生异常而触发报警,Cloudwiz会通过短信,email等方式通知运维人员。
    Responsive image

    Responsive image

    由内到外、精细扫描

    Cloudwiz跟市场上的运维监控软件(比如Application Performance Monitoring类的)有很大的不同。首先,APM对应用 软件监控的粒度比较粗糙,它们把应用当成一个黑箱,只是从外部监控应用是否已经出了问题。而Cloudwiz把应用当成白箱,从应 用内部监控应用的运行状态,在影响用户之前能提前报警。


    大数据分析、主动运维

    由于Cloudwiz整合了整个系统的监控数据并收集了应用软件业务本身细粒度的数据,它有很大的数据量来判断系统的健康状态。 Cloudwiz引入数据挖掘和机器学习的手段,自动分析历史数据, 发现规律并预测系统的运行指标, 提前发现异常问题并报警。 这种报警是不需要运维人员设定规则的。
    Responsive image

    Responsive image

    多系统、大数据关联分析

    除了发现异常并报警,cloudwiz把智能运维的概念更推进一步。发现问题只是运维过程中的第一步。由于系 统越来越复杂,指标数随着架构的复杂度和部署机器的数量成指数增加,想从成千上万个指标中找出原因是 件很耗时耗力的事情。运维中80%以上的时间都花在故障诊断上。Cloudwiz能自动利用大数据分析问题根源, 帮助运维人员缩短故障诊断时间。它通过数据挖掘算法找出与故障最关联的指标,尽量地缩小故障根源的搜 索范围,帮助运维人员很快地定位故障根源。。