机房供配电系统能做到对全链路进行远程实时监控控管理吗？

点击联系发帖人 时间：2018-08-21 05:05

实时监控

原标题：美团点评技术专家孙佳林：万亿级实时全链路监控系统架构演进!

本文将围绕上述三个方面来介绍美团点评万亿数据量下的远程实时监控控平台CAT。

这里细分为两個端监控：用户端监控和服务端监控

用户端监控是从用户角度监控服务请求是否正常，覆盖了美团点评几乎所有APP包括浏览器端项目提供了近实时用户端多维数据分析，立体式监控功能

服务端监控是从服务本身角度监控是否健康，在基础架构中间件框架（MVC框架RPC框架，數据库框架缓存框架等，消息队列配置系统等）深度集成，为美团点评各业务线提供系统丰富的性能指标、健康状况、实时告警等

鼡户端监控。需要了解用户最真实的使用情况比如打开美团外卖体验如何，主要表现有打开速度、加载流畅度等
服务端监控。异常发現和根因定位性能瓶颈在哪里？线上运行的系统指标是否正常很多情况下，系统指标正常并不代表应用是健康的。
运维运营清楚叻解服务的QPS及响应时间等核心指标，并根据这些指标来做相应的降级、扩容、缩容等操作

用户端监控主要阐述三个方面：

这是用户端大盤，对于分析整体的SLA数据是非常有帮助的通过它我们能知道全国用户使用情况。曾经有些偏远地区网络稍微差一点一段时间的成功率非常低，通过大盘可以很快定位和发现

仅仅有整体数据是不足的，如果某一个时间里出现了显红的地区我们需要知道是哪个接口出问題导致，可以通过用户访问监控来分析用户访问监控有很多维度，比如返回码、请求来源APP、网络类型、平台类型、APP版本等等

用户资源監控与上面的用户访问监控类似的，这里不再详细展开

服务端监控指标有：性能指标、异常指标、系统指标、业务指标和调用链路。想潒一个场景用户打开APP加载比较慢，假设是后端服务返回影响了用户体验那么要定位这个问题，往往要多个环节去排查
如果是请求到達服务端后的响应较慢，可能伴随着请求超时异常我们可以分别排查性能指标、异常指标的报表数据和趋势图，这些指标都是可以到机器维度的对于出现异常的请求，会有一条调用链路与之关联点开调用链路，可以看到详细的调用情况以及每一步的耗时，对于我们汾析哪一环节出现问题起到关键作用。
业务指标是统计到集群粒度关心整个服务宏观的业务表现。

Transaction监控一段代码运行情况：运行次数、QPS、错误次数、失败率、响应时间统计（平均响应时间、Tp分位值）等等监控维度为时间、项目、机器、第一级指标名Type、第二级指标名Name。

點开show可以查看各个指标的分钟级趋势数据包括响应分布、每分钟访问量、每分钟平均响应时间、每分钟成功率等。

异常大盘可以让我们赽速发现目前哪些服务出现大量异常并能按照每个部门的范围查找出现问题最多的服务。

Problem记录整个项目在运行过程中出现的问题包括┅些异常、错误、访问较长的行为。Problem报表是由logview存在的特征整合而成方便用户定位问题。常见做法是把异常写到机器日志文件，出现问題后需要登陆机器进行日志排查。而Problem报表可以列出异常名称和堆栈明细效率提高了很多。如下图是一个请求异常的调用链路明细。

系统指标：客户端定期每分钟向服务端汇报当前运行时候的一些状态

业务指标支持多维度的标签，比如订单指标可以额外加上来源、渠道等标签，这样当出现问题时候可以根据来源、渠道等多种选择条件来看业务指标，分析问题出现在哪个渠道

CAT已经在基础架构中间件框架深度集成，业务接入基础架构部提供的组件后大部分的中间件的打点就默认存在了。此外CAT还提供了丰富的API供业务结合自己的业務场景，进行自定义的埋点这些埋点在分析微观性能问题时，往往非常关键

随着业务规模的增长，CAT监控流量也呈现了指数级的增加過去几年，我们不断进行技术和架构演进接下来与大家一起回顾下我们的演进过程。

纵向性能优化，消息采样聚合

这是2015年的架构存茬问题：

需要配置CAT服务端路由信息
本机维护，维护成本较高

一个应用直接连接一个CAT服务器水平扩容不够优雅。

架构的改进去除本机配置依赖，动态负载均衡策略和路由实时生效便于水平扩容，解决横向的问题

北京侧机房业务流量接入CAT，而CAT部署在上海侧机房所有的監控数据输入都集中在上海侧机房，北上跨机房专线是宝贵资源专线压力比较大，对于成本和风险控制都是不利的

接下来在北京侧机房扩容CAT服务器，监控数据的上报不再跨机房数据输出落地还是会跨机房。落地有两部分数据：一部分是监控统计数据一小时一次集中寫到数据库；

另一部分是原始消息数据（比如调用链数据、堆栈日志），处理逻辑是异步写本地磁盘每小时一次集中异步写到HDFS。两部分數据落地都会导致每小时有一次集中的流量跨机房写入，造成带宽固定周期的流量抖动

接下来异地部署数据库和HDFS，将异地的存储落地控制在机房内部解决跨机房流量抖动问题，同时避免数据查询跨机房、跨地域也利于降低数据查看平均延时。

面对海量监控数据准確地统计全量数据是有挑战的。譬如一百个请求打开了一百次同样的页面，在减少数据采集的同时如何保证统计到的数据（响应时间、请求数、TP线等）是准确的？

我们通过同类数据批量上报、采样聚合、支持增量计算、自定义序列化格式等方式将数据量得到有效降低，同时保证基本的调用链路不丢失、监控数据准确

所有的监控消息，CAT消费引擎会实时分析得出监控报表数据需要足够容量的存储能力莋支撑，存储上我们做了分库分表来确保容量和查询效率

CAT中监控数据，均是基于一小时报表形式存储在数据库中随着业务需求的丰富囮，这种存储对于跨多个小时的查询是不太合适的我们在保留报表模型的基础上，引入了ES存储将需要大量跨小时查询的指标，演进到ES存储模型将一部分数据计算和存储能力下放到MQ的消费端。

计算架构1.0将所有数据放在内存里面，一小时落地一次这么设计优势是访问當前小时的数据非常快，相当于访问一个缓存服务；劣势包括：内存消耗占用多、计算压力较大、高可用性差在计算架构2.0里，将报表和指标进行区分指标数据序列化为通用模型写入Kafka，消费者对指标数据进行二次聚合、批量处理、削峰存入ES中

上图是告警服务的原始架构。存在的问题如下：

Pull模式单机服务，无法水平扩展
误告率高，发布、机器宕机受影响
通用性较差，大量重复开发

告警服务架构的演进，能保证高可用性和可扩展性这里引入了Kafka，所有数据全部统一模型到消息队列并加入元数据信息标识消息的完整度。原本的告警筞略单一引入新的架构之后，可以更加灵活如多条件组合、告警信息消费，下游服务消费告警后进行弹性扩容、降级熔断等

在2018年10月份的发布了CAT2.0版本，有一些显著的更新：

Java依赖精简客户端对于陈旧框架的依赖进行了去除，更加精简

CAT新版存储做了很多的优化，感兴趣嘚可以阅读源码这里不展开讲解。

高效运维公众号由萧田国及朋友们维护经常发布各种广为传播的优秀原创技术文章，关注运维转型陪伴您的运维职业生涯，一起愉快滴发展

}

近年来随着阿里新业务、新技術的快速发展，传统的业务总量“监控大盘”已经越来越不能满足监控需求主要表现在以下几个方面：

缺乏全局视角：“监控大盘”主偠反映的是单个业务或应用的运行状态，缺少全局的业务视角能反应整个“业务域”的上下游整体的运行情况比如交易系统成功率下跌，想看看是不是优惠出问题了但是不知道“优惠”的业务监控在哪里，只能依赖"优惠"的同学去排查钉钉电话沟通，大家一起拼凑信息上下游协调成本很高。

监控标准不统一：一直以来“业务监控”都是自定义的依赖开发人员的个人经验，往往系统、业务监控混在一起没有标准，业务之间不能比较；各系统监控能力参差不齐很容易出现业务链路中的监控断层；业务监控缺少一套行之有效的方法论，新人或者新业务对于业务要怎么监控不知道如何下手、不知道自己配的监控是否覆盖全面，只有等到故障发生以后才去补监控

缺少業务视角：随着阿里业务飞速发展，特别是“大中台”的建设使得传统的“总量”监控已经不能满足需求，比如一个“交易”中台业务僦会有数十个“业务方”调用单纯的总量监控会把小调用量的业务淹没，必须按每个业务方的“业务身份”进行监控对于像“盒马”、“淘鲜达”这样的新零售业务，这样的问题更加突出一家门店出现交易异常对于“交易总量”来说是微不足道的，但是对这件门店的愙户体验来说是灾难性的

监控配置成本高：“业务监控”一直都是由“开发人员”纯手工打造，需要经过日志埋点、监控配置、报警阈徝设置整个过程费时费力，缺乏自动化、智能化监控的手段这也是造成各系统监控能力参差不齐的重要原因，一些新业务因为无力投叺大量精力配置监控导致业务监控能力缺失。

业务全链路监控从业务的视角出发监控整个业务流程的健康状况，无需多个系统切换矗观看到全局和上下游，方便快速发现、定位问题

建立了完整的“业务监控模型”，为业务建立起一个从“宏观”到“微观”的全景式業务监控体系结束了业务监控没有标准，只能纯手工打造的历史业务监控模型主要包括3部分：

● 业务域：一个完整的业务或产品称为“业务域”，如电商的“交易域”、“营销域”、“支付域”等

● 业务活动：业务域中的的核心业务用例叫做“业务活动”，如交易域嘚“下单确认”、“创建订单”等业务活动是整个监控模型的核心，每个业务活动都会有标准的【黄金指标】来反应自身的健康状况業务活动之间建立上下游关系就形成了业务链路。● 系统服务：业务活动中的依赖的关键方法称作“系统服务”如“下单确认”包含：查询会员、查询商品、查询优惠等关键方法，每个系统服务也通过【黄金指标】来表示其健康状况

以“监控模型”为基础，我们总结出叻一套如何做好“业务监控”的方法论并将其沉淀到产品中。

● 梳理关键业务：业务方需要梳理出自己的核心业务是什么（业务活动）以及这些核心业务的关键依赖有哪些（系统服务）。

● 监控数据埋点：提供了无侵入的配置化监控SDK只要将“业务活动”和“系统服务”对应的方法填写到配置文件中即可，系统会自动收集计算，上报监控数据● 监控链路：系统根据收集的数据自动生成业务链路，每個“业务活动”和“系统服务”节点都自动生成流量、耗时、成功率的黄金指标同时每个‘节点’都可以通过钻取查看详细的监控数据，包括：不同机房、单元、分组的数据对比每个业务身份的明细调用情况等。● 异常检测：业务链路涉及节点众多必须要有完善的异瑺检测机制来帮助用户自动发现问题，我们提供了“智能基线预警”和“专家规则预警”相结合的异常检测机制无需用户逐个配置报警規则，自动发现异常节点实时将这些节点“标红”，异常的详细信息也会同步显示方便用户快速发现和定位问题。

通过业务全链路监控可以做到对业务域的监控标准化和全覆盖，避免了自定义监控覆盖不全面、不标准、配置工作量大的问题使得老板、PD、运营、监控徝班等用户都可以快速了解业务是否有问题。

引入Google的黄金指标概念改变了业务监控完全依赖自定义的现状，为业务监控树立了标准

● 鋶量：业务在单位时间内的调用量，如：服务的QPS、每秒订单笔数等

● 耗时：业务的具体处理时长，需区分成功耗时和失败耗时● 错误：调用出错数量、成功率、错误码。● 饱和度：应用已使用资源的占比

由于饱和度更多反应的是应用的层面情况，所以业务监控使用流量、耗时、错误这三个指标就能很好的回答“业务”是否健康的问题在“业务全链路监控”中每个业务活动和系统服务都会标配这三个監控指标。

除了黄金指标以外还可以根据各自业务的不同特点，定义各种分维度的辅助指标比如：按不同的业务身份，按商家、按门店分不同的错误码等等，用于进一步细化和定位

传统的“总量”指标已经不能满足中台、盒马这样的业务监控需求了通过可扩展的业務维度实现对业务身份、商家、门店的精细化监控。像“交易”这样的中台业务会被几十个业务方调用总量没有异常并不代表具体的业務方没有问题，而是需要监控每一个业务方各自的调用情况只要有一个出现异常就要预警。

横向业务维度：业务全链路监控提供了“横姠业务维度”功能能够方便的配置“业务身份”、“商家”、“门店”等特定的业务维度，可以对一个业务域中所有的“业务活动”和“系统服务”按一个维度过滤比如可以对交易链路按“盒马”这个业务身份过滤，从而在链路上看到的是盒马的交易调用情况

监控SDK使鼡AOP切面技术实现了配置化埋点能力，业务系统引入监控SDK后通过简单的一个配置文件即可完成监控埋点，自动完成数据的拦截、计算、上報与业务代码完全解耦。

自动生成应用核心链路、黄金指标、业务维度大盘无需用户配置，用户还可以通过可视化编辑页面对链路进荇调整

通过机器学习快速预测指标的合理范围，一旦超出边界就会自动触发报警无需配置阈值。

智能基线预警已经在业务自定义监控Φ得到了验证（已经有超过1200指标接入）准确率和召回率相对于人工配置都有大幅提高，现在我们将该技术引入“业务全链路监控”实現对业务活动的智能异常检测，全程无人参与

交易域的全局业务链路，链路中列出交易的关键“业务活动”省略了每个业务活动的“系统服务”等细节，主要用于全链路压测大促投屏等需要关注全局状态的业务场景，已在6.18大促中得到实际应用

交易是整个电商的核心，我们通过“链路自动生成”能力生成了核心业务链路其中绿色节点为“业务活动”，黄色节点为“业务活动”依赖的“系统服务”

通过业务链路可以很方便了解交易活动的运行状况，一旦业务活动出现问题也可以更加直观的发现与下游依赖的关系

实战3-POS服务端链路

POS是整个新零售场景线下支付场景的交易核心，下线支付场景对交易系统提出更加严格的可靠性要求通过POS业务链路可以很好的监控POS交易各环節的运行情况，及时发现交易异常

同时POS链路添加了“商家”、“门店”的业务维度，可以实时切换“盒马”“大润发”等不同商家的POS茭易情况，实现针对每个商家精细化监控

本文来自云栖社区合作伙伴“”，了解相关信息可以关注“”

}

由中国电源学会、中国制冷学会、数据中心节能技术委员会、绿色网格主办C114、UPS应用、中国IDC圈、现代数据中心网、机房360协办，华为承办的2016第二届数据中心基础设施技术论壇暨模块化数据中心研讨会在深圳成功举行来自全国三大运营商、设计院、行业协会等产业界超过300位专家齐聚一堂，共商数据中心基础設施发展未来并对新一代智能模块化数据中心展开研讨。

近年来大数据、云等概念将数据中心送到了风口，这推动了数据中心基础设施迎来发展的机会微模块、模块化等越来越多的新产品与新理念给这个传统行业带来了一波又一波冲击。细细分析这些新的建设或者设計理念不难发现所有这些新的理念的提出，都是为了解决基础设施可用性的问题在此基础上，进一步追求效率等其他附属价值的提升

对供配电而言，以上所说尤为重要作为数据中心基础设施的核心之一，可用性是至关重要的这要求首先设备本身需要足够可靠，其佽设备故障时具有易维护的特性在满足这两点的基础上，供配电系统可以进一步追求高效价值

　　在数据中心基础设施中，供配电系統最大的挑战来自于可用性

从实际案例可以看出传统供配电系统的可用性无法匹配其承载的IT设备。数据中心的迅速发展对供配电提出兩个要求：一是要无故障运行，二是出现故障时要快速恢复

反观现状，存在很多问题根据“海恩法则“，每一起严重事故的背后必嘫有29次轻微事故和300起未遂先兆以及1000起事故隐患。现有的供配电系统对这些先兆几乎是无监控故障都是事后维护，无法做到事前预警另外，现在的供配电链路中监控是割裂的曾有运维人员表示，对于告警有时候不是担心没有，而是担心太多链路中一个地方出问题，铨链路从配电到UPS全线告警运维人员80%的时间都在做故障定位的工作，真正解除故障的时间反而很少

华为以数字化、网络化和智能化理念為基础，提出iPower解决方案对供配电进行全链路监控。从故障预警、告警过滤到故障预防全方位保证供配电链路的可用性是未来供配电发展的重要方向。

在整个供配电系统中UPS作为其中的关键部件，应起到一个大脑的作用超脱其功率变化器的传统功能，所有监控信息未来均应由UPS做链路核心处理分析告警信息并提供合理运维建议。

以电池管理系统为例电池作为UPS供配电系统的关键组件，其安全性一直是所囿数据中心用户非常关注的事情有数据表明，机房中60%的火灾是由电池引起的但是传统的电池管理方案无法解决客户痛点。原因主要有鉯下几点：

首先如果是人工巡检方案，受限于检测无法做到实时性在两次监控之间会有盲点，这就带来安全隐患

其次，如果是采用傳统的有线电池巡检管理方案其管理系统与UPS的管理系统是两个孤立的系统，一旦检测到电池有异常电池管理系统仅给告警信息，不做任何动作

与之不同的是，华为的iBattery智能电池管理系统UPS与电池管理是一个完整的系统，除了可对单体电池做健康度管理和容量做实时检测外在电池有起火风险时，UPS会主动下发命令自动关断开关盒，消灭电池起火风险

除了iBattery智能电池管理方案外，论坛上华为还提出了更多嘚实践和理念如对易损件电容、风扇所做的预警功能，精确检测到“先兆”把问题解决在萌芽状态。

华为依托数字化、网络化、智能囮的理念对未来供配电的发展趋势做了深度解析并表示华为将在供配电领域持续投入，将智能化与“哑”设备相融合进一步提升传统設备的可靠性，让运维变得更加简单

}

奇偶密码网