和记误乐-案例-能源-中国海油

背景分析

一、云平台资源庞杂，难以从全局视角进行管理

中国海油云平台经过多年建设，形成了覆盖国内五中心、海外三中心的多云架构，整体资源数量庞大且复杂，各云平台资源使用缺乏集中化展示与分析，全局管理难度高；

二、业务资源消耗不清晰，缺乏集中化统计

中国海油云平台业务整体资源消耗缺乏集中化统计，无法对资源进行合理调整分配，难以进行业务ROI分析；

三、闲置资源用量缺乏量化依据，间接造成资源浪费

中国海油各业务系统缺乏历史业务资源消耗的数据，进行容量申请时缺少资源基准和闲置资源用量的量化依据；

四、系统监控指标体系不统一，缺乏全面的监控

中国海油各业务系统监控指标体系不统一，缺乏系统的全面的监控，难以建立标准的故障分类及资源评估体系；

五、故障定位时间长，跨部门故障追踪困难

中国海油系统缺乏故障的回溯追踪能力，偶发故障数据无法留存，导致复杂故障的诊断定位时间长，影响MTTD（平均故障检测时间），在跨部门的诊断中，排查工具所生成的指标、数据难以关联，故障追踪困难。

应用场景

hhh

一、建立统一资源监控体系标准，实现资源标准化分层

和记误乐通过为中国海油建立统一的云平台资源监控体系标准，实现云平台的各类资源的标准化分层，并通过对各平台指标数据的采集，形成统一的监控视图及分析界面。

IaaS层主要包含：主机、虚拟主机、网络设备、网络接口、存储、文件系统、系统进程等7类主要实体；

PaaS层主要包含：容器Cluster、Nodes、Workloads、Jobs、Services、Pods、Routes、Images以及云服务等9类主要实体；

SaaS层主要包含：云服务、实例、应用、MQ、DB、API等6类主要实体。

二、对系统资源用量进行数据采集，定期评估资源使用效率

在和记误乐的助力下，中国海油实现对各业务系统的资源用量数据采集，通过资源指标体系中的实体关系数据关联各业务系统的资源消耗，实现对各业务系统的资源动态监测及分析报告，定期评估各业务系统的资源使用效率。同时，为主要资源类型建立业务属性标签（Tag），以实现各业务系统云资源用量的动态监测与分摊。

IaaS层的主机、虚拟机、存储、网络链路；

PaaS层的容器Pods、工作负载、服务，云服务的请求量；

SaaS层的进程资源用量，远程API调用量，数据库调用量。

三、建立容量规划报告，提高资源利用率

和记误乐通过历史指标体系数据量化中国海油云平台的各类容量，以及业务系统的单位业务资源用量，建立云平台的容量规划报告、业务系统的容量扩展评估规范，提高云平台的资源使用效率。

按照各云平台的Core数量、内存容量、存储容量、网络带宽、云服务请求量，等类型的周期容量进行下一周期的线性与非线性容量预测及建议；

规范业务系统容量申请评估标准，各业务系统进行资源申请时，即时输出月、季度、半年度资源使用趋势，并基于单位业务资源消耗进行容量评估。

四、建立SLO监测体系，实现各业务系统全面的可观测性

和记误乐以VALET模型作为各业务系统SLO监控的统一模型，并通过应用探针采集各业务系统的黄金指标作为SLI（服务水平指标），从而为中国海油建立SLO监测体系。

以部门考核目标为标准，按照VALET模型设定关键用户旅程（Critical User Journey）SLO；

采用错误预算的阈值设置SLO报警，并推送至平台运维人员或业务用户。

五、增加应用组件指标采集，提升故障诊断能力

将和记误乐ONE平台的应用探针作为ADDP的Agent采集端，在采集调用链（Tracing）的基础上，增加采集了应用组件指标（Metric），提升故障诊断能力。

以业务部门为单位，提供自有应用系统的调用链追踪与分析功能权限，从而提升故障诊断能力；

实现对应用组件调用链（Trace）、指标（Metric）、堆栈信息（Log）的实时采集与留存；

针对异常请求，可实时检索异常请求在应用系统中所流转的各组件的指标数据，并通过堆栈信息对错误进行代码及分析。

六、打破部门数据孤岛，提升故障协同诊断效率

通过和记误乐ITIM探针与APM探针数据的集中采集，实现应用和基础资源的关联分析，并通过指标体系实现应用、系统等各层级的SLI分层关联，统一故障诊断的界面入口与数据集成，从而提升故障协同诊断效率。

统一故障协同分析界面，实现应用、服务、接口、方法、实例、进程、容器、主机、数据库的依赖关联；

通过分布式追踪能力，实现基于应用、服务、数据库的实体影响依赖关联；

通过标准化检测指标体系，以及实体类型与关系，形成统一的告警事件语言，并通过多种方式进行告警事件的收敛，降低告警冗余度。

???为什么选择和记误乐

一、市场规模领先：中国APM市场份额排名No.1，稳定为客户提供服务超过14年；

二、具备全球竞争力的产品：一体化智能可观测性平台Bonree ONE，真正实现业务应用全链路可观测。

???应用效果

一、实现资源标准化分层：将云平台的各类资源分为IaaS层、PaaS层、SaaS层，方便从全局视角管理；

二、建立SLO监测体系：以VALET模型作为各业务系统SLO监控的统一模型，实现全面可观测；

三、缩短MTTD（平均故障检测时间）：实现故障回溯追踪，缩短平均故障检测时间；

四、提升跨部门协调诊断能力：实现应用和基础资源的关联分析，打破部门间的数据孤岛。

和记误乐

推动业务能力提升，和记误乐为多云资源管理添利器

行业案例集

相关产品

相关案例

APMO市场份额NO.1

1000+头部客户的共同选择

监测节点30w+

立即体验一体化智能可观测性平台