整理运维框架并填充知识点。

安装相关工具并实践。

结合微服务的需求,思考存在的问题和盲点,提供解决方案。

APM 性能监控

Application Performance Monitoring

方案:服务部署时,Jenkins自动集成APM agent到容器中。服务运行时,agent自动将日志信息发送到APM server。开发人员可以通过Elastic APM查看。

elasticsearch APM功能全解 一_elastic apm-CSDN博客

 Automated Resource Allocation 资源自动分配

方案:开发人员通过JIRA提出资源分配申请,存储到SRE HUB中。在服务部署时,Jenkins自动通过SRE HUB获取资源配置信息。服务部署到OPENSHIFT。

资源包括CPU、Memory、Heap/non-Heap

JVM Tuning

Thread Sizing

Database Connections

Kafka Topics

问题:缺少了运行时的自动扩缩。

ELK - Alerting 自动告警

方案:APM agent自动将日志信息发送到APM server。OPENSHIFT通过Watcher把日志信息发送给aggregator。

日志信息(包括错误关键词、错误码)发送给TCC SOI。TCC发送告警信息给L1。

Real-time Monitoring Dashboard 实时监控看板

节点监控:node CPU Memory

服务监控:API latency

数据库监控:Long queries

Kafka监控:all topics

业务监控:user journeys,按照业务分类,统计(交易成功和失败)

Self Healing Services 服务的自动恢复

方案:服务能够自动监测健康状态,自动恢复和重启。最小化宕机时间。服务的自动扩缩。

范围包括微服务和Apache等。

Kafka HA 自动热备

为ms提供了Kafka自动热备切换的library?

Postgres DB HA 自动热备

方案:高可用。channel隔离。通过不同DB集群的双向复制获得PRO=0。

Embedded SRE GATE 配置中心

方案:在服务部署时,Jenkins自动调用SRE GATE,保证所有的配置(POM)符合标准。SRE GATE会读取SRE HUB库。

Certificate Automation 证书自动管理

方案:在证书到期之前,在服务部署时,通过Jenkins,调用Venafi和JETSTACK工具,自动更新证书。自动安装证书。

A/B Testing with Canary Release A/B测试和灰度发布

方案:包括流量比例分流和请求头分流(segregate traffic)。