整理运维框架并填充知识点。
安装相关工具并实践。
结合微服务的需求,思考存在的问题和盲点,提供解决方案。
APM 性能监控
Application Performance Monitoring
方案:服务部署时,Jenkins自动集成APM agent到容器中。服务运行时,agent自动将日志信息发送到APM server。开发人员可以通过Elastic APM查看。
elasticsearch APM功能全解 一_elastic apm-CSDN博客
Automated Resource Allocation 资源自动分配
方案:开发人员通过JIRA提出资源分配申请,存储到SRE HUB中。在服务部署时,Jenkins自动通过SRE HUB获取资源配置信息。服务部署到OPENSHIFT。
资源包括CPU、Memory、Heap/non-Heap
JVM Tuning
Thread Sizing
Database Connections
Kafka Topics
问题:缺少了运行时的自动扩缩。
ELK - Alerting 自动告警
方案:APM agent自动将日志信息发送到APM server。OPENSHIFT通过Watcher把日志信息发送给aggregator。
日志信息(包括错误关键词、错误码)发送给TCC SOI。TCC发送告警信息给L1。
Real-time Monitoring Dashboard 实时监控看板
节点监控:node CPU Memory
服务监控:API latency
数据库监控:Long queries
Kafka监控:all topics
业务监控:user journeys,按照业务分类,统计(交易成功和失败)
Self Healing Services 服务的自动恢复
方案:服务能够自动监测健康状态,自动恢复和重启。最小化宕机时间。服务的自动扩缩。
范围包括微服务和Apache等。
Kafka HA 自动热备
为ms提供了Kafka自动热备切换的library?
Postgres DB HA 自动热备
方案:高可用。channel隔离。通过不同DB集群的双向复制获得PRO=0。
Embedded SRE GATE 配置中心
方案:在服务部署时,Jenkins自动调用SRE GATE,保证所有的配置(POM)符合标准。SRE GATE会读取SRE HUB库。
Certificate Automation 证书自动管理
方案:在证书到期之前,在服务部署时,通过Jenkins,调用Venafi和JETSTACK工具,自动更新证书。自动安装证书。
A/B Testing with Canary Release A/B测试和灰度发布
方案:包括流量比例分流和请求头分流(segregate traffic)。