简介
由谷歌公司开创的“网站可靠性工程”(SRE)用于创建更具可扩展性和可靠性的大型系统,它已成为当今最有价值的软件创新机会之一。本书是一本简明实用的指南,展示了如何在你自己的组织中推动SRE的成功采用。Vladyslav Ukis博士提出了一个循序渐进的方法来建立正确的文化、组织和技术流程基础,快速实现“最小可行SRE”,并在此基础上不断改进。Ukis博士广泛地借鉴了他自己在一家大型医疗保健公司领导SRE转型的经验。贯穿全书,他解答了企业关于SRE的具体问题,指出了各种可能存在的陷阱,并说明了如何避免或克服这些陷阱。无论你在软件开发、工程或运营中扮演什么角色,本书都将帮助你运用SRE来改善最重要的东西:用户和客户体验。本书涵盖的内容包括:了解SRE如何工作,它在软件运维中的作用,以及SRE转型的挑战? 评估自己的组织目前的运作情况以及进行SRE转型的准备情况? 获得组织认同并启动基础活动,包括SLO定义、警报、轮流值班、事件响应和基于错误预算的决策? 调整组织结构以支持全面的SRE转型? 衡量SRE倡议的进展和成功? 维持并推进SRE转型。
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2024-09-01
- 更新: 2025-01-21
- 书号:9787302633082
- 中图:TP393.092.1-62
- 学科:工学控制科学与工程工学计算机科学与技术