本书是大数据应用人才培养系列教材中的一册,讲解了大数据系统运行维护过程中的各个主要阶段及其任务,包括配置管理、基础运维管理、故障管理、性能管理、安全管理、高可用性管理、变更及升级管理、运维场景应用及服务资源管理,内容全面且翔实,兼具基础理论知识与运维实践经验,特别是重点介绍了大数据系统的运维特点及运维技能,从而可以保障大数据系统的稳定可靠运行,更好地支撑大数据的商业应用价值。 本书在继承第 1 版基础的同时,巧妙融合了最新的运维方式和经验,构建出更加全面、深入的知识体系。第 2 版的特色体现在对日志排查的精妙思路,系统变更升级的成功经验以及云原生环境下的运维应用等领域的深度拓展,为运维工程师提供了丰富而实用的指导。通过这本书,读者将深入洞察 当今大数据系统运维的精髓,从而提升自身实践技能,驾驭运维工作的新高度。 本书具有很强的系统性和实践指导性,可以作为培养应用型人才的课程教材,也可以作为从事 IT系统运维工作的广大从业者和爱好者的参考用书。
时至今日,大数据技术的生态圈已经越来越庞大,目前比较流行的应用主要是 Hadoop、Spark和Elastic Search,绝大多数的大数据系统是基于这3个技术进行 开发的。大数据运维工作具有很大的挑战性,既要满足业务快速上线,又要保 证系统的安全可用。尤其是对于大数据系统,因其服务器数量多、数据存储量大、开源 技术多和新技术稳定性有待提高等特点,诸如服务器管理、备份管理、升级管理和性能 调优等运维工作,都需要针对大数据技术的特点进行相应的改变与调整。 本书作者有着多年开发和运维的工作经验,结合大数据系统的特点,从运维视角进 行阐述,编写了大数据运维的教材,以填补这一方面的空白。本书自 2020 年出版后, 社会反应良好,被多所高校选作课程教材。这次我们根据大数据技术的最新发展, 结合师生们提出的宝贵建议,对本书进行了全新改版,主要增加了云技术发展趋势下涉 及的系统运维工作,包括云原生运维、微服务及容器虚拟化、持续集成/持续交付等, 并对系统升级涉及的数据准备、业务验证、测试、发布以及性能和日志管理进行大幅补 充与完善。 本书从运维工作的分类出发,对每种运维工作都进行了由浅入深的介绍。配置管理 是整个运维工作的基础和核心,没有配置管理,就如同没有地图在复杂的城市道路中行 走一样,随时可能迷失方向;同时,在配置管理章节介绍大数据技术的运维管理工具, 掌握这些工具能有效地提高工作效率。系统管理、故障管理、变更管理和升级管理是基 础性的,也是日常性的运维工作;安全管理、性能管理、服务资源管理和高可用管理则 在运维工作中相对比较高阶,也是比较复杂的内容;而且系统运维注重强调标准、流程 和制度。本书侧重理论和实践的结合。考虑到以青年学生为主的读者对相关概念接触不 多,本书在概念阐述上会占有一定篇幅,从而帮助读者更好地理解和融会贯通相关的知 识。
- 版权: 清华大学出版社
- 出版: 2024-08-20
- 更新: 2025-01-21
- 书号:9787302669814
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术