大模型轻量化:模型压缩与训练加速

作者: 梁志远

出版社: 清华大学出版社

出版日期: 2025-04-01

电子书 暂不销售 定价:129.0
  • 收藏

  • 加书架

  • 引用

简介

模型轻量化通过降低计算和存储需求,提高大模型的运行效率、部署灵活性和能源利用率,同时尽可能保持其性能表现。它主要包括模型参数轻量化、训练加速和推理加速三部分。本书以此为出发点,系统地探讨了大模型轻量化的基本理论与实现方法,旨在提升模型的部署效率和计算性能。本书分为三部分共10章,首先聚焦大模型的背景与面临的问题,讲解了Transformer和MoE架构的基本原理;随后重点讲解模型压缩、训练加速和推理优化等核心技术,包括量化、蒸馏和剪枝等,并通过实际案例验证其效用;后续则详述端侧学习与计算引擎优化策略,尤其是动态Batch和异构执行的工程实现。最后针对高性能算子库与手工算子开发,分别以cuDNN、NEON、CUDA等实际案例为导向,揭示算子优化的细节;结尾以最新的国产开源模型DeepSeek-V3为例,展现从训练到推理的综合优化方案。本书旨在为读者提供全面且实用的模型轻量化方法论,同时结合大量代码示例和实践案例,既可以适用于从事大模型开发的工程师,也可以为该领域的研究人员提供深入探讨的素材和视角,助力解决大模型训练与推理过程当中的实际问题。

更多出版物信息
  • 版权: 清华大学出版社
  • 出版: 2025-04-01
  • 作者:梁志远
  • 更新: 2025-05-19
  • 书号:9787302686002
  • 中图:TP18
  • 学科:
    工学
    控制科学与工程
    工学
    计算机科学与技术
    交叉学科
    智能科学与技术

作者信息

梁志远

相关图书