简介
本书旨在帮助读者理解开源大语言模型的架构、训练和推理过程,以及相关的源代码。主要研究对象是Meta开源的Llama模型。本书从Python Numpy实现单层感知机和神经网络开始,逐步讲解了如何实现Transformer模型和Llama模型。此外,本书还介绍了增量预训练模型、监督微调和人类反馈强化学习等模型训练过程。对于私有知识的加入,书中重点介绍了监督微调,也介绍了RAG中词向量的计算。本书采用循序渐进的方式,通过功能框图、代码分解执行、执行结果显示、背景知识补充等手段帮助读者理解模型和算法。 本书的核心读者群体定位为大语言模型应用的开发人员,特别适合那些想从计算机视觉转向自然语言处理的人。此外,本书还适合作为大学本科生及研究生相关课程的参考教材使用。
编辑推荐
•本书基本覆盖大语言模型开发的多个方面。整体上可以参照OpenAI的安德烈•卡帕西(Andrej Karpathy)在微软的2023年Build大会报告中介绍的GPT助手训练流程。 •本书的内容来源不仅包含网络上的各类教程和文章,也包括原始论文和源代码。 •本书不但适用于大型语言模型应用开发人员,而且对于渴望深度探究ChatGPT背后的运行机制,更高效地运用和优化其功能的实践者,同样具有极高的参考价值。
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2024-09-01
- 更新: 2024-11-13
- 书号:9787302670513
- 中图:TP391
- 学科:工学控制科学与工程工学计算机科学与技术