简介
内容上,本书力求系统地介绍基于深度学习的图文多模态信息处理技术,侧重介绍最通用、最基础的技术,覆盖了多模态表示、对齐、融合和转换等四大关键技术。同时也介绍了多模态信息处理领域的最新发展前沿——多模态预训练模型。此外,为了让读者可以实践这些多模态深度学习技术,本书提供了四个完整的实战案例,分别对应多模态表示、对齐、融合和转换这四个关键技术。 具体而言,本书的内容分为四个部分:初识多模态信息处理、单模态表示、多模态信息处理的关键技术、多模态预训练模型。 第一部分包括两个章节:第1章介绍多模态信息的基本概念、难点、使用深度学习方法的动机、多模态信息处理的关键技术以及这些技术的发展历史,第2章介绍若干同时涉及图像和文本的多模态热门研究任务。 第二部分包括两个章节:第3和4章分别介绍了多模态信息处理中常用的文本表示和图像表示方法。 第三部分包括四个章节:第5、6、7、8章分别介绍面向特定任务的多模态表示、对齐、融合和转换这四个关键技术,且每一章都提供了一个可运行的完整的实战案例。 第四部分包括一个章节:第9章介绍综合使用上述关键技术,并以学习通用多模态表示为目标的多模态预训练模型。
编辑推荐
● 全书分为初识多模态信息处理、单模态深度学习表示技术、多模态深度学习基础技术、多模态预训练技术四个单元,涵盖多模态表示、对齐、融合、转换和预训练技术。 ● 提供四个完整的实战案例,分别对应多模态表示、对齐、融合和转换这四个基础技术,把多模态深度学习技术融入实践中,加深学生对技术的理解和掌握。提供案例的Jupyter Notebook文件,支持教师一键讲解。 ● 可作为高等院校相关专业的教材,也可作为教辅资料,还可作为学习多模态深度学习技术的参考书。
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2023-09-01
- 更新: 2024-06-26
- 书号:9787302637479
- 中图:TP181
- 学科:工学控制科学与工程工学计算机科学与技术交叉学科智能科学与技术