多模态深度学习技术基础

作者: 冯方向、王小捷

出版社: 清华大学出版社

出版日期: 2023-09-01

  • 优惠券
  • ¥3
    ¥10
    ¥30
    ¥70
  • 领券
电子书 ¥64.34 定价:99.0
  • 收藏

  • 加书架

  • 引用

简介

内容上,本书力求系统地介绍基于深度学习的图文多模态信息处理技术,侧重介绍最通用、最基础的技术,覆盖了多模态表示、对齐、融合和转换等四大关键技术。同时也介绍了多模态信息处理领域的最新发展前沿——多模态预训练模型。此外,为了让读者可以实践这些多模态深度学习技术,本书提供了四个完整的实战案例,分别对应多模态表示、对齐、融合和转换这四个关键技术。 具体而言,本书的内容分为四个部分:初识多模态信息处理、单模态表示、多模态信息处理的关键技术、多模态预训练模型。 第一部分包括两个章节:第1章介绍多模态信息的基本概念、难点、使用深度学习方法的动机、多模态信息处理的关键技术以及这些技术的发展历史,第2章介绍若干同时涉及图像和文本的多模态热门研究任务。 第二部分包括两个章节:第3和4章分别介绍了多模态信息处理中常用的文本表示和图像表示方法。 第三部分包括四个章节:第5、6、7、8章分别介绍面向特定任务的多模态表示、对齐、融合和转换这四个关键技术,且每一章都提供了一个可运行的完整的实战案例。 第四部分包括一个章节:第9章介绍综合使用上述关键技术,并以学习通用多模态表示为目标的多模态预训练模型。

编辑推荐

● 全书分为初识多模态信息处理、单模态深度学习表示技术、多模态深度学习基础技术、多模态预训练技术四个单元,涵盖多模态表示、对齐、融合、转换和预训练技术。 ● 提供四个完整的实战案例,分别对应多模态表示、对齐、融合和转换这四个基础技术,把多模态深度学习技术融入实践中,加深学生对技术的理解和掌握。提供案例的Jupyter Notebook文件,支持教师一键讲解。 ● 可作为高等院校相关专业的教材,也可作为教辅资料,还可作为学习多模态深度学习技术的参考书。

更多出版物信息
  • 版权: 清华大学出版社
  • 出版: 2023-09-01
  • 作者:冯方向、王小捷
  • 更新: 2024-06-26
  • 书号:9787302637479
  • 中图:TP181
  • 学科:
    工学
    控制科学与工程
    工学
    计算机科学与技术
    交叉学科
    智能科学与技术

作者信息

冯方向、王小捷

冯方向,北京邮电大学人工智能学院助理教授,于北京邮电大学获得工学学士和博士学位。主要从事多模态认知计算方向的研究,在相关领域的高水平国际期刊、会议上发表学术论文30余篇。曾以第一作者身份发表论文获多媒体顶级会议ACM Multimedia最佳论文提名,单篇引用超过500次,主持和参与国家级科研项目5项。现主讲本科生课程《神经网络与深度学习》和《多模态信息处理》。作为项目负责人承担北京邮电大学 “高新课程”建设项目1项,作为骨干成员参与省部级产学合作协同育人项目《机器学习》创新创业课程建设以及北京邮电大学2022年研究生专业课程建设项目面上项目1项。

相关图书