简介
书讲述如何构建能处理大量数据的分布式数据项目。首先介绍Dask框架,描述Dask如何扩展Numpy和Pandas等常用Python库。然后介绍Dask数据帧,讨论有助于精简分析的代码模式,深入研究Seaborn的可视化,讲述Dask-ML构建机器学习模型。最后讨论如何扩展Dask应用程序,并讲述如何使用AWS和Docker构建Dask集群。本书分析NYC 2013-2017 Parking Ticket数据库中的大量数据,讨论如何分析数据集,以发现NYC趋势和模式。你将学会在自己的数据中发现类似趋势!
更多出版物信息
- 版权: 清华大学出版社
- 出版: 2020-06-01
- 更新: 2023-06-21
- 书号:9787302553786
- 中图:TP311.561
- 学科:工学控制科学与工程工学计算机科学与技术工学软件工程
相关图书
-
数据科学实战入门 使用Python和R
[法] 尚塔尔·D·拉罗斯(Chantal D. Larose), 丹尼尔·T·拉罗斯(Daniel T. Larose) 著 王海涛,宋丽华,邢长友 译
¥69.80