数据挖掘这一学科近年来发展十分迅速,不仅产生了大量不同类型的挖掘算法,而且也表现出与机器学习等学科深度融合的态势。无论是从事研究的专家学者还是从事应用的开发人员都十分希望能一窥其大略,从而比较准确地把握数据挖掘领域当前的主干技术,并比较全面地了解当前的发展趋势。 当前,在市场上流通的数据挖掘方面的著作已经不算少了,主要是两大类: 一类是具有完整体系的教材类图书,一类是面向特定领域的应用型图书。前者主要是服务教学,所以侧重原理、逻辑严谨,但是通常对数据挖掘的前沿介绍比较欠缺。后者往往集中于介绍某一领域的问题和方法,或者是关于某些典型工具的使用方法,其优点在于直观有效,但相对于整个数据挖掘领域其覆盖面偏小。 为此,很有必要对整个数据挖掘领域的近期发展和前沿成果进行梳理,而这一类信息往往散见于相关的大量学术期刊和会议文集中,限于视野和精力,任何个人都难以完成这一任务。在此基础上,还需要对当前庞大的数据挖掘知识体系进行恰当的取舍和凝练,这一工作必须依靠该领域的高水平学者。所以,国际数据挖掘社区合众人之力,在2006年推出了The Top Ten Algorithms in Data Mining这一继往开来之作。该书列举了评选出来的十个最具影响力的数据挖掘算法: C4.5、kmeans、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Naive Bayes和CART。我们认为该书有其鲜明特色: 第一,立意承前启后,推出的时机恰当。该书的内容涵盖了分类、聚类、统计学习、关联分析和链接分析等重要主题在近年来的发展,这不但对数据挖掘的研究和发展十分重要,也将数据挖掘推动到更大范围的真实应用中,激励更多数据挖掘领域的学者对这些算法的作用和新问题进行深入探索。 第二,汇集群体智慧,具有很高权威性。参评人员囊括了历届ACM KDD创新奖和IEEE ICDM研究贡献奖得主这些顶尖学者,以及SIGKDD、ICDM和SDM这三大数据挖掘学术会议的程序委员会的全体委员。此外,还组织了专题会邀请了一百多位领域专家进行开放研讨。 第三,执行过程严谨,确保内容高品质。第一阶段是由顶尖学者推荐算法并提供算法名称、简要理由和代表文献这些必要信息,第二阶段用google scholar对每个提名算法进行客观地引用验证和排序,第三个阶段由数据挖掘社区的专家和相关领域的专家进行投票,获得完全一致的结果。最后,邀请资深学者撰写上榜算法的介绍并集结成书。
详细介绍了在实际中用途最广、影响大的十种数据挖掘算法,这十种算法是数据挖掘领域的专家进行投票筛选的,覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题。
- 版权: 清华大学出版社
- 出版: 2013-05-01
- 更新: 2023-06-07
- 书号:9787302310617
- 中图:TP274
- 学科:工学控制科学与工程工学计算机科学与技术