Principles of Data Mining

中文名:数据挖掘原理

作者:DavidJ.Hand, Heikki Mannila, Padhraic Smyth

出版社:Bradford Books

出版年:2001

ISBN: 978-0262082907

领域:信息技术

 

 

Principles of Data Mining(《数据挖掘原理》)的作者为David J.HandHeikki MannilaPadhraic Smyth。其中,David J.Hand为伦敦帝国理工学院高级研究员、统计学教授,研究方向包括多元统计、分类方法、模式识别、计算统计和统计学基础等,另有影响力较大的著作The Improbability Principle: Why Coincidences, Miracles, and Rare Events Happen Every Day(《不可预测性原则:为什么巧合、奇迹和稀有事件每天都在发生》)Heikki Mannila计算机科学家、现任芬兰科学院院长,他因发表了大量关于关联规则学习和序列模式挖掘的高影响力论文而闻名;Padhraic Smyth现为加州大学Irvine分校信息与计算科学系副教授

在大数据时代,很多学科都面临一个问题:如何存储、访问异常庞大的数据集,并用模型来描述和理解它们?这个问题使得人们对数据挖掘技术的兴趣日益高涨。长期以来,很多相互独立的不同学科分别致力于数据挖掘的各个方面。为了向人们提供解决上述问题的综合性方案,三位作者将信息科学、计算科学和统计学在数据挖掘方面的应用融合在一起,形成了这本真正的跨学科教材。

本书的14个章节分为三个部分:第一部分涵盖14章,讲述基础知识。其中,第1章围绕数据集属性、模型和模式、数据挖掘任务、数据挖掘算法的组件以及统计和数据挖掘的相互关系对数据挖掘进行了初步介绍。第2章“数据的测量”中,作者们从如何判断测量类型、把握距离尺度、完成数据转化、确定数据形式并评估数据质量几方面为读者进行指引;第3章的主题为“数据的探索和可视化”。此部分内容通过举出数据总结的实例、介绍处理不同变量关系的工具以及提供主分量分析与多维缩放的思想方法,展开对主题的深入探讨。第4章讲述的是“数据不确定性与分析,具体介绍了如何处理不确定性、如何判定随机变量及它们的关系、如何采样并对样本进行统计、推理、估计以及假设检验的方法。

第二部分的范围为第58章。此部分展示了构造算法解决具体问题的原则,重点介绍了可用于系统地创建和分析数据挖掘算法的构建块,即数据挖掘算法的“组件”。第5章“数据挖掘算法概览”,讲解了建立树分类器的CART算法及数据挖掘算法的化约主义观点。第6章“数据挖掘的模型和模式”具体展示了在数据挖掘的模型结构与相应函数模型以及相关的维度效应(The Curse of Dimensionality)。第7章着重讲解了数据挖掘算法的拟合模型与数据的评分函数(Scoring Patterns)。第8章“搜索和优化方法”衔接前三章内容,从搜索模型或模式、参数优化方法、存在残缺数据时的优化、在线和单扫描算法(Online and Single-Scan Algorithms)等方面对主题进行了延伸。

第三部分涵盖了第914章。这部分将基本的数据挖掘任务分解为密度估计和聚类、分类、回归、模式发现和内容检索的流程。第9章以“描述建模”为主题,讲解了通过概率分布和密度描述数据的方法以及结合相关知识进行聚类的划分和分析的方式;第10章承接第9章,讲解“用于分类的预测建模”,围绕这个主题,作者对“分类”的判别决策方式、概率模型以及实际的分类器及其评估与比较进行了详细的描述,也列举和介绍此种建模方式下应用的多种判别式以及模型供读者们参考学习。第11章介绍“用于回归的预测建模”,人工神经网络及其他高度参数化的模型在本章中亦有涉及。第12章以“数据组织和数据库的知识”为主要内容,作者以存储器的层次、索引结构和关系数据库等基础知识为出发点,对操纵表格、结构化查询语言、执行和优化查询以及在线分析处理数据仓库的方式进行讲解。第13章则讨论了“寻找模式和规则”,旨在解答如何表示规则、如何把握频繁项集及其关联规则并进行推广、如何寻找序列中的片段以及选择发现的模式和规则并依此做出预测归纳等技术性问题。第14章的主题是“根据内容检索”,以查准率和查全率为基础对检索系统的评价进行探讨。

本书是第一本融合信息科学、计算科学以及统计学知识的数据挖掘理论读物。相对于其他介绍型读本而言,它以更专业、清晰的方式将数据挖掘领域的分类模式与核心方法呈现在读者面前。三位作者在各自领域内的卓越成就增强了本书的权威性与全面性,他们不仅定义了数据挖掘的本质,还肯定了数据挖掘这一融合统计方法学和计算机科学的课题的重要地位,为研究人员了解数据挖掘技术的原理并在此基础上进行实际操作提供了科学有效的指引。

 

参考文献

David Hand,Heikki Mannila,Padhraic Smyth.数据挖掘原理[M].张银奎,廖丽,宋俊等译.机械工业出版社,2003.

(邱越编写,肖鹏审阅)