数据挖掘
维基百科,自由的百科全书
資料挖掘,英文名称 Data mining,又譯為資料採礦、資料探勘,也就是 資料庫知识发现(knowledge-discovery in databases) (KDD),习惯上指按照一定模式从大量資料中自动搜索資料。資料挖掘使用统计和模式识别算法实现上述目标。
資料挖掘的定义是 “从資料中提取出隐含的特别的,过去未知的,潜在有价值的信息” [1] 也是“一门从大量資料或者資料库中提取有用信息的科学。” [2]. 尽管通常資料挖掘应用于資料分析,但是像人工智慧一样,它也是个具有丰富含义的词汇用,用于不同的领域。
举一个简单的例子,資料挖掘在零售行业的应用。零售公司跟踪客户的购买情况,发现某个客户购买了大量的真丝衬衣,这时資料挖掘系统就在此客户和真丝衬衣之间建立关联。销售部们就会看到此信息,直接发送真丝衬衣的当前行情给该客户。这样零售商店通过資料挖掘系统就发现了以前未知的关于客户的新信息。
目录 |
[编辑] 應用
通常作为与資料仓库和分析相关的技术,資料挖掘处于他们中间。 然而,有时还会出现十分可笑的应用,“揭示出”并不存在的但看起来却非常振奋人心的模式(特别的因果关系)。这些根本不相关的,令人误入歧途的或者毫无价值得关联在统计学文献里通常被戏称作“資料挖泥”。
下面对資料挖掘的理解是, 資料挖掘意味着扫描存在任何关系的資料,然后就能筛选出感兴趣的模式。(这也叫作"过度匹配模式".) 问题是大量数据集总是碰巧与特定的資料有着“令人激动的关系”。因此一些结论看上去十分值得怀疑。尽管如此,一些探索性資料分析 还是需要在一些应用统计分析中寻找資料,所以有时好的统计方法和数据資料的界限并不是很清晰。
更糟糕的危险是发现根本不存在的关联性。投资分析家似乎最容易犯这种错误。在一本叫做顾客的游艇在哪里? 的书中(ISBN 0471119792 (1940), Fred Schwed, Jr),写道:“总是有相当数量的可怜人,忙于从上千次的轮盘赌的轮子上寻找可能的重复模式。十分不幸的是,他们通常会找到。”
多数資料挖掘研究关注于发现大量資料集的一个完美的高度详细的模式。在《大忙人的資料挖掘》一书[3]中, 西弗吉尼亚大学和大不列颠哥伦比亚大学研究者讨论了一个交替模式用来发现一个資料集当中两个元素最小的区别,它的目标是发现一个更简单的模式描述相关数据。
与資料挖掘有关的还牵扯到机密问题,例如:一个雇主可以透過访问医疗记录來筛选出那些有糖尿病或者严重心脏病的人,從而意圖削减保险支出。不過,這種做法会导致伦理和法律问题。
对政府和商业資料的挖掘可能会涉及到国家安全或者商业机密之类的问题,对保密也是个不小的挑战。[4]
資料挖掘有很多合法的用途,例如一个某处方药在服用该药患者人群的資料库记录中可以发现药物和副作用的关联。因为这种关联可能在1000人中也不会出现一例,这种偶发事件不易被发现。药物学相关的项目就可以减少有药物反应病人的数量,还潜在可能挽救生命。不幸的是存在很大的可能这样的資料库被滥用。
主要地,資料挖掘实现了用其他方法不可能实现的方法来发现信息。但是它必须有个框架,应当在适当的说明下使用。
如果資料是收集自特定的个人,那么就会出现一些涉及保密,法律和伦理的问题。
先验算法是資料挖掘中最基本的算法。
[编辑] 历史
資料挖掘是因为海量有用資料快速增长的产物。考虑到通过计算机进行历史資料分析,1960年代数字方式采集資料已经实现。1980年代关系資料库随着能够适应动态按需分析資料的结构化查询语言(SQL)发展起来。数据仓库开始用来存储大量的資料。 資料挖掘因面临的需要处理的資料库中的海量資料严峻挑战应运而生,对于这些问题它的主要方法是資料统计分析和人工智慧搜索技术。
[编辑] 参考书
- 《資料挖掘:概念与技术》,Jiawei Han等著,机械工业出版社,2001。最负盛名的資料挖掘著作,但版本较老,对读者的计算机尤其是数据库背景要求较高。
- 《資料挖掘导论》,Pang-Nin Tan等著,人民邮电出版社图灵公司,2006。最新出版的資料挖掘著作,其写作目的是“尽可能直接地学习資料挖掘,以便尽快地将其应用到各自的领域”。覆盖了多学科应用实例,对读者数学和计算机背景要求较低。图灵网站 ISBN 7-115-14698-5
- 《資料探勘》,丁一賢,陳牧言著,滄海出版社,2005。ISBN:986-7777-98-0, 圖書網站 http://www.tsanghai.com.tw/news/chinese/c-books/CS0253.htm
[编辑] 参考
- 人工智慧
- 神经网络
- 商务智能
- 商务性能管理
- 資料库
- 資料流挖掘
- 資料仓库
- 决策树
- 描述统计学
- 文件倉庫
- 模糊逻辑
- 假设检验
- 线性判断分析
- Logit (关于logistic regression)
- Loyalty card
- 机器学习
- 最近临域 (模式识别)
- 模式识别
- 主成分分析
- 回归分析
- 相关数据挖掘
- 统计
- 文本挖掘
[编辑] 文献
W. Frawley and G. Piatetsky-Shapiro,C. Matheus, 数据库知识发现: 概述,人工智能杂志, Fall 1992, pgs 213-228.
Jaiwei Han, Micheline Kamber, 数据挖掘:概念和技术 (2001), ISBN 1-55860-489-8
D. Hand, H. Mannila, P. Smyth: 数据挖掘原理. 麻省理工出版社, 剑桥, MA, 2001. ISBN 0-262-08290-X
Ruby Kennedy et al., 通过模式识别解决数据挖掘问题 (1998), ISBN 0-13-095083-1
T. Menzies, Y. Hu, Data Mining For Very Busy People. IEEE Computer,2003年10月,18-25页.
K. A. Taipale, 数据挖掘和局部安全: Connecting the Dots to Make Sense of Data, 科学和技术策略高级研究中心. 5 Colum. Sci. & Tech. L. Rev. 2 (2003年12月).
O. Maimon and M. Last, 知识发现和数据挖掘-模糊信息网络(IFN)方法学, Kluwer学术出版社, 计算机专著系列, 2000.
Hari Mailvaganam, 数据挖掘的未来, http://www.dwreview.com/ (2004年12月)
Sholom Weiss, Nitin Indurkhya, 数据挖掘预言 (1998), ISBN 1-55860-403-0
Ian Witten, Eibe Frank, 数据挖掘:机器学习工具实践和技术的Java实现 (2000), ISBN 1-55860-552-5
[编辑] 外部链接
- SearchCRM.com Original daily breaking news, white papers, expert advice, webcasts, product reviews and more on data mining.
- 数据挖掘简介(TwoCrows.com)
- Comprehensive data mining white papers and tutorials (thearling.com)
- SQLServerDataMining SQL Server 2005数据挖掘相关信息和交互式演示
- CRM Today-数据挖掘 数据挖掘白页,论文,演示和学术论文
- Data Mining whitepapers, webcasts and case studies
- KDnuggets 数据挖掘,知识发现,普通挖掘,Web挖掘目录
- 数据挖掘 Siebel公司的软件
- Kmining 数据挖掘和KDD科学会议列表
- 数据挖掘 向导
- 数据挖掘和数据仓库 数据挖掘指导
- Weka Java语言版开放源代码数据挖掘软件
- 数据流挖掘书目 数据流挖掘的相关内容,技术和应用
- Orange C++和Python语言编写的开放源代码数据挖掘软件
[编辑] 商业解决方案
(按照字母顺序排列)