R程序语言推动数据挖掘进入黄金时代

 对一些人来说,R是字母表上的第18个字母;对另一些人,R级代表电影是限制级,有低俗画面或对白。但R同时也是一种程序语言,一个GNU项目,主要用于统计分析和绘图。《纽约时报》报道,R语言正越来越受到企业和学术界中数据分析专家的欢迎。在一定程度上,它变成了他们手中的通用语言,因为数据挖掘进入了黄金时代,无论是制定广告价格、更迅速的发现新药物,还是调整商业模型。像Google、Pfizer、Merck、美国银行、洲际酒店集团和壳牌等之类的企业都在使用它。R也受到了没有多少编程技能的科学家、统计学家和工程师的欢迎,因为发现它很容易使用。

数据挖掘拯救新闻调查

 传统的新闻业遭受了数字革命的冲击,主流新闻报道的垄断受到了新兴在线竞争对手的排挤。传统新闻机构的收入也大幅度下降。但是,曾经被数字革命削弱的深入报道将以新的形式再次回归。通过新的理论和专业培训,一种名为“计算机新闻业”的新兴职业将拯救传统的新闻调查杜克大学DeWitt Wallace媒体和民主中心负责人James Hamilton目前正致力于开发一套计算机工具,能增强记者和其他试图监督政府官员行为的公民的能力和效率。目标是开发出一种计算机算法,能对互联网上的海量数据库信息进行分类,向记者或公民记者提供其它方法无法获取的一系列可能的故事,简单而言就是从公共利益中挖掘有用数据。

关于机器学习的讨论

Dr.Yang推荐文章一篇

《关于机器学习的讨论》王珏

另有箴言一段,摘自MSN聊天记录:

Yang: 你先粗略认识一下
Yang: 你会发现机器学习尤其是支持向量机所代表的统计学习理论 确实看起来很美妙
Yang: 你只要这样想就行了
Yang: 1 数据分析是一个很重要的事情 我们经常在实际中要遇到很多数据分析的问题
Yang: 2 拿到数据以后怎么分析呢?一般都是统计方法
Yang: 3 但是目前发展起来的统计方法都是基于样本无穷大的理论 就是说我们在分析的时候一定要假设样本趋于无穷多 才能得到理论上的结果 保证理论上是正确的

Yang: 3 并且假设数据总是满足正态分布或一个具体的分布 才能求解
Yang: 4 你可以从这2条明显的看到 实际情况肯定不是这样的
Yang: 实际是 1我们不知道数据分布是什么 2 样本数没有那么多
Yang: vapnik的伟大之处就在于他提出了有限样本情况下的统计理论
Yang: 就是说他提出的小样本统计方法 就是明确了:数据样本是有限的
Yang: 我们要依据数据样本的个数 进行适当的调整
Yang: 统计学习理论的两点假设是:1 样本数是有限的 2 数据都满足独立同分布的条件 但分布是未知的
Yang: vapnik就在这些东西上推除了一些新的概念 弄了几十年 弄出了一个形式比较简明的支持向量机
Yang: 支持向量机有很多独特的性质,我就不一一说明了

“特征选择”通俗解释

在JavaEye上看到一个帖子,其中对特征选择的解释还是比较通俗易懂的,贴过来参考参考:)

特征选择(feature selection)是一种很有实用价值的技术,本质上来说是一种为数据挖掘消除数据噪声的技术。但我们对某件事务进行判断时,我们会根据以往的经验根据 某些信息,而不是所有的信息做出判断。比如,判断一辆车的品牌,我们会去看车头车尾的标志,更细致一点会去看车的铭牌,因为这是最权威,也是最容易判断车 辆品牌的信息。如果根据车的外形去判断车辆的品牌就有可能把QQ当作Spark,把F3当作花冠;如果根据车的价格去判断,也会把奥迪和大奔弄混。也就是说,人做判断时会选择出最有效的信息来做出自己的抉择。

计算机在面对类似问题的却无法根据已有的经验去选择最有效的信息,而大量无效信息对于计算机来说就是噪声,反而会影响计算机的判断结果。如果是前面对车辆品牌进行判断的例子,还可以人工的选择出最有效的信息。但是如果面对的是DNA序列、复杂的图片,那就只能依靠计算机了。于是这就诞生了特征选择技 术,选出与结果最相关的特征,从而提高判断的准确率。

发现Weka

这两天没啥任务,挺无聊的,自己学点东西吧。
既然在学Java就找点Java的资源来看看,上次Hily推荐了几个Open Source的BI系统,还劝我改用Java,呵呵,没想到现在我真的在用Java了,既如此,不若找找基于Java的DM/BI/ML的应用吧。
顺藤摸瓜,发现了Weka。目前正在研究中!

References:

Weka
Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes.

Pentaho(an open source BI base on Weka)
The Pentaho Open BI Suite provides a full spectrum of business intelligence (BI) capabilities including reporting, analysis, dashboards, data mining, data integration, and a BI platform that have made it the world’s most popular open source BI suite. Pentaho’s products are used by leading organizations including MySQL, Motorola, Terra Industries, DivX and more.

Weka CN

 

统计名家

  • 威廉·配弟
  • 凯特勒
  • 卡尔·皮尔森
  • 罗纳德·费雪
  • 徐宝禄
  • 陈希儒
  • 成平

 

威廉·配弟

    政治算术学派奠基人威廉·配弟(1623一l687)是英国一个贫苦工匠的儿子。少年时代曾学过希腊语、拉丁语、数学和天文学。并利用在商船上做待工的机会,一边做事,一边学习法语和航海术,还曾在法国学习过解剖学。1649年获得牛律大学医学博士学位,曾任医学教授和音乐教授、医生、秘书、土地分配总监、土地测量总监、英国皇家协会副会长等职。由于他交游广、经历丰富、观察周密、掌握数据,所以能叙述荷兰、法国的情况,并和英国的国力相对比,论证英格兰的情况及各种问题,为英国争夺世界霸权出谋划策。也由于他的博学,才能以培根(1561—1626)所创始的经验科学的方法(即依据观察、比较、实验、归纳等方法)为根据,提出“对于人口、土地、资本、产业的真实情况的认识方法”,用计量作比较,用数字作语言,阐明社会经济现象的规律,写出《政治算术》这本名著,为后人所推崇。马克思评价他是“政治经济学之父,在某种程度上也可以说是统计学的创始人”。

 

凯特勒

    被称为现代统计学之父的凯特勒(1796—1874)是比利时人,1819年(23岁)在甘得大学获得博士学位。1823年建议政府建立天文台,为了筹建工作,被派往法国学习。由此,与拉普拉斯、普阿松、傅立叶等人相识,并从拉普拉斯学习概率论。1827游学英国伦敦:1829一1830年先后到德国、法国、瑞士、意大利等国考察。据说,他曾偶然接触到人寿保险公司实际业务问题,促成他从事统计的研究。1823年天文台建成后,被任名为台长,并开始发表人口及犯罪方面的统计研究。l841年成立比利时中央统计委员会,由他任终身主席。凯特勒学识渊博,是统计学家、数学家、天文学家、物理学家。他把概率论引进统计学,在欧美统计学史上承先启后、继往开来,是数理统计学派创始人。

 

卡尔·皮尔森(Pearson, Karl)

    K. Pearson(1857~1936),生卒于伦敦,公认为统计学之父。

    K. Pearson 1879年毕业于剑桥大学数学系;曾参与激进的政治活动。出版几本文学作品,并且作了三年的律师实习。1884年进入伦敦大学学院 (University College, London),教授数学与力学,从此待在该校一直到1933年。他不仅是统计学家、数学家,而且是生物学家、农业家。

    K. Pearson 最重要的学术成就,是为现代统计学打下基础。自从达尔文演化论问世后,关于演化的本质争论不断,在这方面他深受 Galton(达尔文表哥,「优生学」一词的发明者)与 Weldon 影响。 Weldon 1893年提出「所谓变异,遗传与天择事实上只是『算术』」的想法。这促使 K. Pearson 在1893-1912年间写出18篇〈在演化论上的数学贡献〉的文章,而这门「算术」,也就是今日的统计。许多熟悉的统计名词如标准差,成分分析,卡方检定都是他提出的。

    K. Pearson、Galton 与 Weldon 为了推广统计在生物上的应用,于1901年创立统计的元老期刊《Biometrika》, 由 K. Pearson 主编至死,但是 K. Pearson 的主观强,经常对他本人认为有「争议」的文章, 删改或退稿,并因此与英国本世纪最有才华的统计学家 Fisher 结下梁子。

    1906年 Weldon 死后,K. Pearson 不再注意生物问题,而专心致志于将统计发展成一门精确的科学。

 

罗纳德·费雪(Ronald Fisher)

    数学家,学习过统计学,量子学,又是生物学家,主持过农事试验场统计研究工作。1938年出版《供生物、农业与医学用的统计表》,1956年出版《统计方法与科学推断》,驰誉世界,成为推断学派创始人。

 

徐宝禄

    许宝騄 (1910-1970),业余曲家、数学家。号闲若。浙江钱塘(杭州)人,生于北京。曲家许安巢之幼子,许宝驯之七弟,受家庭熏陶,精善音律,爱好昆曲,工昆旦兼习小生。1928年入燕京大学化学系,1930年转入清华大学数学系,1933年毕业,在北京大学数学系任助教。1935年初,与姐夫俞平伯共组清华谷音社,是主要成员。常歌之曲目如:《南浦》、《吃糠》、《絮阁》、《惊梦》、《问病》等。1935年11月曲家俞振飞莅会,亲为其撅笛清唱《断桥》。1936年1月在清华园俞寓秋荔亭曲叙,汪健君为其吹箫清唱《题曲》,依《纳书楹曲谱》,声韵凄绝,胜于伶工谱唱。1936年6月谷音社第五次公开曲集时,曾清唱《南柯记·花报》。同年夏赴英国剑桥大学留学兼任讲师,获双项博士学位。1940年回国,北京大学聘其为教授,执教于昆明国立西南联合大学数学系。1942年11月出席昆明三大学昆曲研究会成立大会,在拍曲课上为学员汪曾祺等教《刺虎》等曲,在联大国文系曲会上唱《拾画》;1943年五月在昆曲研究会同期时与浦江清合唱《赏荷》。1945年赴美国讲学,1947年回国,在北京大学任教授,是中国数理统计学的奠基人。五十年代兼任中国科学院学部委员。仍经常参加老君堂俞宅昆曲清唱和北京昆曲研习社活动。1970年12月18日病逝于北京,享年61岁。

陈希儒

    陈希儒院士,1934年2月出生于湖南长沙县(现望城县),1953年入武汉大学数学系,1956年毕业后到中国科学院数学所工作,任研究实习员。1961年调任中国科技大学研究生院教授至今。曾任中国概率统计学会理事长,现任中国现场统计研究学会理事长、中国统计学会副会长。1997年当选为中国科学院数理学部院士。

    陈希孺院士几十年来从事数理统计学的教学与研究工作,曾在国内外专业刊物上发表论文110篇,专著与教科书11部,曾获中国科学院重大成果奖一等奖、自然科学奖一等奖与国家自然科学奖三等奖、中国科学院教学奖一等奖。

 

成平

    中国共产党优秀党员,原中国科学院系统科学研究所所长,我国杰出的统计学家。
    成平,原名成孟杰,1932年出生于湖南宁乡县。1950年从长沙清华中学毕业后,进入沈阳东北工学院数学系学习,1952年转入东北人民大学(前吉林大学)数学系,1954年分配至中国科学院数学研究所工作,1957年赴波兰科学院数学研究所学习,1961年获波兰Wroclawski大学数学物理科学博士学位,同年回国工作。1965年至1968年在原七机部一院705所工作,任教研室主任,1982年任中国科学院系统科学所所长助理,1983年11月起任所长。
    刚到数学研究所,参加了由华罗庚先生主持的数论导引讨论班,华老对学生的严格要求对他影响很深,使他终身受益匪浅。后来转行概率统计,当时与王寿仁,张里千一起参加由许宝騄先生主持的弱极限理论讨论班,成为我国概率统计学科的创始人和发起人之一。在波兰学习期间,他师从著名数学家Steinhaus,主攻数理统计和质量控制。1961年回国后,在数学所概率统计研究室,主持统计判决方向的研究。国际著名统计学家Lehmann的名著《点估计理论》引用了成平的一篇发表在《数学学报》上的文章作为一个定理的证明,成为(cheng)Ping方法。在七机部工作期间,他从事导弹与卫星的总体及发动机的质量与可靠性工作,由他提出的某种型号发动机的长寿命试验方案,费用紧围前苏联专家提出方案的二分之一,又具有很高的可靠性。
    成平是我国建国以来数理统计界最具影响的学术带头人之一,在统计理论研究,特别是统计决策,统计大样本理论和统计应用等方面作出了非常出色而有影响的成果,在系统所建立和形成了全国闻名的统计学数团体。他在可容许估计方面彻底改进了Karlin定理,使之应用更广;提出了二次型估计的可容许问题,并进行了全面而系统的研究与刻划;在极大似然估计特别是非正则极大似然估计与渐近有效性,估计的各种优良性等方面获得了一系列开创性成果。80年代后,他在承担繁重的行政工作同时,积极从事和推动参数与半参数模型,投影寻踪方法等方面的研究,在回归函数的改良估计,估计的渐近有效性,回归函数和密度的投影寻踪逼近和估计方面;稳健位置和散布阵估计,高维数据的统计推断及大样本理论,混合分布的推断与检验等国际统计主流方向上作出了突出而影响广泛的成果。他发表论文80多篇,获得了包括中国科学院自然科学二等奖在内的多项奖励。

选择正确的挖掘工具

蔡伟杰 caiweijie528@yahoo.com

选择数据挖掘技术的两个步骤:

1)        将商业问题转化成一系列数据挖掘的任务。

2)        理解可以获得的数据的信息:内容、字段类型、记录之间的关系。

将商业问题转化数据挖掘的任务

       主要是六种任务:分类,估值,预测,篮子分析,聚集,描述。

       一个例子:分析客户流失的原因。任务就是分类,但是可以采用的技术有很多:MBRGA,连接分析,决策树,神经元网络。从中选择了决策树,是因为分完类之后,我们需要知道每个类的流失的原因。

技术

分类

估值

预测

篮子分析

聚集

描述

统计技术

关联规则

   

MBR

 

GA

 

     

聚集检测

       

 

连接分析

 

   

决策树

 

 

神经元网络

 

 

对可以挖掘的数据进行分析:

可能影响技术选择的一些数据性质

1)是种类字段占优势

2)是数值字段占优势

3)每个记录都有大量的字段(独立)

4)多个目标字段(非独立)

5)记录是变长的

6)有时间顺序的数据

7)自由文本数据

种类字段:

       关联分析和连接分析只适用于种类字段。

       决策树也可以很容易的用于种类字段。但是有一个忠告:就是当种类的值较多的时候,效果可能就会比较的差,当然如果限制分支的个数的时候,决策树的效果还是不错的。

       神经元网络:可以将种类字段转化成数值字段,但是这样就给种类字段强加了一个先后次序。也可以将种类字段作为多个输入,但是当值很多时,这种方法就成问题了。

数值字段:

       神经元网络将所有输入转化到0—1之间。

       MBR和聚集检测通过距离函数来处理数值字段。

决策树可以通过splitter数值来处理。

       对于关联分析,必须将数值变量区间化成种类变量。但是区间的选择是一个很困难的问题。

记录中的字段很多:

       神经元网络和MBR技术会受其影响,关联规则挖掘也会受影响。

       而决策树受其影响的程度就比较的小。

多个依赖变量:

       神经元网络是最佳的选择。

变长记录:

       只有关联规则和连接分析可以直接处理。

       对于其他的技术,数据需要一些处理。可以生成一些统计字段;将一条记录拆分成几条记录,每个含有记录号。

有时间顺序的数据:

       神经元网络,关联规则对时间顺序的数据的处理能力比较的好。

       决策树也能处理时间顺序,但是需要的数据准备就相对的比较的多一点。

自由文本:

       MBR

数据挖掘技术卡:

 

模型易理解性

模型易训练性

模型易实施性

通用性

有用性

产品可获得程度

统计

B

B

B

B

B

B

关联规则

A

A

A+

D

B

B

MBR

A-

B

B

A-

A-

C

GA

B-

C-

A-

B+

C

C

聚集检测

B+

B+

A-

A-

B-

B

连接分析

A-

C

B

D

B

C+

决策树

A+

B+

A+

A

A

B+

神经元网络

C-

B-

A-

A

A

A

几种方法的混合使用:

如何选择数据挖掘软件包:

1)    卖主提供有哪些数据挖掘技术

2)    在数据大小,用户数,字段数,硬件方面的伸缩能力

3)    有哪些硬件、软件平台的产品是现在就有的?

4)    是否提供对数据库和文件的透明访问?

5)    是否能有效的利用您的网络能力?

6)    是否提供多层的用户界面?

7)    是否对生成的结果有一个很好的解释?

8)    是否支持是图形化、可视化的,有没有报表工具?

9)    是否能处理不同的数据类型?

10) 是否容易使用?

11) 产品支持和顾问的方便程度?

12) 是否容易整合在一起?

13) 卖主的信用度如何?

统计学和数据挖掘:交叉学科

统计学和数据挖掘:交叉学科

摘要:统计学和数据挖掘有很多共同点,但与此同时它们也有很多差异。本文讨论了两门学科的性质,重点论述它们的异同。

关键词:统计学 知识发现

1、简介

统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实 际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有 很大不同。

统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上,有时候还导致了反感。统计学有着正统的理论基础(尤其是经过本世纪的发展),而现在又出现了一个新的学科,有新的主人,而且声称要解决统计学家们以前认为是他们领域的问题。这必然会引起关注。更多的是因为这门新学科有着一个吸引人的名字,势必会引发大家的兴趣和好奇。把“数据挖掘”这个术语所潜在的承诺和“统计学”作比较的话,统计的最初含义是“陈述事实”,以及找出枯燥的大量数据背后的有意义的信息。当然,统计学的现代的含义已经有很大不同的事实。而且,这门新学科同商业有特殊的关联(尽管它还有科学及其它方面的应用)。

本文的目的是逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关联的一些难题。首先,我们注意到“数据挖掘”对统计学家来说并不陌生。例如,Everitt定义它为:“仅仅是考察大量的数据驱动的模型,从中发现最适合的”。统计学家因而会忽略对数据进行特别的分析,因为他们知道太细致的研究却难以发现明显的结构。尽管如此,事实上大量的数据可能包含不可预测的但很有价值的结构。而这恰恰引起了注意,也是当前数据挖掘的任务。

2、统计学的性质

试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到,但会引来很多异议。相反,我要关注统计学不同于数据挖掘的特性。

差异之一同上节中最后一段提到的相关,即统计学是一门比较保守的学科,目前有一种趋势是越来越精确。当然,这本身并不是坏事,只有越精确才能避免错误,发现真理。但是如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法,我是不同意这个观点的(参见【15】,【9】,【14】,【2】,【3】)尽管统计学确实以数学为基础(正如物理和工程也以数学为基础,但没有被认为是数学的分支),但它同其它学科还有紧密的联系。

数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不是象计算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明)。统计杂志倾向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘 作为几门学科的综合,已经从机器学习那里继承了实验的态度。这并不意味着数据挖掘工作者不注重精确,而只是说明如果方法不能产生结果的话就会被放弃。

正是统计文献显示了(或夸大了)统计的数学精确性。同时还显示了其对推理的侧重。尽管统计学的一些分支也侧重于描述,但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下如何去推断总体。当然这也常常是数据挖掘所关注的。下面我们会提到数据挖掘的一个特定属性就是要处理的是一个大数 据集。这就意味着,由于可行性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。然而,数据挖掘问题常常可以得到数据总体,例如关于一个公司的所有职工数据,数据库中的所有客户资料,去年的所有业务。在这种情形下,推断就没有价值了(例如,年度业务的平均值),因为观测到的值也就是估计参数。这就意味着,建立的统计模型可能会利用一系列概率表述(例如,一些参数接近于0,则会从模型中剔除掉),但当总体数据可以获得的话,在数据挖掘中则变得毫无意义。在这里,我们可以很方便的应用评估函数:针对数据的足够的表述。事实是,常常所关注的是模型是否合适而不是它的可行性,在很多情形下,使得模型的发现很容易。例如,在寻找规则时常常会利用吻合度的单纯特性(例如,应用分支定理)。但当我们应用概率陈述时则不会得到这些特性。

统计学和数据挖掘部分交迭的第三个特性是在现代统计学中起核心作用的“模型”。或许“模型”这个术语更多的含义是变化。一方面,统计学模型是基于分析变量间的联系,但另一方面这些模型关于数据的总体描述确实没有道理的。关于信用卡业务的回归模型可能会把收入作为一个独立的变量,因为一般认为高收入会导致大的 业务。这可能是一个理论模型(尽管基于一个不牢靠的理论)。与此相反,只需在一些可能具有解释意义的变量基础上进行逐步的搜索,从而获得一个有很大预测价 值的模型,尽管不能作出合理的解释。(通过数据挖掘去发现一个模型的时候,常常关注的就是后者)。

还有其它方法可以区分统计模型,但在这里我将不作探讨。对此可参见【10】。这里我想关注的是,现代统计学是以模型为主的。而计算,模型选择条件是次要的,只是如何建立一个好的模型。但在数据挖掘中,却不完全是如此。在数据挖掘中,准则起了核心的作用。(当然在统计学中有一些以准则为中心的独立的特例。Gifi的关于学校的非线性多变量分析就是其中之一。例如,Gifi说,在本书中我们持这样的观点,给定一些最常用的MVA(多变量分析)问题,既可以从模型出发也可以技术出发。正如我们已经在1.1节所看到的基于模型的经典的多变量统计分析,……然而,在很多情形下,模型的选择并不都是显而易见的,选择一个合适的模型是不可能的,最合适的计算方法也是不可行的。在这种情形下,我们从另外一个角度出发,应用设计的一系列技术来回答MVA问题,暂不考虑模型和最优判别的选择。

相对于统计学而言,准则在数据挖掘中起着更为核心的作用并不奇怪,数据挖掘所继承的学科如计算机科学及相关学科也是如此。数据集的规模常常意味着传统的统计 学准则不适合数据挖掘问题,不得不重新设计。部分地,当数据点被逐一应用以更新估计量,适应性和连续性的准则常常是必须的。尽管一些统计学的准则已经得到 发展,但更多的应用是机器学习。(正如“学习”所示的那样)

很多情况下,数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说明数据挖掘过程本质上是实验性的。这和确定性的分析是不同的。(实际上,一个人是不 能完全确定一个理论的,只能提供证据和不确定的证据。)确定性分析着眼于最适合的模型-建立一个推荐模型,这个模型也许不能很好的解释观测到的数据。很 多,或许是大部分统计分析提出的是确定性的分析。然而,实验性的数据分析对于统计学并不是新生事务,或许这是统计学家应该考虑作为统计学的另一个基石,而 这已经是数据挖掘的基石。所有这些都是正确的,但事实上,数据挖掘所遇到的数据集按统计标准来看都是巨大的。在这种情况下,统计工具可能会失效:百万个偶 然因素可能就会使其失效。(【11】中包含例子)

如果数据挖掘的主要目的是发现,那它就不关心统计学领域中的在回答一个特定的问题之前,如何很好的搜集数据,例如实验设计和调查设计。数据挖掘本质上假想数据已经被搜集好,关注的只是如何发现其中的秘密。

3、数据挖掘的性质

由于统计学基础的建立在计算机的发明和发展之前,所以常用的统计学工具包含很多可以手工实现的方法。因此,对于很多统计学家来说,1000个数据就已经是很大的了。但这个“大”对于英国大的信用卡公司每年350,000,000笔业务或AT&T每天200,000,000个 长途呼叫来说相差太远了。很明显,面对这么多的数据,则需要设计不同于那些“原则上可以用手工实现”的方法。这意味这计算机(正是计算机使得大数据可能实 现)对于数据的分析和处理是关键的。分析者直接处理数据将变得不可行。相反,计算机在分析者和数据之间起到了必要的过滤的作用。这也是数据挖掘特别注重准 则的另一原因。尽管有必要,把分析者和数据分离开很明显导致了一些关联任务。这里就有一个真正的危险:非预期的模式可能会误导分析者,这一点我下面会讨论。

    我不认为在现代统计中计算机不是一个重要的工具。它们确实是,并不是因为数据的规模。对数据的精确分析方法如bootstrap方法、随机测试,迭代估计方法以及比较适合的复杂的模型正是有了计算机才是可能的。计算机已经使得传统统计模型的视野大大的扩展了,还促进了新工具的飞速发展。

    下面来关注一下歪曲数据的非预期的模式出现的可能性。这和数据质量相关。所有数据分析的结论依赖于数据质量。GIGO的 意思是垃圾进,垃圾出,它的引用到处可见。一个数据分析者,无论他多聪明,也不可能从垃圾中发现宝石。对于大的数据集,尤其是要发现精细的小型或偏离常规 的模型的时候,这个问题尤其突出。当一个人在寻找百万分之一的模型的时候,第二个小数位的偏离就会起作用。一个经验丰富的人对于此类最常见的问题会比较警 觉,但出错的可能性太多了。

    此类问题可能在两个层次上产生。第一个是微观层次,即个人记录。例如,特殊的属性可能丢失或输错了。我知道一个案例,由于挖掘者不知道,丢失的数据被记录为99而 作为真实的数据处理。第二个是宏观层次,整个数据集被一些选择机制所歪曲。交通事故为此提供了一个好的示例。越严重的、致命的事故,其记录越精确,但小的 或没有伤害的事故的记录却没有那么精确。事实上,很高比例的数据根本没有记录。这就造成了一个歪曲的映象-可能会导致错误的结论。

    统计学很少会关注实时分析,然而数据挖掘问题常常需要这些。例如,银行事务每天都会发生,没有人能等三个月得到一个可能的欺诈的分析。类似的问题发生在总体随时间变化的情形。我的研究组有明确的例子显示银行债务的申请随时间、竞争环境、经济波动而变化。

    至此,我们已经论述了数据分析的问题,说明了数据挖掘和统计学 的差异,尽管有一定的重迭。但是,数据挖掘者也不可持完全非统计的观点。首先来看一个例子:获得数据的问题。统计学家往往把数据看成一个按变量交叉分类的 平面表,存储于计算机等待分析。如果数据量较小,可以读到内存,但在许多数据挖掘问题中这是不可能的。更糟糕的是,大量的数据常常分布在不同的计算机上。 或许极端的是,数据分布在全球互联网上。此类问题使得获得一个简单的样本不大可能。(先不管分析“整个数据集”的可能性,如果数据是不断变化的这一概念可 能是不存在的,例如电话呼叫)

    当描述数据挖掘技术的时候,我发现依据以建立模型还是模式发现 为目的可以很方便的区分两类常见的工具。我已经提到了模型概念在统计学中的核心作用。在建立模型的时候,尽量要概括所有的数据,以及识别、描述分布的形 状。这样的“全”模型的例子如对一系列数据的聚类分析,回归预测模型,以及基于树的分类法则。相反,在模式发现中,则是尽量识别小的(但不一定不重要)偏 差,发现行为的异常模式。例如EEG轨 迹中的零星波形、信用卡使用中的异常消费模式,以及不同于其它特征的对象。很多时候,这第二种实验是数据挖掘的本质-试图发现渣滓中的金块。然而,第一类 实验也是重要的。当关注的是全局模型的建立的话,样本是可取的(可以基于一个十万大小的样本发现重要的特性,这和基于一个千万大小的样本是等效的,尽管这 部分的取决于我们想法的模型的特征。然而,模式发现不同于此。仅选择一个样本的话可能会忽略所希望检测的情形。

    尽管统计学主要关注的是分析定量数据,数据挖掘的多来源意味着 还需要处理其它形式的数据。特别的,逻辑数据越来越多-例如当要发现的模式由连接的和分离的要素组成的时候。类似的,有时候会碰到高度有序的结构。分析的 要素可能是图象,文本,语言信号,或者甚至完全是(例如,在交替分析中)科学研究资料

    4、讨论

    数据挖掘有时候是一次性的实验。这是一个误解。它更应该被看作是一个不断的过程(尽管数据集时确定的)。从一个角度检查数据可以解释结果,以相关的观点检查可能会更接近等等。关键是,除了极少的情形下,很少知道哪一类模式是有意义的。数据挖掘的本质是发现非预期的模式-同样非预期的模式要以非预期的方法来发现。

与把数据挖掘作为一个过程的观点相关联的是认识到结果的新颖性。许多数据挖掘的结果是我们所期望的-可以回顾。然而,可以解释这个事实并不能否定挖掘出它们 的价值。没有这些实验,可能根本不会想到这些。实际上,只有那些可以依据过去经验形成的合理的解释的结构才会是有价值的。

显然在数据挖掘存在着一个潜在的机会。在大数据集中发现模式的可能性当然存在,大数据集的数量与日俱增。然而,也不应就此掩盖危险。所有真正的数据集(即使 那些是以完全自动方式搜集的数据)都有产生错误的可能。关于人的数据集(例如事务和行为数据)尤其有这种可能。这很好的解释了绝大部分在数据中发现的“非 预期的结构”本质上是无意义的,而是因为偏离了理想的过程。(当然,这样的结构可能会是有意义的:如果数据有问题,可能会干扰搜集数据的目的,最好还是了 解它们)。与此相关联的是如何确保(和至少为事实提供支持)任何所观察到的模式是“真实的”,它们反应了一些潜在的结构和关联而不仅仅是一个特殊的数据 集,由于一个随机的样本碰巧发生。在这里,记分方法可能是相关的,但需要更多的统计学家和数据挖掘工作者的研究。

数据挖掘科学正在萌芽。Fayyad et al做了重要的基础工作【6】,目前的研究范围可以参考国际知识发现和数据挖掘系列学报和《数据挖掘和知识发现》杂志所列的主题和领域(两个最重要的学报是【12】和【11】)。关于统计学和数据分析的论文包括【8】,【4】和【10】。

 

参考文献目录见原文。

国内外数据挖掘软件发展现状

国外产品

数据库与数据挖掘

Microsoft SQL Server

IBM DB2 Intelligent Miner

Oracle

Sybase

专业分析工具
  
SPSS

        SPSS offers software and solutions that help organizations direct and automate decisions to meet their goals and achieve measurable competitive advantage.

SAS

        SAS is the leader in business intelligence and predictive analytics software. With 31 years’ experience and 43,000 customer sites worldwide, we can help you manage performance by transforming your data into predictive insights.

I
nsightful

        Insightful Miner is a powerful, scalable, data mining and analysis workbench that enables organizations to deliver customized predictive intelligence where and how it is needed. Its easy-to-use interface is specifically designed for statisticians and business analysts without specialized programming skills. With Insightful Miner, you can quickly find the answers you need to solve specific business issues and easily communicate your results to colleagues across the organization.

unica

Statsoft

国内产品

复旦德门  (上海)

天才博通  (天津)

马克威 (天津) 

产品特点:
  
   数据模型
   支持算法
   应用领域
   特色