大数据,数据挖掘,机器学习三者联系

可以认为大数据、数据挖掘和机器学习是三个平行的概念。大数据侧重描述数据,数据挖掘侧重描述应用,机器学习侧重描述方法。当然,数据是基础,是挖掘和学习的“燃料”(Ng说深度学习像火箭,计算是引擎,数据是燃料)。

大数据的内涵,是从数据量、数据类型和数据增长速度的角度描述数据。由于这些特点,数据的存储、传输、计算、处理、分析等,都是传统方式难以应对的,相关的技术就要升级,新的技术栈通常基于分布式架构解决,而分布式架构又带来一致性、资源调度、性能优化等多种问题,由此批处理、流计算、图计算、即席查询等方向都有发展。

数据挖掘是指从大量数据中挖掘出有价值的潜藏规律和知识。数据挖掘渴望完整而真实的原始数据,去噪和样本平衡很重要。实施过程涉及机器学习、模式识别、统计学、分布式存储、分布式计算、可视化等,还需要掌握领域专业知识。

机器学习是从数据中获取经验进而改善系统性能的一类重要方法,“学习”的意义就是求解最逼近真相的经验,理论基础主要是统计学。数据挖掘经常需要采用机器学习方法,但目前机器学习主要是想实现某种程度的人工智能。

大数据也叫巨量数据和海量数据,与云端这个热门关键词,受到媒体关注时如出一辙,都没有明确的定义,所谓的大数据,就是用现有的一般技术难以管理的大量数据“。”用现有的一般技术难以管理“,指的是目前企业数据库主流的关系数据库已无法管理结构复杂的数据,或是因为量的增加,导致查询数据的反应时间超过容许范围等等的庞大数据。

数据挖掘,也称为数据勘探,是指在庞大的数据库当中,利用各种技术与统计方法,将大量的历史数据进行分析,归纳与整合等工作,找出有趣的特征,并且有意义的数据。

机器学习是一门多领域交叉学科,涉及概率论、统计学、凸分析、算法复杂度理论等多门学科。专门研究计算机是怎样模拟或实现人类的学习行为,以获取新的知识和技能,重新组织已有的知识结构,使其不断改善自身性能。

数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘中用到了大量的机器学习界提供的数据分析技术和数据库界提供的数据管理技术。

从数据分析的角度来看,数据挖掘与机器学习有很多相似之处,但不同之处也十分明显,例如,数据挖掘并没有机器学习探索人的学习机制这一科学发现任务,数据挖掘中的数据分析是针对海量数据进行的。

从某种意义上说,机器学习的科学成分更重一些,而数据挖掘的技术成分更重一些,数据挖掘是从目的而言,机器学习是从方法而言的,两个领域有相当大的交集,但不能等同,大数据和数据挖掘,并没有大的区别,大数据包含数据挖掘,这两者之间的区别,还是很好理解的,云计算、大数据、物联网,是多智时代的名词