bbs.geermuzixun.com

注册

 

发新话题 回复该主题

数据挖掘,让复杂的数据变得更得心应手 [复制链接]

1#
刘*连出诊时间 https://wapjbk.39.net/yiyuanfengcai/ys_bjzkbdfyy/793/?ivk_sa=1025922x

在如今的大数据时代,信息的来源日益繁多,包括网站、企业应用程序、社交媒体、移动设备以及日益增加的物联网产生的信息(loT)。对企业来说,如何从这些信息中获得真正的商业价值变得越发重要,而数据挖掘就是数据分析过程中有针对性的一环,优秀的数据分析师会用聪明的挖掘动作,让复杂的数据变得更得心应手。

“数据挖掘”这个术语常常被应用于各种大规模的数据处理活动中,如收集、提取、仓储和分析数据。它还可以应用于帮助应用程序和技术的改进决策,如人工智能、机器学习和商业智能。

今天DataHunter数猎哥就来说说,什么是数据挖掘?数据挖掘的过程是怎样的?以及它的具体算法又有哪些?

一、在大千世界中,发现有价值的知识

1.数据挖掘的定义

数据挖掘(DataMining)是指通过大量数据集进行分类的自动化过程,以通过数据分析来识别趋势和模式,建立关系来解决业务问题。换句话说,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

2.与数据分析的区别

数据分析和数据挖掘都是从数据库中发现知识、所以我们称数据分析和数据挖掘叫做数据库中的知识发现。但严格意义上来讲,数据挖掘才是真正意义上的数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)。

数据分析是从数据库中通过统计、计算、抽样等相关的方法,获取基于数据库的数据表象的知识,也就是指数据分析是从数据库里面得到一些表象性的信息。数据挖掘是从数据库中,通过机器学习或者是通过数学算法等相关的方法获取深层次的知识(比如属性之间的规律性,或者是预测)的技术。

3.数据挖掘,有利有弊

原则上讲,数据挖掘可以应用于任何类型的信息存储库及瞬态数据(如数据流),如数据库、数据仓库、数据集市、事务数据库、空间数据库(如地图等)、工程设计数据(如建筑设计等)、多媒体数据(文本、图像、视频、音频)、网络、数据流、时间序列数据库等。也正因如此,数据挖掘存在以下特点:

(1)数据集大且不完整

数据挖掘所需要的数据集是很大的,只有数据集越大,得到的规律才能越贴近于正确的实际的规律,结果也才越准确。除此以外,数据往往都是不完整的。

(2)不准确性

数据挖掘存在不准确性,主要是由噪声数据造成的。比如在商业中用户可能会提供假数据;在工厂环境中,正常的数据往往会收到电磁或者是辐射干扰,而出现超出正常值的情况。这些不正常的绝对不可能出现的数据,就叫做噪声,它们会导致数据挖掘存在不准确性。

(3)模糊的和随机的

数据挖掘是模糊的和随机的。这里的模糊可以和不准确性相关联。由于数据不准确导致只能在大体上对数据进行一个整体的观察,或者由于涉及到隐私信息无法获知到具体的一些内容,这个时候如果想要做相关的分析操作,就只能在大体上做一些分析,无法精确进行判断。

而数据的随机性有两个解释,一个是获取的数据随机;我们无法得知用户填写的到底是什么内容。第二个是分析结果随机。数据交给机器进行判断和学习,那么一切的操作都属于是灰箱操作。

由此,我们可以看出,数据挖掘这个强大的工具是利弊共存的,在合适的时机使用,方能事倍功半。

二、持续发展业务,数据挖掘技术不可忽视

1.更便捷的开发模型

在过去很多年,首要原则模型(first-principlemodels)是科学工程领域最为经典的模型。比如你要想知道某辆车从启动到速度稳定行驶的距离,那么你会先统计从启动到稳定耗费的时间、稳定后的速度、加速度等参数;然后运用牛顿第二定律(或者其他物理学公式)建立模型;最后根据该车多次实验的结果列出方程组从而计算出模型的各个参数。

通过该过程,你就相当于学习到了一个知识---某辆车从启动到速度稳定行驶的具体模型。此后往该模型输入车的启动参数便可自动计算出该车达到稳定速度前行驶的距离。

然而,在数据挖掘的思想中,知识的学习是不需要通过具体问题的专业知识建模。如果之前已经记录下了辆型号性能相似的车,从启动到速度稳定行驶的距离,那么我就能够对这个数据求均值,从而得到结果。显然,这一过程是是直接面向数据的,或者说我们是直接从数据开发模型的。

这其实是模拟了人的原始学习过程。比如你要预测一个人跑米要多久时间,你肯定是根据之前了解的他(研究对象)这样体型的人跑米用的多少时间做一个估计,而不会使用牛顿定律来算。

2.计算机技术的成熟

数据挖掘理论涉及到的面很广,它实际上起源于多个学科。如建模部分主要起源于统计学和机器学习。统计学方法以模型为驱动,常常建立一个能够产生数据的模型;而机器学习则以算法为驱动,让计算机通过执行算法来发现知识。

随着互联网工具的发展,分享和协作的成本大大降低。我们每天用手机聊天、购物、刷短视频、看新闻等日常的不经意动作给互联网行业提供了体量庞大的数据。这些数据通常被收集、存放在大型数据存储库中,没有强有力的工具,理解它们已经远远超出了我们的能力。而数据挖掘技术的出现解决了这一问题。它可以从海量的数据中提取出有价值的信息,从而作为决策的重要依据。

3.为企业生产销售做预测

数据挖掘的真正价值在于能够以数据中的模式和关系的形式挖掘隐藏的宝石,这可以用来做出对企业有重大影响的预测。例如,如果一家公司确定特定的营销活动导致在该国某些地区的某种产品的特定型号的销售额非常高,而在其它地区则不然,那么它可以在将来重新调整该广告活动以获得最大的回报。

该技术的好处可能会因业务类型和目标而异。例如,零售业的销售和营销经理可能用不同的方式挖掘客户信息以提高转化率,这种提高转化率的方式迥异于航空公司或金融服务业。

不管是什么行业,过去应用于销售模式和客户行为的数据挖掘都可用于创建预测未来销售和行为的模型。数据挖掘也有助于取消可能损害企业的活动。例如,你可以使用数据挖掘来提高产品的安全性,或检测保险和金融服务交易中的欺诈活动。

三、数据挖掘的目标是什么?

数据挖掘的两大基本目标是预测和描述数据,其中前者的计算机建模及实现过程通常被称为监督学习(supervisedlearning),后者的则通常被称为无监督学习(supervisedlearning)。往更细分,数据挖掘的目标可以划分为以下这些:

1.预测数据

预测性挖掘任务对当前数据进行推断,以做出预测。预测主要包括分类——将样本划分到几个预定义类之一;回归——将样本映射到一个真实值预测变量上。也就是说给了一定的目标属性,让去预测目标的另外一特定属性。如果该属性是离散的,通常称之为“分类”,而如果目标属性是一个连续的值,则称之为“回归”。

2.描述数据

描述性挖掘任务是描述数据库中数据的一般性质。描述主要包括聚类——将样本划分为不同类(无预定义类),关联规则发现——发现数据集中不同特征的相关性。这是指找出数据间潜在的联系模式。比方说两个数据存在强关联的关系,像大数据分析发现的一个特点:买尿布的男性通常也会买点啤酒,那么商家根据这个可以将这两种商品打包出售来提高业绩。

另外一个非常重要的就是聚类分析,这也是在日常数据挖掘中应用非常非常频繁的一种分析,旨在发现紧密相关的观测值组群,可以在没有标签的情况下将所有的数据分为合适的几类来进行分析或者降维。

其他的描述任务还有异常检测,其过程类似于聚类的反过程,聚类将相似的数据聚合在一起,而异常检测将离群太远的点给剔除出来。

四、数据挖掘的常见分析方法

1.神经网络方法

神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的

分享 转发
TOP
发新话题 回复该主题