浅析数据挖掘的应用及发展

(整期优先)网络出版时间:2023-07-10
/ 2

浅析数据挖掘的应用及发展

张敏,闫育芸,靳倩,姚雨秋

(陕西省网络与信息安全测评中心,西安,710065)

摘要:随着计算机和网络技术的不断发展,数据仓储技术被广泛应用于商业、科研、行政、医疗等领域。数据库规模越来越大,激增的数据背后隐藏着许多重要的信息。大量的数据让人难以消化,无法从表面上找出数据间隐藏的关联,导致了“数据爆炸但知识贫乏[1]”的现象。人们希望能够对海量数据进行分析,找出其中潜在的关联信息,以便更好的利用这些数据。于是,数据挖掘应运而生,并且得到蓬勃发展。。

关键词:数据挖掘;应用;发展

一、基本概念

(一)数据挖掘

数据挖掘[1,2](Data Mining,简称DM)指在没有先前假说做验证的情况下盲目搜索数据的过程。在计算机领域,数据挖掘一直没有统一的定义。广义上认为:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

(二)关联规则

关联规则反应一个事务与其他事务之间的相互依存性和关联性,如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事务就能够通过其他事务预测到。如事务A中出现了物品1,事务B中出现了物品2,事务C中出现了物品3,那么关联规则就是描述这种在一个事务中物品之间同时出现的规律和知识模式。

二、数据挖掘分类

数据挖掘是⼀个多学科交叉的产物,涉及统计学、数据库、机器学习、⼈⼯智能及模式识别等多种学科。数据挖掘的分类[1,3]方法很多,有基于挖掘对象的分类、基于挖掘任务的分类以及基于挖掘方法的分类等。因为数据挖掘的目的是从数据中发现模式,因此基于挖掘任务的分类方法是其中最常见的一种。按照挖掘任务可分为预测、分类、聚类、关联规则、异常检测、数据可视化和探索等。当前研究较多也较为成熟的是关联规则挖掘。

(一)预测:指通过建立模型,分析研究历史资料,对事物发展的趋势或可能出现的结果进行推测和估计,从而发现预测对象的发展规律,为研究制定最佳方案提供依据。帮助决策者调整市场策略、减少风险、理性面对市场,做出正确决策。如股票投资、电子商务以及基于数据挖掘的成矿预测等。

(二)分类:将数据分为几个类别,寻找数据间的分类模式,通常用于预测未来数据的归属类别[4],常见的应用场景包括垃圾邮件过滤、面部识别等。

(三)聚类:根据数据在相似性方面的联系,把数据划分成几个有类似特征的簇,可用于市场细分、目标客户群体的识别等。

(四)关联规则挖掘:关联规则是描述数据库中数据项之间存在潜在关系的规则,通过对数据之间的关联性进行分析,发现其中隐含的规律。例如,超市经常会将尿不湿和啤酒摆放在一起售卖,因为数据分析显示,大多购买尿不湿的客户为父亲,他们购买尿不湿的同时看到啤酒,大概率会购买,这就将大大提升啤酒的销售额。这是非常一个典型的关联规则挖掘案例。关联规则挖掘结果为超市货架布局、库存安排提供重大的指导意义。此外,关联规则挖掘还广泛应用于工程、电信和保险业的错误校验等领域。

(五)异常检测:指识别、检测与正常数据不同、与预期行为差异较大的异常值,从而找出潜在的问题。异常检测在银行卡欺诈、工业生产异常、质量控制、网络入侵等领域均有广泛应用。

(六)数据可视化和探索:通过可视化效果直接地观察数据规律、发掘隐藏的关联和规律。可视化使得数据和挖掘结果更容易理解。在探索大型数据和数据分析方面有很高的价值,尤其在对数据库知之甚少、探索目标模糊的情况下能发挥重要作用。

三、数据挖掘的应用

近年来,随着海量数据的不断产生与存储,越来越多的企业希望发现数据背后隐藏的关联规则和有用信息,数据挖掘技术的应用范围越来越广,对相关行业的革新和发展产生了积极影响。目前,数据挖掘技术广泛应用于工业、电信、医疗、金融、农业、电力、生物、化工、电子商务等领域。

(一)在商业领域的应用

数据挖掘技术在商业领域应用非常广泛,如航空公司通过用户订票信息,了解热门旅行地及用户订票习惯,以便于及时调整航班安排和机票促销计划。电视台根据收视率分析结果可以预测广告投放时间,以及怎样插入广告能让收益最大化。零售行业通过数据分析结果了解商品的畅销程度,预测销售趋势,并及时调整销售计划。

(二)在电子商务领域的应用

电子商务的兴起伴随着海量数据的产生,包括个人消费数据、商品信息、客户的购买行为等。通过整合消费者的消费记录,依据消费者的消费习惯,经过挖掘算法分析,能够为消费者精准推送更符合消费者意愿的产品。最大限度地促进消费,提高企业的效益。

(三)在电力领域的应用

在电力领域,数据挖掘技术主要用于电力设备故障检测和老化设备的更新维护。通过数据挖掘技术分析研究故障报修、电力损耗等参数,从而判断电力设备的故障和老化情况。帮助企业精准分析、及时决策,做好设备的运行维护。

(四)在金融行业的应用

金融机构日常运转中会产生大量的数据。面临指数级增长的数据,处理大量高维数据已然成为金融机构在激烈竞争中制胜的关键手段。目前,数据挖掘技术已经渗透于金融行业的方方面面,利用数据挖掘技术,能有效管理和利用这些数据,为金融决策提供科学依据。如预测坏账、股票预测、有效降低金融风险等。

(五)在医疗领域的应用

在医疗领域应用数据挖掘技术,能通过智能的处理实验数据和临床数据,有效从海量医疗信息中发现关联。从而深入分析疾病之间的规律,帮助医疗工作者诊断和治疗,为医院决策和开展科研活动提供合理的科学依据。

四、数据挖掘的发展趋势

(一)数据的深度挖掘

在未来数据挖掘应用中,数据挖掘深度化将成为一项核心技术。因为数据挖掘深度决定大数据的应用价值。在社会经济和科学技术不断的发展过程中,各行业对数据挖掘技术的应用需求也在不断提升,基于此,数据挖掘技术应向深度化挖掘的方向发展,数据挖掘结果应更加准确的应用。

(二)可视化的数据挖掘

可视化的数据挖掘指用图表等方式把数据特征直观地表述出来,主要体现在挖掘数据可视化、挖掘过程可视化以及挖掘结果可视化。可视化已经成为数据挖掘过程中必不可少的技术。可视化挖掘过程中可以进行友好的人机交互,知识发现过程也便于用户理解和操作。目前,可视化数据挖掘面临的一个主要难题是高维数据的可视化。

(三)数据挖掘中的隐私保护和信息安全

数据挖掘技术尚未完全成熟,从海量数据中心寻找关联信息给人们带来机遇的同时,也带来了挑战。比如基于数据挖掘的隐私保护已经成为一个重要的课题。数据挖掘领域专家和技术人员正在积极探索,开展数据挖掘中的隐私保护问题的研究,相关学科研究引起了广泛关注。下一步,科研工作者们将致力研究数据挖掘过程中的隐私信息保护,做好数据和信息安全。

参考文献:

[1] Han J, Kamber M著. 范明, 盂小峰等译. 数据挖掘: 概念与技术[M]. 北京: 机械工业出版社, 2001

[2]Soman K.P, Shyam Diwakar, V Ajay著. 范明, 牛常勇译. 数据挖掘基础教程[M]. 北京: 机械工业出版社, 2009

[3]Agrawal R, Imielinshi T, Swami A. Mining Association Rules between Sets of Items in Large Database[C]. In: Proc. of the ACM SIGMOD International Conference on Management of Data, Washington, 1993, 22(2): 207~216

[4]Weiss S.M, Kulikowski C.A. Computer systems that learn: Classification and prediction methods from static, neural nets, machine learning, and expert systems[C]. San Mateo, CA:Morgan Kaufman, 1991