刘永文吴全恩
(西南交通大学信息科学与技术学院,四川成都610081)
中图分类号:TP311.13文献标识码:A文章编号:1673-0992(2009)05-050-02
摘要在对复杂流程制造业生产过程的数据特点进行充分分析的基础上,紧密结合流程制造业综合自动化的应用需求,给出了流程制造业数据挖掘的体系框架,分析了流程制造业数据挖掘中的关键问题。
关键词:数据挖掘;流程制造业;海量数据
近年来,数据挖掘技术已经在商业、金融、管理、工业等众多领域广泛应用并取得了重大进展,但大都仅限于企业的商业信息,在企业的生产过程中应用的还比较少。
目前,在复杂流程制造业生产过程中,由于各种先进工艺和工程技术的广泛采用,产生和积累了大量的各种类型的历史数据和当前生产的实时动态数据,这些海量生产数据又包含用于生产和管理的大量的有价值的信息和知识。一方面,为了避免产品的设计知识数据重用率低,无法有效地实现产品配置设计和变形设计,延长了产品的设计周期;另一方面,为了能够为过程监测、诊断、能效分析、先进控制、优化和调度、管理等各层次提供决策支持,使得流程制造业综合自动化系统性能达到最优。这就需要一种高效可靠的分析工具,把隐藏在海量数据中的有用的深层次的知识和信息挖掘出来,提取这些数据的整体特征、关联及对其发展趋势的预测等,以帮助决策者提出问题、发现问题、分析问题和解决问题。基于流程制造业的生产特点和数据性质以及所面临的问题,数据挖掘技术是解决流程制造业产生的海量信息数据处理的关键技术之一,并且数据挖掘技术也是目前国内外研究的一个热点。
本文从流程制造业的生产数据的特点及分析需求出发,建立了一般流程制造业数据挖掘的体系结构,并分析了流程制造业数据挖掘中的关键问题,总结了数据挖掘方法在流程制造业领域的数据应用技术方向。
一、数据挖掘概念
数据挖掘是近年来随着人工智能和数据库技术的发展而出现的一门新兴技术。它的发展速度很快,加之它是多学科综合的产物,目前还没有一个标准的定义,简单地说,数据挖掘就是从大量的已知数据中找出隐藏的、可信的、未知的、有用的信息,探索数据中隐藏的规律用来预测未来,其中数据可以放在数据库、数据仓库或其他信息库中。数据挖掘工具能够从企业数以百万笔的历史数据中提取有用的信息,为企业的生产与经营提供决策依据。
数据挖掘过程由以下步骤组成:
1.挖掘主题——明确挖掘的要求、内容及目标;
2.数据预处理——包括数据清理、数据归约、数据集成与变换、离散化与概念提升等;
3.挖掘算法选择——包括类的选择、算法选择及算法软件选择;
4.构造数据挖掘(软件、硬件)平台;
5.结果展示及评价。
以上步骤是一个反复迭代的过程,最终目的是在数据中获得有用的知识。在实践中,数据挖掘的两个基本目标往往是预测和描述。预测涉及到使用数据集中的一些变量或域来预测其他我们所关心变量的求知或未来的值;另一方面,描述关注的则是找出描述可由人类解释的数据模式。因此,数据挖掘活动可分成预测性数据挖掘和描述性数据挖掘。数据挖掘方法大致可分为关联(Apriori算法)、分类(决策树算法、粗糙集、人工神经网络等)、聚类(层次、遗传算法、划分法等)三种。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
二、流程制造业数据特点
制造业(ManufacturingIndustry)是指经物理变化或化学变化后成为了新的产品,不论是动力机械制造,还是手工制作;也不论产品是批发销售,还是零售,均视为制造。制造业按其产品制造工艺过程特点总体上可概括为离散型制造业和流程制造业两种。典型的离散型制造行业包括电脑、汽车及工业用品制造等行业;典型的流程制造行业包括化工,食品饮料,制药,化妆品等以配方为基础的行业。
流程制造业是工程学科的一个重要研究领域,系统非常复杂,成品一旦生产出来,就不能再提取它,回到它的原始成分。流程制造业整个流程生产过程是一个动态的过程,产出量、物料特性、甚至物料加工路线受到原材料成分波动、操作、加工温度压力、设备等等波动的影响,并且不可预知。流程制造业制造过程是连续、在线的,所以说更加强调生产过程的跟踪和调整,主要靠实时的跟踪、控制纠偏。基于流程制造业的生产特点,流程制造业数据尤其是实际生产过程中的数据非常复杂,现在的流程制造业生产过程都采用了计算机控制系统定时采集系统的变量和设备状态,以供显示、控制之用,日积月累产生大量的冗余数据;同时又由于离散决策变量和连续决策变量同时存在,各种变量的值是在不断变化的,数据类型也是多样的,系统中既包括连续过程变量,也包括离散过程变量,使得这些它们之间有较强的耦合及非线性;许多变量的变化快慢各异,采集信号的频率不同,导致时间上的不同步,在数据记录上也可能丢失数据,造成数据的不完整;流程制造业系统环境复杂,电、磁、噪声干扰较强,加之系统的不确定性,导致数据受污染。简言之,流程制造业数据具有不确定性、动态性、不完整性、多时标性(部分不同变量采用不同的采样周期)和数据类型多样性、多模态性,非线性、强耦合性和交错性等特点,致使全流程的模拟、诊断、决策与优化变得极为困难,而数据挖掘技术对这些问题提供了一定的解决方案。
三、流程制造业数据挖掘的体系结构
流程制造业数据挖掘体系结构的确定是流程制造业数据挖掘项目成功的基础,依据流程制造业数据的特点以及数据挖掘技术的要求,构建流程制造业数据挖掘的总体框架。如图1所示:
图1流程制造业数据挖掘体系结构
1.数据预处理
流程制造业生产过程中产生的海量数据一般是不完整的、含噪声的和不一致的,数据预处理技术(数据采样、数据清理、数据转换等)可以检测数据异常,改进数据质量,从而有助于提高其后的挖掘过程的精度和性能。
2.数据归约
流程制造业生产过程中产生的海量数据经过预处理后,数据质量有了很大的提高,在此基础上构造数据仓库和OLAP,数据仓库中的数据集非常大,对海量数据进行复杂的数据分析和挖掘将需要相当长的时间,通过数据归约技术可以将数据集中不相关、弱相关或冗余的属性或删除,并能保持原数据的完整性,对归约后的数据集进行挖掘将更有效,并产生相同(几乎相同)的分析结果。
3.挖掘方法选择器
方法选择专家系统及知识库根据不同的挖掘要求选择最有效的挖掘算法或几种算法的序列组合,并且不断地更新知识库,用选择的方法去执行挖掘任务。目前系统常用的挖掘方法有统计分析方法、决策树、人工神经网络、基因算法、粗糙集等。
4.评估界面执行数据挖掘任务得到的结果往往是一些抽象的模型或数据,因此,系统提供了一种解释机制,以一种直觉的方式来表现数据挖掘的结果,比如用文字、图表和报表等多种可视化手段,帮助分析决策人员具体地了解所挖掘的结果。
四、流程制造业数据挖掘的关键问题
1.数据的质量和数量
流程制造业数据挖掘的最根本问题在于数据的数量和质量。一方面,数据量越充足,越能保证获取的数据的连续性,从而易发现系统的一般性规律;另一方面,数据的准确性和可靠性也是一切建模和分析是否有效的关键。因此,要尽可能完备地搜集与所研究问题相关的信息资料,包括公开发布和未公开发布的数据资料,然后从众多的资料中把有用的部分挑选出来。挑选数据资料时应按照相关性、可靠性、最新性等原则进行。然后挑选出符合一定标准的资料,加以深入研究。然而收集数据资料并不容易,尤其是在我国当前的情况下,各层次的资料往往不够完整,真实性也有存在很大的问题,再加上涉及到数据的保密性问题,所以无形中就增加了数据搜集的难度,从而数据的数量和质量也就难以保证。
2.数据仓库的建立
从数据挖掘的定义可以看出,数据挖掘包含一系列旨在从数据库中发现有用而未发现的模式的技术,如果将其与数据仓库紧密联系在一起,将获得意外的成功。传统的观点认为,数据挖掘技术扎根于计算科学和数学,不需要也不得益于数据仓库。这种观点并不正确。成功的数据挖掘的关键之一就是通过访问正确、完整和集成的数据,然后再进行深层次的分析,寻求有益的信息,而这些正是数据仓库所能够提供的。数据仓库不仅是集成数据的一种方式,而且数据仓库的联机分析功能(OLAP)还为数据挖掘提供了一个极佳的操作平台。如果数据仓库与数据挖掘能够实现有效的联结.这将给数据挖掘带来各种便利和功能。
数据仓库为数掘挖掘提供了更广阔的活动空间。数据仓库完成数据的收集、集成、存储、管理等工作、数据挖掘面对的是经初步加工的数据,使得数据挖掘能更专注于知识的发现。又由于数据仓库所具有的新特点,对数据挖掘技术提出了更高的要求。另一方面,数据挖掘为数据仓库提供了更好的决策支持,同时促进了数据仓库技术的发展。因此,数据挖掘和数据仓库技术要充分发挥潜力。就必须结合起来。
3.数据挖掘方法的选择与应用
目前数据挖掘方法很多,面对各层次不同的海量数据,应如何选择和应用其方法,是数据挖掘的另一关键问题。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大。因此,合理选择分析方法很重要。数据挖掘常用的算法包括:统计分析、关联规则、聚类分析、决策树、神经网络、遗传算法、模糊集等,每种方法都有所侧重,应全面了解每种方法的基本原理与优劣之处,选择与要解决问题类型相匹配的数据挖掘方法。比如,神经网络、规则归纳方法、决策树学习、遗传算法等适用于分类问题;硬均值聚类、模糊均值聚类、神经网络等适用于聚类;回归分析、时间序列、神经网络等适用于预测。实际应用时,还要确定数据挖掘方法是直接应用还是建模嵌入的开发应用。
数据挖掘模型是数据挖掘算法的实际应用,在流程制造业领域进行数据挖掘必须针对流程制造业生产过程中产生的数据特点及特定的挖掘目标,选择各层次数据的合适数据挖掘算法。
4.结果的解释及评价
数据挖掘的结果是不确定的。因此,需要和专业知识相结合才能对其做出解释,并在此基础上评价模型的合理性,以提供科学的决策支持信息。
评价模型的合理性,即看模型是否准确反映数据的真实意义,是否有实际意义和实用价值。评价的方法之一是直接使用原来建立模型的样板数据来进行检验;另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的;再有一种办法就是在实际运行的环境中取出新鲜数据进行检验。
需要强调的是,要想真正做好数据挖掘,数据挖掘工具只是其中的一个方面。流程制造业数据挖掘的成功要求对流程制造业领域有深刻的了解,理解流程制造业要素数据的属性,了解数据采集的过程,同时还需要对流程制造业生产过程有足够的数据分析经验。
五、结束语
数据挖掘在企业中的应用目前主要集中在市场推广方面。如客户特征、购物关联分析及客户关系管理,这方面技术相对来说已经比较成熟,很好地解决了企业的许多商业信息问题,但应用于工业制造生产流程还处于理论研究和初步实践阶段,起步较晚,并且实际成功应用的事例也较少,基于此,数据挖掘技术更能显现出它巨大的发展潜力,根据流程制造业的数据特点,量身定制合适的数据挖掘工具,为流程制造业提供决策依据,解决流程制造业存在的不同程度的问题。
参考文献:
[1]JiaweiHan,MichelineKanmber.DataMining:ConceptsandTechniques[M].MorganKaufmannPublishers,2001
[2]朱群雄,麻德贤.过程工业中数据挖掘技术的应用.计算机与应用化学[J].2004
[3]孟永胜.装备制造业产品制造数据集成管理研究与应用[博士学位论文].大连:大连理工大学,2006
[4]余军合.面向全生命周期虚拟产品模型的研究与应用[博士学位论文].杭州:浙江大学,2002
[5]罗印升、李人厚、梅时春.复杂工业过程中数据挖掘模型研究.信息与控制[J].2003
[6]王建良,杜元胜,徐建良.面向离散制造业数据挖掘技术研究与应用.微计算机信息[J].2007