简介:在软件行业中,五年就像是一个地质时代。五年前,Microsoft宣布了自己的Micorsoft.NETFramework计划。从那以后,DataSet(数据集)才开始作为关键对象出现在基于.NET的应用程序中,执行多种数据相关的任务。也是五年前,DataSet被誉为ADO记录集(Recordset)的威力增强版。那么在.NETFramework出现之前,您是如何设计数据访问层(DAL,DataAccessLayer)的呢?我想您一定是以ADO和它全能的Recordset对象——断开的、且可进行XML序列化的——为中心构建数据访问层。
简介:本文作者从实际应用出发,对现存数据挖掘决策树分类方法进行了研究,并应用到系统当中,实现了决策支持模块。关键词数掘挖掘;决策树算法;改进;实现中图分类号TP301.6文献标识码A文章编号1007-9599(2010)04-0000-02DataMiningDecisionTreeImprovement&ImplementationXiaYan,ZhouXiaohong,WangDong(ChangchunTechnologyCollege,Changchun130033,China)AbstractTheauthorstudiedonexistingDataMiningdecisiontreeclassificationmethodbasedonthepracticalapplication,andappliedtothesystem,achievedadecisionsupportmodule.KeywordsDataMining;Decisiontreealgorithm;Improve;Achieve随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将会产生重要的作用。因此,数据挖掘涉及的学科领域逐渐扩大,数据挖掘的方法也在不断地改进和提高。分类在数据挖掘中是一项非常重要的任务,分类算法可以分为决策树分类算法、遗传算法、神经网络方法、K-最近邻分类算法等。这里,以疾病防控与儿童免疫管理系统中决策支持子系统的开发过程为例,对决策树分类算法的改进及在实际中的应用进行阐述。一、数据选取和数据预处理在本系统中,以预防接种中遇到异常反应后记录的“异常反应调查表”中的数据为例进行说明。具体实现过程详细说明首先输入训练集,由于在真实的SQLServer数据库当中,为了降低存储要求和减少存储时间,并非真正存储每个数据项的属性值,而是用存储数字来对应相应的意义,如在数据库的数据表中,“性别”字段中“1”代表“男”、“2”代表“女”,反应到程序页面时再映射回原来的值,为了说理清晰又限于篇幅,这里只将所有数据集中有代表性的十几组数据作为分类模型创建的输入训练集。表1判断是否需要计划外加强免疫的属性表儿童编号月龄出生状态常住地上次注射后反应是否需要计划外加强免疫0405102<=2正常产城市无不良反应否0405495<=2正常产农村无不良反应否0401342>5正常产城市无不良反应是04054352…5正常产城市轻度反应是04065342…5非正常产城市重度反应是04072342…5非正常产农村重度反应否0401544>5非正常产农村重度反应是0408519<=2正常产城市轻度反应否0404566<=2非正常产城市重度反应是04035472…5非正常产城市轻度反应是0401534<=2非正常产农村轻度反应是0405856>5正常产农村轻度反应是0409533>5非正常产城市无不良反应是04053442…5正常产农村轻度反应否二、生成决策树对训练集的每一个属性,计算其信息增益。以“月龄”属性为例,每个结点中的正反例的个数分别为[2,3]、3,2、4,0,分别计算如下info2,3==0.971;info3,2==0.971;info4,0=0;计算信息熵E(月龄)==0.693;计算该属性的信息增益量,选取信息增益最大的属性为节点,按该属性的值划分数据集合Gain(月龄)=Info(9,5)-E(月龄)=0.940-0.693=0.247;同理,对“注射反应”属性、“出生状态”属性、“常住地”属性都可计算每个结点的正反例的个数(由于篇幅有限,不作计算)。通过对各属性信息增益的计算结果,选择“月龄”属性作为根节点,然后划分“月龄<=2”的所有可能性。计算当“月龄<=2”时,“注射反应”、“出生状态”、“常住地”的信息增益值Gain(注射反应)=Info(2,3)-E(注射反应)=0.971-0.4=0.571;Gain(出生状态)=Info(2,3)-E(出生状态)=0.971-0=0.971;Gain(常住地)=Info(2,3)-E(常住地)=0.972-0.951=0.020;同理考虑“月龄>5”的情况,由于“月龄>5”时,各个节点都是纯节点,所以不再划分。三、产生决策规则遍历决策树,输出叶结点类属性值,用IF—THEN形式表达为IF(月龄2…5AND注射反应=无)THEN(类别=是)IF(月龄2…5AND注射反应=轻)THEN(类别=是)IF(月龄2…5AND注射反应=重AND出生状态=正常产)THEN(类别=是)IF(月龄2…5AND注射反应=重AND出生状态=非正常产AND常住地=城市)THEN(类别=否)IF(月龄2…5AND注射反应=重AND出生状态=非正常产AND常住地=农村)THEN(类别=是)……依此类推,共可产生十三条规则。四、决策支持子系统的分析用上述基于决策树的分类算法所得到的模型生成的规则来预测测试集中的未知数据属于哪一类,并通过该模型的测试结果与实际情况相吻合的准确率来判断该决策树是否有效。首先,用整个数据集中2/3的数据作为训练集按照基于决策树的分类算法来建立模型,生成一棵决策树。然后,用余下的1/3的数据作为测试集,通过创建的模型进行预测,并将预测结果和实际值进行比较。如果准确率达到或超过事先确定的阈值,则可以认定该模型对于数据分类是有效的,能够在实际中应用;反之,则认定该模型的分类效果不好,需要按以上步骤来重新判断,直到分类准确率达到预定的阈值为止。在本系统中,经过测试预测准确率已达到87%,在可以接受的范围内,所以算法是有效、可行的。参考文献1陈文伟,黄金才.数据仓库与数据挖掘.人民邮电出版社,20042王万森.人工智能原理及应用.电子工业出版社,20003范明,孟小峰.数据挖掘——概念与技术.机械工业出版社,2001作者简介夏琰(1980-),女,吉林长春人。长春职业技术学院信息技术分院,教师,讲师,硕士,研究方向为计算机应用。
简介:在现代民主的政治范畴中,群众参与公共决策的制定已经成为群众的一项基本权力,同时也是实现政治民主,决策科学的重要体现。随着网络信息的不断发展信息通信技术正在电子政务迅速发展的前提下不断对自身的发展进行改革,传统的电子政务参与方式已经不能满足人民日益增长的需求。信息现代化与传统的公共决策方式进行比较,使群众在参与公共决策上打破了原有条件在时间以及空间等方面的束缚,大大提升了群众参与的积极性,同时也提升了参与的效果,并且极大的满足了群众参与公共决策的希望。在电子政务环境不断完善下,群众利用电子平台参与到政府的决策中,并且与制定者进行互动交流。充分的表达自身的意见与诉求,逐渐发展成为一种政治现象。分析电子政务环境下群众参与公共决策的方式,对于实现决策民主化,提升公共决策质量,提高政府信誉有着重要的现实意义。
简介:本文首先讨论了数据挖掘技术,给出了一种企业决策系统。并就决策系统的构成、流程和采用的数据挖掘技术进行了探讨。关键词数据挖掘;数据仓库;企业决策系统中图分类号N37文献标识码A文章编号1007-9599(2010)04-0000-01ResearchofDataMiningTechnologyinBusinessDecision-makingSystemShiDongsheng(InnerMongoliaUniversity,Information&EngineeringTechnologyCollege,InnerMongolia,Baotou014010,China)AbstractThispaperdiscussesdataminingtechnology,presentsabusinessdecisionsystem.Decision-makingsystemoncomposition,processanduseofdataminingtechniquesarediscussed.KeywordsDatamining;Datawarehouse;Businessdecision-makingsystem随着计算机管理信息系统的飞速发展和广泛应用,企业生产经营的自动化水平不断提高,大大提高了工作效率。但企业业务系统运行所产生的大量原始数据是企业生产经营活动的真实记录,不能为本企业加以有效的统计、分析及评估,无法将这些数据转换成企业有用的信息、为企业战略决策提供参考和支持。数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,它的出现为智能地把海量数据转化为有用的信息和知识提供了新的思路和手段,设计开发基于数据挖掘的企业决策系统是合理解决这一问题,提升企业综合竞争力的最佳对策。一、数据挖掘技术数据挖掘,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。它是数据库研究中的一个新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,把人们对数据的应用从低层次的查询,提升到从数据中挖掘知识,提供决策支持的层级。数据挖掘一般由数据准备、挖掘操作、结果表达和解释三个主要阶段组成。在数据准备阶段应集成多个运作数据源中的数据,解决语义模糊性、处理遗漏数据、清洗脏数据。挖掘阶段是一个假设产生、合成、修正和验证传播的过程,也是上述三个阶段的核心。结果表达和解释阶段根据最终用户的决策目的把提取的有用信息正确地表达出来。数据挖掘的方法和技术可大致划分为三类统计分析、知识发现、可视化技术等。统计分析用于检查异常形式的数据,然后利用统计模型和数学模型来解释这些数据,统计分析方法是目前最成熟的数据挖掘工具。而知识发现则着眼于发现大量数据记录中潜在的有用信息或新的知识,属于所谓“发现驱动”的数据挖掘技术途经。知识发现常用的方法有人工神经网络、决策树、遗传算法、模糊计算或模糊推理等。数据质量、可视化数据的能力、极大数据库尺寸、数据挖掘者的技能、数据的粒度都是影响知识发现方法的重要因素。可视化技术则采用直观的图形方式将信息模式、数据的关联或趋势呈现给决策者,决策者可以通过可视化技术交互式地分析数据关系。二、基于数据挖掘的企业决策系统数据挖掘面对的是经初步加工的数据,使得数据挖掘更专注于知识的发现;而数据仓库用于完成数据的收集、集成、存储、管理等工作,两者必须有机结合起来使用。基于数据挖掘的企业决策系统主要由数据库、数据仓库、数据仓库管理模块、知识库、知识发现模块、数据挖掘工具、人机交互模块构成(如下图所示)。系统的输入主要源于经过初步处理的数据库数据以及存储在知识库中的历史知识和经验;数据仓库管理模块用于数据仓库的建立以及数据的筛选操作;知识发现模块控制并管理知识发现过程,它将数据的输入和知识库中的信息用于驱动数据选择过程、知识发现引擎过程和发现的评价过程;人机交互模块通过自然语言处理和语义查询在用户和系统之间提供相互联系的集成界面。数据挖掘工具用于完成实际决策问题所需的各种查询检索工具、多维数据的联机分析分析工具等,以实现决策支持系统的各种要求。数据挖掘主要提供了以下几种模式(一)分类模式根据数据的值从树根开始搜索,沿着数据满足的分支往上走,直到树叶确定类别。(二)回归模式回归模式与分类模式相似,区别在于分类模式的预测值是离散的,而回归模式的预测值是连续的。(三)时间序列模式根据数据随时间变化的趋势预测将来的值。只有充分考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好地预测将来的值。(四)聚类模式把数据划分到不同的组,组之间的差别尽可能大,组内的差别尽可能小,进行聚类前并不知道将要划分成几个组和什么样的组。(五)关联模式利用数据项之间的关联规则。(刘)和概念描述和比较操作把具有共同性的数据做汇总操作,从而得到一个具有一般性的规则描述。在实际应用中,可以根据具体情况采用不同模式组合,达到最优化的数据挖掘方式。在用户使用该系统时,首先需要通过分析决策需求,描述和表示决策的问题,确定数据来源,即可建立数据仓库;其次针对所要发现的任务的所属类别,设计或选择上述有效的数据挖掘算法并加以实现,从平凡的历史数据中提出综合数据,独立存储为库文件,作为更高一层数据挖掘对象;同时测试以评价所发现的知识,对知识进行一致性、效用性处理。最后根据最终用户的要求,建立适用于决策支持的数据仓库的集成界面和应用程序,使用户能在决策支持中运用所发现的知识。对于该系统的执行,每个步骤包含了循环和反复,可以对发现的知识不断求精、深化,并使其易于理解。三、结论总之,数据挖掘技术可以使其应用者由原来通过定期的、固定的报表进行定性的分析而上升到实时的、动态的各种形式的图表进行定量的分析,从而可以敏感地发现市场的微小变化并迅速做出反应,为企业在激烈的市场竞争中立于不败之地提供了强有力的工具。参考文献1范明,孟小峰.anjiawei,etal.数据挖掘概念与技术M.北京机械工业出版社,20072李捷.基于数据仓库和数据挖掘的企业决策支持系统研究J.科技经济市场,2006,73范丽霞,张雪兰.利用数据仓库和数据挖掘实现电信决策支持系统J.计算机与现代化,2005,8
简介:分析了目前计算机实验中所存在的主要问题和弊端,并针对这些现象进行了研究和探索,最后结合计算机网络的优势设计了一套解决方案,有效地解决了一些在传统的实验方式里所难以解决的问题。关键词实验教学;网络;实验模式中图分类号G434文献标识码A文章编号1007-9599(2010)04-0000-02NewThoughtsonEnhancingTeachingEffectofComputerExperimentZhouHaohui(ChangshaCommerce&TourismCollege,Changsha410004,China)AbstractThearticleanalyzedcurrentlyproblemandirregularityonComputerExperiment,intendedtomakeastudytothisphenomenon,Finallycombinedtheadvantageofnetworktodesignawayofsolution.Availablysolvedsomeprobleminthetraditionalexperimentalmethod.KeywordsExperimentalteaching;Network;Experimentalmodal一、前言目前计算机课程已成为大中小学的基础课程之一,计算机课程相对其它课程而言最大特点就是它必须和实验相结合。随着计算机应用范围的日益广泛,做为一门实践性非常强的基础课程,熟练掌握计算机的使用方法和各种应用程序的操作才是关键所在,因此如何计算机实验教学进行改进也就成为众多教学研究者的研究目标,计算机实验教学也提高到了重要位置。二、目前计算机课程的实验模式和弊端(一)实验环境的分析实验实验环境可分为两方面1.硬件环境计算机实验的硬件环境主要是包含计算机和计算机网络,目前的计算机更新换代速度较快,一般的高校计算机都是5年更新一次,计算机性能越来越好,所能讲授的东西也越来越多,加上网络速度的提高,千兆网络的接入比比皆是,为计算机的教学和管理都带来发前所未有的新空间,要如何才能充分利用这些硬件资源可以做的文章很多。2.软件环境随着计算机课程的改革,计算机实验从以往的单一的计算机文化基础、编程到现在的商务网站的设计、3D动画设计、Flash动画设计、游戏制作、图形处理、CAD建筑设计等等五花八门,极大的丰富了教学内容,学生学习的可选择性增加了,在目前就业竞争日益扩大的情况下,学好一门计算机课程对提高学生在社会上的竞争力很有帮助。此外计算机实验室网络化管理的出现也为进一步的实验教学改革提供了良好的学习环境。(二)传统实验方式的实验过程计算机实验过程的学习,主要分为两方面,一方面是学生必须掌握的部分,这部分的知识大多是课程的基础知识。另一部分是设计性、创新性或综合性实验,这部分主要注重于对学生能力提高方面。因此一般说来计算机实验分为两步,第一步要先完成基础知识内容,下一步再就是完成设计性、创新性、综合性实验。在实验过程中,教师负责对学生实验进行指导和解答,并同时充当导学、互学的角色。实验完成后,学生要求提交实验报告,教师需要进行批阅总结。(三)传统实验方式存在的弊端传统的计算机实验教学存在许多弊端,主要表现在(1)验证实验较多,有效提高学生素质的综合性、设计性、创新性实验少;(2)实验教学形式单一,教学方法呆板,缺乏灵活性和弹,难以适应学生个性化学习的需要,更谈不上因材施教,不能激发学生的学习积极性;(3)实验教师在实验指导过程中,重复劳动多,工作强度大;(4)学生自由度大,学生迟到早退现象较多,而且难以控制学生在学习过程中的行为,造成许多学生在实验过程中做与实验无关的事;(5)实验结果统计分析困难、不准确。而且由于实验结果可复制,因此结果往往不能反映真实情况。因此计算机实验教学要适应时代的发展,积极转换观念,探索计算机实验教学的新思路、新途径,在制订实验教学计、编写实验教学大纲、确定实验课、设计实验教学内容时,尽可考虑学生的实际需要,使实验教学更加具有灵活性、科学性,符合素质教育的需求。三、计算机实验课程教学方式的改进对传统的计算机实验教学的改进除了提高学生的学习意识外还可以在实验方式和实验过程上做文章,在这里我们的主要研究思路就是朝这方面发展,下面就我们的研究做进一步阐述。(一)计算机实验教学网络化管理的意义计算机网络的优势在于将分布在不同地理位置的计算机集中起来,很容易实现各种信息的共享和发布,目前网络的兴起所引起的一系列的信息化革命就充分说明了网络存在所带来的新天地,网络教学、网络考试、网络实验室等和教学相关的各种研究成果一一呈现出来,如果能在计算机实验教学中用好用精这些研究成果,对计算机教学来说无疑是一大进步。(二)实验过程改进的具体措施这里我们经过研究自行开发了一套专门用于计算机实验教学的软件系统,利用这套系统我们实现了以下的一些功能1.系统模型如图1所示,系统框架按如下模块进行组织。图1计算机实验过程控制系统2.实验课程自动考勤的实现以往的考勤工作是由教师或学生干部来执行,一个大班100人左右的话,考勤一遍需要近半个小时,后来进行改进,采用固定座位的方式进行考勤,哪位同学没有到倒是一目了然,但是如果临时调整上课地点,固定座位的方式也就失效了。要解决这个问题,用软件系统来实现非常容易解决,我们采用学号加密码的形式来进行记录,学生上机时用自己的学号和密码登录,然后再上机做实验,计算机就会自动记录上机时间,学习做完实验下机时再注销,系统记录下下机时间。3.利用上机管理软件实现实验行为的规范化由于网络的畅通和计算机内容的丰富,很多学生在做实验时经常玩游戏、看电影、听音乐或是做其它与实验课程无关的事,就算教师晓之以理、动之以情说明计算机实验的重要性,并努力提高实验课程的趣味性,但仍有一部分学生我行我素,不仅自己不好好学,还影响到其他学生的学习,因此完全靠学生的自觉性约束上机行为,实际操作起来还是不尽人意,因此我们在系统中加入止禁功能。4.加大实验内容的灵活性由于学生计算机水平参差不平,有的同学已学过,有的没有学过,如果使用同样一套实验项目,可能有的同学几分钟就完成了,而有的同学可能几个小时都做不完,不利于因材施教,因此合理地设置实验项目的内容,也是本系统的优越之处。5.实验效果分析自动化的实现实验教师的工作不仅仅是指导学生的实验过程,还要从学生的实验报告中发现问题,做到及时辅导。这里我们可以利用计算机系统的统计功能自动分析学生实验过程中容易出错的地方,统计学生的学习情况,比起利用手工的方式来的及时准确、快捷。方便做到针对问题解决问题。6.实验指导网络化的实现在实验过程中,学生经常会问到各种各样的问题,但是我们发现,很多问题都是重复性的,甚至都已在课堂上演示过了,这些问题在传统的实验过程中可以边指导边收集,然后再找时间补充解决。利用计算机系统后,我们可以做成类似论坛的形式,学生将要提的问题提交,教师当场解答,让所有的学生都可以看到,查询,这样不仅提高了学生参与学生的程度,还减少了教师的重复劳动,使教师更有精力对付其它的新问题。7.实验资料的网络共享的实现将各方面收集到的有关资料进行共享,按热点问题、难点问题、基础问题和相关知识进行分类,方便学生自主学习、课程预习或课后复习,如果能有效利用internet网络进行发布学习效果将会更好。参考文献1林科学.改革计算机实验教学切实提高教学质量J.保山师专学报,2006,9(5)26~293郭金良等.高校计算机实验总结探析J.实验室研究与探索,2006,12(12)1584~15854蒲力.计算机实验教学的改革探索J.贵阳学院学报(自然科学版),2006,12(4)59~625徐小明等.开放型实验教学管理模式与系统实现J.实验室研究与探索,2007,8(8)80~83作者简介周浩慧(1970-),女,湖南益阳人,长沙商贸旅游职业技术学院教师,研究方向计算机应用技术、动漫设计