简介:数据中心的存储迎来了一个新的春天?犹如爆炸般增长的数据给数据中心存储带来了挑战?快捷键:简洁性和可视化2015年,数据复杂性失控,简洁性和可视化变得尤为重要。数据中心将由快捷键组成!数据复杂性这个问题不仅是由容量增长导致的。根据IDC报告,移动和传感器设备正在生成新的端点,到2020年将达到200亿台,数据就是在这些端点中创建的。这些数据将包含更多需要索引的对象,而每个对象由于需要收集更精细的数据而比以往更大。不断传输数据带来了新的、独一无二的性能和可用性问题。因为可能用来为未来分析创建上下文,所有数据都必须保留更长时间。然而,唯一没有增长的是管理预算。
简介:随着信息科学技术的不断发展,越来越多的设备可以产生数据,而硬件存储设备却越来越便宜,我们因此步入了数据爆炸式增长的时代。大数据如雨后春笋般地出现在各行各业中,车载导航公司也迎来了大数据。大数据是机遇,同时也是挑战,如何从导航数据中获取价值成了车载导航软件公司的难题。而与此同时,中国车险市场随着我国汽车市场发展不断扩大,竞争也越来越激烈。车险行业的竞争主要是服务于价格的竞争,归根到底是风险评估能力的竞争,而目前的广泛应用的车险定价策略存在难以取分投保人真实风险的不足。本文结合车险领域风险评估的情况以及车载导航大数据的特点,提出通过对车载导航大数据的分析,对用户的统计驾驶情况评估,并将结果应用到车险行业。
简介:当你的SQLServer数据库系统运行缓慢的时候,你或许多多少少知道可以使用SQLServerProfiler(中文叫SQL事件探查器)工具来进行跟踪和分析。是的,Profiler可以用来捕获发送到SQLServer的所有语句以及语句的执行性能相关数据(如语句的read/writes页面数目,CPU的使用量,以及语句的duration等)以供以后分析。但本文并不介绍如何使用Profiler工具,而是将介绍如何使用read80trace(有关该工具见后面介绍)工具结合自定义的存储过程来提纲挈领地分析Profiler捕获的Trace文件,
简介:提到加密,不少用户可以说出一大堆加密软件,然而这里所讲的加密方法绝不使用第三方工具软件,而是使用Vista系统本身提供的BitLocker驱动器加密功能。使用BitLocker驱动器加密功能,可以对硬盘驱动器加密,被加密的驱动器只能在加密的系统中使用,在其他系统中将无法识别,即使你将硬盘挂接到其他系统中,也无法读取其中的数据,真正保护数据的安全。下面来看看如何实现。
简介:在软件行业中,五年就像是一个地质时代。五年前,Microsoft宣布了自己的Micorsoft.NETFramework计划。从那以后,DataSet(数据集)才开始作为关键对象出现在基于.NET的应用程序中,执行多种数据相关的任务。也是五年前,DataSet被誉为ADO记录集(Recordset)的威力增强版。那么在.NETFramework出现之前,您是如何设计数据访问层(DAL,DataAccessLayer)的呢?我想您一定是以ADO和它全能的Recordset对象——断开的、且可进行XML序列化的——为中心构建数据访问层。
简介:本文作者从实际应用出发,对现存数据挖掘决策树分类方法进行了研究,并应用到系统当中,实现了决策支持模块。关键词数掘挖掘;决策树算法;改进;实现中图分类号TP301.6文献标识码A文章编号1007-9599(2010)04-0000-02DataMiningDecisionTreeImprovement&ImplementationXiaYan,ZhouXiaohong,WangDong(ChangchunTechnologyCollege,Changchun130033,China)AbstractTheauthorstudiedonexistingDataMiningdecisiontreeclassificationmethodbasedonthepracticalapplication,andappliedtothesystem,achievedadecisionsupportmodule.KeywordsDataMining;Decisiontreealgorithm;Improve;Achieve随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将会产生重要的作用。因此,数据挖掘涉及的学科领域逐渐扩大,数据挖掘的方法也在不断地改进和提高。分类在数据挖掘中是一项非常重要的任务,分类算法可以分为决策树分类算法、遗传算法、神经网络方法、K-最近邻分类算法等。这里,以疾病防控与儿童免疫管理系统中决策支持子系统的开发过程为例,对决策树分类算法的改进及在实际中的应用进行阐述。一、数据选取和数据预处理在本系统中,以预防接种中遇到异常反应后记录的“异常反应调查表”中的数据为例进行说明。具体实现过程详细说明首先输入训练集,由于在真实的SQLServer数据库当中,为了降低存储要求和减少存储时间,并非真正存储每个数据项的属性值,而是用存储数字来对应相应的意义,如在数据库的数据表中,“性别”字段中“1”代表“男”、“2”代表“女”,反应到程序页面时再映射回原来的值,为了说理清晰又限于篇幅,这里只将所有数据集中有代表性的十几组数据作为分类模型创建的输入训练集。表1判断是否需要计划外加强免疫的属性表儿童编号月龄出生状态常住地上次注射后反应是否需要计划外加强免疫0405102<=2正常产城市无不良反应否0405495<=2正常产农村无不良反应否0401342>5正常产城市无不良反应是04054352…5正常产城市轻度反应是04065342…5非正常产城市重度反应是04072342…5非正常产农村重度反应否0401544>5非正常产农村重度反应是0408519<=2正常产城市轻度反应否0404566<=2非正常产城市重度反应是04035472…5非正常产城市轻度反应是0401534<=2非正常产农村轻度反应是0405856>5正常产农村轻度反应是0409533>5非正常产城市无不良反应是04053442…5正常产农村轻度反应否二、生成决策树对训练集的每一个属性,计算其信息增益。以“月龄”属性为例,每个结点中的正反例的个数分别为[2,3]、3,2、4,0,分别计算如下info2,3==0.971;info3,2==0.971;info4,0=0;计算信息熵E(月龄)==0.693;计算该属性的信息增益量,选取信息增益最大的属性为节点,按该属性的值划分数据集合Gain(月龄)=Info(9,5)-E(月龄)=0.940-0.693=0.247;同理,对“注射反应”属性、“出生状态”属性、“常住地”属性都可计算每个结点的正反例的个数(由于篇幅有限,不作计算)。通过对各属性信息增益的计算结果,选择“月龄”属性作为根节点,然后划分“月龄<=2”的所有可能性。计算当“月龄<=2”时,“注射反应”、“出生状态”、“常住地”的信息增益值Gain(注射反应)=Info(2,3)-E(注射反应)=0.971-0.4=0.571;Gain(出生状态)=Info(2,3)-E(出生状态)=0.971-0=0.971;Gain(常住地)=Info(2,3)-E(常住地)=0.972-0.951=0.020;同理考虑“月龄>5”的情况,由于“月龄>5”时,各个节点都是纯节点,所以不再划分。三、产生决策规则遍历决策树,输出叶结点类属性值,用IF—THEN形式表达为IF(月龄2…5AND注射反应=无)THEN(类别=是)IF(月龄2…5AND注射反应=轻)THEN(类别=是)IF(月龄2…5AND注射反应=重AND出生状态=正常产)THEN(类别=是)IF(月龄2…5AND注射反应=重AND出生状态=非正常产AND常住地=城市)THEN(类别=否)IF(月龄2…5AND注射反应=重AND出生状态=非正常产AND常住地=农村)THEN(类别=是)……依此类推,共可产生十三条规则。四、决策支持子系统的分析用上述基于决策树的分类算法所得到的模型生成的规则来预测测试集中的未知数据属于哪一类,并通过该模型的测试结果与实际情况相吻合的准确率来判断该决策树是否有效。首先,用整个数据集中2/3的数据作为训练集按照基于决策树的分类算法来建立模型,生成一棵决策树。然后,用余下的1/3的数据作为测试集,通过创建的模型进行预测,并将预测结果和实际值进行比较。如果准确率达到或超过事先确定的阈值,则可以认定该模型对于数据分类是有效的,能够在实际中应用;反之,则认定该模型的分类效果不好,需要按以上步骤来重新判断,直到分类准确率达到预定的阈值为止。在本系统中,经过测试预测准确率已达到87%,在可以接受的范围内,所以算法是有效、可行的。参考文献1陈文伟,黄金才.数据仓库与数据挖掘.人民邮电出版社,20042王万森.人工智能原理及应用.电子工业出版社,20003范明,孟小峰.数据挖掘——概念与技术.机械工业出版社,2001作者简介夏琰(1980-),女,吉林长春人。长春职业技术学院信息技术分院,教师,讲师,硕士,研究方向为计算机应用。