学科分类
/ 25
500 个结果
  • 简介:本文作者从实际应用出发,对现存数据挖掘决策分类方法进行了研究,并应用到系统当中,实现了决策支持模块。关键词数掘挖掘;决策算法;改进;实现中图分类号TP301.6文献标识码A文章编号1007-9599(2010)04-0000-02DataMiningDecisionTreeImprovement&ImplementationXiaYan,ZhouXiaohong,WangDong(ChangchunTechnologyCollege,Changchun130033,China)AbstractTheauthorstudiedonexistingDataMiningdecisiontreeclassificationmethodbasedonthepracticalapplication,andappliedtothesystem,achievedadecisionsupportmodule.KeywordsDataMining;Decisiontreealgorithm;Improve;Achieve随着数据库技术不断发展及数据库管理系统广泛应用,数据库中存储数据量急剧增大,在大量数据背后隐藏着许多重要信息,如果能把这些信息从数据库中抽取出来,将会产生重要作用。因此,数据挖掘涉及学科领域逐渐扩大,数据挖掘方法也在不断地改进和提高。分类在数据挖掘中是一项非常重要任务,分类算法可以分为决策分类算法、遗传算法、神经网络方法、K-最近邻分类算法等。这里,以疾病防控与儿童免疫管理系统中决策支持子系统开发过程为例,对决策分类算法改进及在实际中应用进行阐述。一、数据选取和数据预处理在本系统中,以预防接种中遇到异常反应后记录“异常反应调查表”中数据为例进行说明。具体实现过程详细说明首先输入训练集,由于在真实SQLServer数据库当中,为了降低存储要求和减少存储时间,并非真正存储每个数据项属性值,而是用存储数字来对应相应意义,如在数据库数据表中,“性别”字段中“1”代表“男”、“2”代表“女”,反应到程序页面时再映射回原来值,为了说理清晰又限于篇幅,这里只将所有数据集中有代表性十几组数据作为分类模型创建输入训练集。表1判断是否需要计划外加强免疫属性表儿童编号月龄出生状态常住地上次注射后反应是否需要计划外加强免疫0405102<=2正常产城市无不良反应否0405495<=2正常产农村无不良反应否0401342>5正常产城市无不良反应是04054352…5正常产城市轻度反应是04065342…5非正常产城市重度反应是04072342…5非正常产农村重度反应否0401544>5非正常产农村重度反应是0408519<=2正常产城市轻度反应否0404566<=2非正常产城市重度反应是04035472…5非正常产城市轻度反应是0401534<=2非正常产农村轻度反应是0405856>5正常产农村轻度反应是0409533>5非正常产城市无不良反应是04053442…5正常产农村轻度反应否二、生成决策对训练集每一个属性,计算其信息增益。以“月龄”属性为例,每个结点中正反例个数分别为[2,3]、3,2、4,0,分别计算如下info2,3==0.971;info3,2==0.971;info4,0=0;计算信息熵E(月龄)==0.693;计算该属性信息增益量,选取信息增益最大属性为节点,按该属性值划分数据集合Gain(月龄)=Info(9,5)-E(月龄)=0.940-0.693=0.247;同理,对“注射反应”属性、“出生状态”属性、“常住地”属性都可计算每个结点正反例个数(由于篇幅有限,不作计算)。通过对各属性信息增益计算结果,选择“月龄”属性作为根节点,然后划分“月龄<=2”所有可能性。计算当“月龄<=2”时,“注射反应”、“出生状态”、“常住地”信息增益值Gain(注射反应)=Info(2,3)-E(注射反应)=0.971-0.4=0.571;Gain(出生状态)=Info(2,3)-E(出生状态)=0.971-0=0.971;Gain(常住地)=Info(2,3)-E(常住地)=0.972-0.951=0.020;同理考虑“月龄>5”情况,由于“月龄>5”时,各个节点都是纯节点,所以不再划分。三、产生决策规则遍历决策,输出叶结点类属性值,用IF—THEN形式表达为IF(月龄2…5AND注射反应=无)THEN(类别=是)IF(月龄2…5AND注射反应=轻)THEN(类别=是)IF(月龄2…5AND注射反应=重AND出生状态=正常产)THEN(类别=是)IF(月龄2…5AND注射反应=重AND出生状态=非正常产AND常住地=城市)THEN(类别=否)IF(月龄2…5AND注射反应=重AND出生状态=非正常产AND常住地=农村)THEN(类别=是)……依此类推,共可产生十三条规则。四、决策支持子系统分析用上述基于决策分类算法所得到模型生成规则来预测测试集中未知数据属于哪一类,并通过该模型测试结果与实际情况相吻合准确率来判断该决策是否有效。首先,用整个数据集中2/3数据作为训练集按照基于决策分类算法来建立模型,生成一决策。然后,用余下1/3数据作为测试集,通过创建模型进行预测,并将预测结果和实际值进行比较。如果准确率达到或超过事先确定阈值,则可以认定该模型对于数据分类是有效,能够在实际中应用;反之,则认定该模型分类效果不好,需要按以上步骤来重新判断,直到分类准确率达到预定阈值为止。在本系统中,经过测试预测准确率已达到87%,在可以接受范围内,所以算法是有效、可行。参考文献1陈文伟,黄金才.数据仓库与数据挖掘.人民邮电出版社,20042王万森.人工智能原理及应用.电子工业出版社,20003范明,孟小峰.数据挖掘——概念与技术.机械工业出版社,2001作者简介夏琰(1980-),女,吉林长春人。长春职业技术学院信息技术分院,教师,讲师,硕士,研究方向为计算机应用。

  • 标签:
  • 简介:在教学中运用教育游戏,能够引发学习者好奇心,激发学习者兴趣,从而获得较好教学效果。本文详细阐述了如何运用Flash软件,设计并开发适合小学数学教学,界面友好、操作方便加减运算"教育游戏。

  • 标签: Flash加减运算教育游戏
  • 简介:摘要本文对传统XML文档模型和路径模型算法进行了研究,在准确率、召回率和平均时间消耗上进行了比较,对模型算法特点和不足进行了总结。

  • 标签: XML 树模型 树路径模型 算法
  • 简介:大家对QQ安全都比较重视,但往往忽视IM软件另一个巨头MSN。下面就来瞧瞧盗取MSN账号密码大杀手是如何作案,以便MSN用户可以有效地防范。

  • 标签: MSN密码 IM软件 MSN账号 QQ 用户 安全
  • 简介:近日,华硕推出了款迷你姊妹机箱TM-B11和TM-B12。这款机箱箱体尺寸只有(L)435×(W)180×(H)352mm。

  • 标签: 机箱 迷你 华硕 箱体尺寸
  • 简介:Linux下Vim应用虽然已十分广泛,然而初学者对Vim用户界面及使用方法仍然会感到不习惯,甚至认为它比较原始。事实上,Vim编辑器是专门为经验丰富用户设计,它界面和使用方法提供了更快速度和更强功能。面对满屏英文,下面就对系统做点中文化小改动,让Vim使用起来更贴心。这里系统环境为FedoraCore3,默认编码为zh_CN.UTF-8。

  • 标签: LINUX 操作系统 用户界面 Vim编辑器
  • 简介:目前,许多用户因业务发展需要不断更新或升级网络,从而造成环境差异较大,整个网络系统平台参差不齐,在服务器端大多使用Linux和Unix,桌面端使用Windows9x/2000/XP,所以在企业应用中往往是Linux/Unix和Windows操作系统共存形成异构网络。Linux中Samba就是常用于Linux/Windows混合组网下文件服务器,这样Samba服务器安全问题就凸显出来了。本文就通过几个简单设置来加强网络中Samba服务器安全性。

  • 标签: SAMBA服务器 安全问题 WINDOWS操作系统 网络系统平台 LINUX 加固
  • 简介:半年来.笔者一直在写一些场景丰富、情节完整、游戏元素多样手机游戏策划方案。

  • 标签: 手机游戏 策划 分化
  • 简介:随着网络普及,人们把日常生活都搬到了电脑上,听歌、玩游戏、查资料,都特方便,这不,喜欢跟风看大片笔者,也把视线移驾到了电脑上,你也是电影控?却不知道如何才能找到并欣赏到自己喜欢最新影视大片?没关系,笔者这里把自己看电影心得密传于你!嘘!别人我不告诉他!

  • 标签: 影视 电脑 电影 网络
  • 简介:在日常使用Word编辑文档过程中,我们经常会遇到下面种情况,一是当我们在文档中插入剪贴板内容时,Word会自作多情地在添加内容前后加上空格,害得我们不得不手工去删除它们;二是当我们输入英文单词时,如果单词位于行尾,同时该行又不足以容纳它,Word就会自动进行切割,将放不下部分放置到下一行,

  • 标签: Word 编辑 英文单词 日常使用 行切割
  • 简介:十分重视"创新关怀"Acer今年再度推出"关怀"力作,继7月份在京、沪地首度推广笔记本电脑全新工业设计概念后,近日,大家期待已久folio公事包造型轻薄型笔记本--TravelMate3200隆重上市.Acer花了一段时间,经过深入了解各地消费者需求及品牌认知,确立了Acer笔记本品牌与市场定位后,全新打造更具竞争力笔记本电脑产品.

  • 标签: 品牌认知 竞争力 消费者 市场定位 产品 需求
  • 简介:不动产登记过程中,作为常见登记业务申请资料之一税费缴纳凭证是需要归档并永久保存资料,税费缴纳凭证通常以票据形式出现,但票据因本身材质问题,票据字迹保存期有限。文章探讨此问题产生原因和应对措施,为不动产登记档案管理工作提供参考借鉴。

  • 标签: 档案 不动产登记 不动产登记档案 票据保管 方法
  • 简介:围绕着人们对.NETWeb服务和Sun提供Web服务实现关注.现在我们需要分析所发生这一切。在本文中.我们比较了实现Web服务种方法.以及他们是如何应对面临挑战

  • 标签: WEB服务 .NET J2EE 实现方式 务实 挑战
  • 简介:很多人都喜欢用TotalCommander(简称TC)来代替系统自带“资源管理器”,因为它不但本身功能强大,另外强大扩展性更能让其通过安装不同插件来实现更多功能。但并非所有人都用TC,如果你仍用默认“资源管理器”,也可以给它加滴“润滑剂”。

  • 标签: 资源管理器 润滑剂 源文件 标签 校验码 属性窗口
  • 简介:倪光南表示,根本解决办法是用国产操作系统替换XP,但是鉴于当前市场缺少国产系统,需要加紧研发,在此过渡期间,可对中国XP用户使用可信加固技术,一年后,用国产系统进行替代。

  • 标签: 国产化 倪光南 服务 操作系统 加固技术
  • 简介:2009年3月3日,全国政协会议开幕当天,看惯了传统行业发展成就的人们,在《新闻联播》看到了这样一条新闻:“2008年网络游戏实际销售收入达1838亿元人民币,比2007年增长766%,为电信、IT业等带来直接收入4784亿元。在网络游戏快速发展中,民族原创网络游戏连续四年成为市场主导。

  • 标签: 自主创新 民族 《新闻联播》 网络游戏 销售收入 人民币
  • 简介:近日,全球领先文件处理专家--富士施乐宣布推出款配置齐全全新A3幅面数码多功能一体机DocumentCentre186和DocumentCentre156.DocumentCentre186/156集成打印、复印、传真、扫描到邮件等多项功能,凭借出色性能、耐用性和环保型设计,必将在网络打印需求日益增长、成本控制严格今天,全面满足办公用户对各种文件处理复杂要求.

  • 标签: A3幅面 数码多功能一体机 富士施乐 商务办公 文件处理 网络打印
  • 简介:云,让你能够根据负载需求调整计算资源。你可以手动地调整计算能力(通过命令行或web界面),也可以通过编程来调整(或者用预先定义调整模式,或者使用能自动调整计算能力以适应实际需要软件)。

  • 标签: 计算资源 自动调整 扩容 规划 计算能力 WEB界面