学科分类
/ 25
500 个结果
  • 简介:用户访问数据中往往存在大量无用或与当前信息挖掘无关的数据,我们通过数据清洗从挖掘对象中去除不相关的数据,并实现了用户识别、会话识别、格式化等步骤,对WEB信息进行预处理,为进一步的操作提供了较好的数据格式,提高了挖掘效率。同时,因特网上的信息往往具有非结构化或半结构化特性,难以得到传统数据挖掘技术的支持,我们通过事务识别技术解决了这一问题,将访问序列组织成逻辑单元以表示事务或用户会话,将所有事务组成一个事务数据库,识别出事务后就可以利用对传统数据挖掘的方法对WEB数据进行挖掘:事务识别技术有多种实现形式,不同形式有不同的应用场合,本文根据特定挖掘任务,实现了以时间维来分割事务的算法,并给出了一些实验数据

  • 标签: 数据库 数据处理 数据库管理系统 WEB 数据挖掘 数据格式
  • 简介:  一、数据挖掘的定义  数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系

  • 标签: 技术研究 数据挖掘技术
  • 简介:四、Web数据挖掘中的关键技术  Web数据挖掘中常用的技术有Web使用的特有的路径分析技术,并对Web数据挖掘中使用的技术及应用前景进行了探讨,    3.Web访问挖掘  Web访问挖掘是从服务器端记录的用户访问日志或从用户的浏览信息中抽取感兴趣的模式

  • 标签: 数据挖掘技术 面向Web Web数据挖掘
  • 简介:半结构化数据是网络中一种重要的数据形式,也是进行数据挖掘的重要基础。因此要对Internet上巨量的数据进行数据挖掘,半结构化数据及模型是前提。本文介绍了半结构化数据的相关概念及其数据模型。

  • 标签: 半结构化数据 数据挖掘 数据模型
  • 简介:分析传统关联关系挖掘的主要缺陷,提出关联模型的概念以及关联模式挖掘算法,指出通过多种模式的挖掘,找到课程之间隐含的关联关系,并通过真实的教学数据验证该算法,通过分析实验结果,得出该算法能够有效准确地挖掘出两门课程之间关联关系的结论。

  • 标签: 教学数据 数据挖掘 关联模式
  • 简介:本文介绍了Web数据挖掘的定义、分类以及特点,阐述了Web数据挖掘在结构化数据方面所具有的速度快、准确性高等特点,并从HTTP交互模块与HTML解析模块分析了Web数据挖掘的原理与流程,并重点介绍了基于Python计算机程序语言的Web数据挖掘设计。

  • 标签: PYTHON 大数据 数据挖掘 数据处理
  • 简介:随着中国加入WTO和国内电信业的改革,各电信运营商在企业大用户、长途电话、IP业务等各方面展开了激烈的竞争。可以看到电信市场上,运营商们正层出不穷地推出新的增值业务和服务,并不断重申深度挖掘基础业务提供ARPU值的重要性,应该说电信营销已经从混沌状态走到了一种理智清晰的状态。在这种状况下,找到ARPU贡献率高的用户、提供有竞争力的业务、提高用户满意度以及用户忠诚度,无疑需要建立一种理性的决策方式。而理性决策的获得总是脱离不

  • 标签: 企业 中国 电信营销 ARPU值 电信业 用户忠诚度
  • 简介:随着SQLServer2005本发布的临近,现在是时候讨论它为数据库开发人员带来的一些新特性了。为了激发您的好奇心,最好还是从SQLServer2005AnalysisServices的数据挖掘新特性开始吧!其中,您将会发现它改进了两个现有算法,引入了五个新算法,并增加了十多个可视化界面帮助处理数据关联。如果只是粗略的看一眼,则会错过所有的强大功能。

  • 标签: Analysis Services 数据挖掘 特性 Server 揭秘
  • 简介:作为专门管理企业前台的客户关系管理为企业提供了一个收集、分析和利用各种客户信息的系统,客户关系管理(CRM)又是一种旨在改善企业与客户之间关系的新型管理机制,3、CRM的实施与数据挖掘技术3.1、CRM解决方案的组成CRM作为企业管理系统软件

  • 标签: 客户关系管理 技术综述 数据挖掘技术
  • 简介:随着数据库应用的不断深化,数据库的规模急剧膨胀,人们需要对这些数据进行分析,从中发现有价值的信息。但是数据库管理系统本身却没有提供有效的工具和方法来利用这些数据,因此数据挖掘成为当今研究的热点。本文即以混合遗传算法为基础对数据挖掘中的算法问题进行系统研究。

  • 标签: 数据挖掘 遗传算法 模拟退火算法 混合遗传算法
  • 简介:以基于其拟合直线中的斜率来识别异常客户的性质,  [关键词]最小二乘法拟合直线斜率异常客户性质    一、引言  异常客户是在一段考察时期内与客户的一般行为模式不一致的对象,它反映了用直线y=ax+b来描述(xi

  • 标签: 企业异常 实现企业 客户分析
  • 简介:4由超市事务数据库发现关联规则的总体设计在现有的不少关联规则发现算法中,如何采用基于关联规则的数据挖掘技术发现超市事务数据库中的关联规则是本文所研究和探讨的重点,有必要采用快速算法从超市事务数据库中挖掘关联规则

  • 标签: 事务数据库 关联规则 挖掘关联
  • 简介:本文作者从实际应用出发,对现存数据挖掘决策树分类方法进行了研究,并应用到系统当中,实现了决策支持模块。关键词数掘挖掘;决策树算法;改进;实现中图分类号TP301.6文献标识码A文章编号1007-9599(2010)04-0000-02DataMiningDecisionTreeImprovement&ImplementationXiaYan,ZhouXiaohong,WangDong(ChangchunTechnologyCollege,Changchun130033,China)AbstractTheauthorstudiedonexistingDataMiningdecisiontreeclassificationmethodbasedonthepracticalapplication,andappliedtothesystem,achievedadecisionsupportmodule.KeywordsDataMining;Decisiontreealgorithm;Improve;Achieve随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将会产生重要的作用。因此,数据挖掘涉及的学科领域逐渐扩大,数据挖掘的方法也在不断地改进和提高。分类在数据挖掘中是一项非常重要的任务,分类算法可以分为决策树分类算法、遗传算法、神经网络方法、K-最近邻分类算法等。这里,以疾病防控与儿童免疫管理系统中决策支持子系统的开发过程为例,对决策树分类算法的改进及在实际中的应用进行阐述。一、数据选取和数据预处理在本系统中,以预防接种中遇到异常反应后记录的“异常反应调查表”中的数据为例进行说明。具体实现过程详细说明首先输入训练集,由于在真实的SQLServer数据库当中,为了降低存储要求和减少存储时间,并非真正存储每个数据项的属性值,而是用存储数字来对应相应的意义,如在数据库的数据表中,“性别”字段中“1”代表“男”、“2”代表“女”,反应到程序页面时再映射回原来的值,为了说理清晰又限于篇幅,这里只将所有数据集中有代表性的十几组数据作为分类模型创建的输入训练集。表1判断是否需要计划外加强免疫的属性表儿童编号月龄出生状态常住地上次注射后反应是否需要计划外加强免疫0405102<=2正常产城市无不良反应否0405495<=2正常产农村无不良反应否0401342>5正常产城市无不良反应是04054352…5正常产城市轻度反应是04065342…5非正常产城市重度反应是04072342…5非正常产农村重度反应否0401544>5非正常产农村重度反应是0408519<=2正常产城市轻度反应否0404566<=2非正常产城市重度反应是04035472…5非正常产城市轻度反应是0401534<=2非正常产农村轻度反应是0405856>5正常产农村轻度反应是0409533>5非正常产城市无不良反应是04053442…5正常产农村轻度反应否二、生成决策树对训练集的每一个属性,计算其信息增益。以“月龄”属性为例,每个结点中的正反例的个数分别为[2,3]、3,2、4,0,分别计算如下info2,3==0.971;info3,2==0.971;info4,0=0;计算信息熵E(月龄)==0.693;计算该属性的信息增益量,选取信息增益最大的属性为节点,按该属性的值划分数据集合Gain(月龄)=Info(9,5)-E(月龄)=0.940-0.693=0.247;同理,对“注射反应”属性、“出生状态”属性、“常住地”属性都可计算每个结点的正反例的个数(由于篇幅有限,不作计算)。通过对各属性信息增益的计算结果,选择“月龄”属性作为根节点,然后划分“月龄<=2”的所有可能性。计算当“月龄<=2”时,“注射反应”、“出生状态”、“常住地”的信息增益值Gain(注射反应)=Info(2,3)-E(注射反应)=0.971-0.4=0.571;Gain(出生状态)=Info(2,3)-E(出生状态)=0.971-0=0.971;Gain(常住地)=Info(2,3)-E(常住地)=0.972-0.951=0.020;同理考虑“月龄>5”的情况,由于“月龄>5”时,各个节点都是纯节点,所以不再划分。三、产生决策规则遍历决策树,输出叶结点类属性值,用IF—THEN形式表达为IF(月龄2…5AND注射反应=无)THEN(类别=是)IF(月龄2…5AND注射反应=轻)THEN(类别=是)IF(月龄2…5AND注射反应=重AND出生状态=正常产)THEN(类别=是)IF(月龄2…5AND注射反应=重AND出生状态=非正常产AND常住地=城市)THEN(类别=否)IF(月龄2…5AND注射反应=重AND出生状态=非正常产AND常住地=农村)THEN(类别=是)……依此类推,共可产生十三条规则。四、决策支持子系统的分析用上述基于决策树的分类算法所得到的模型生成的规则来预测测试集中的未知数据属于哪一类,并通过该模型的测试结果与实际情况相吻合的准确率来判断该决策树是否有效。首先,用整个数据集中2/3的数据作为训练集按照基于决策树的分类算法来建立模型,生成一棵决策树。然后,用余下的1/3的数据作为测试集,通过创建的模型进行预测,并将预测结果和实际值进行比较。如果准确率达到或超过事先确定的阈值,则可以认定该模型对于数据分类是有效的,能够在实际中应用;反之,则认定该模型的分类效果不好,需要按以上步骤来重新判断,直到分类准确率达到预定的阈值为止。在本系统中,经过测试预测准确率已达到87%,在可以接受的范围内,所以算法是有效、可行的。参考文献1陈文伟,黄金才.数据仓库与数据挖掘.人民邮电出版社,20042王万森.人工智能原理及应用.电子工业出版社,20003范明,孟小峰.数据挖掘——概念与技术.机械工业出版社,2001作者简介夏琰(1980-),女,吉林长春人。长春职业技术学院信息技术分院,教师,讲师,硕士,研究方向为计算机应用。

  • 标签:
  • 简介:随着计算机网络技术的快速发展及大数据时代的到来,大数据技术在旅游行业中也得到了有效应用,智慧旅游成为旅游行业发展的一个主流趋势。大数据挖掘在智慧旅游建设推进中有着重要的作用,基于此,本文对大数据挖掘在智慧旅游中的应用进行了探讨,旨在提高大数据挖掘技术在旅游发展中的应用,促进智慧旅游的实现。

  • 标签: 大数据 挖掘 智慧旅游