学科分类
/ 25
500 个结果
  • 简介: 首先比较了数据聚类分析与传统的聚类分析方法的一些不同点,对目前最新的一些数据研究成果进行了分析,最后对数据发展方向进行了展望。

  • 标签: 数据流模型 聚类分析 数据流聚类
  • 简介:随着网络通信技术和无线传感硬件设备的不断发展,数据已成为一种新的数据处理模式。文中比较了数据方法与传统的聚类分析方法的不同、介绍了数据模型特点、数据算法特点、生成概要数据结构的常用方法,同时详细阐述了在扩展传统算法的基础上研究数据方法的发展,从而为以后进一步的聚类分析研究奠定了基础。

  • 标签: 数据流 数据流处理模型 数据流聚类算法
  • 简介:摘要: 现如今,人们的生活质量在不断提高,对于电力的需求在不断加大, 针对电力大数据的异常检测问题,该文将数据算法与电力大数据相结合,针对现有数据算法不易存储全部数据、断电数据易丢失等问题,以及数据算法对于离线阶段算法实时应答的要求,从数据的完整性、安全性以及数据算法的低时间复杂度的角度出发,对 CluStream 数据算法进行改进,提出流式 K-means 算法。对在线阶段,使用 Redis 集群进行数据的缓冲,并设计节点时间衰减策略,增大心跳消息中有效消息所占比例;对离线阶段算法进行优化,使用最佳距离法确定初始中心,减少迭代次数;最后,使用所提出的流式 K-means 算法进行用户用电异常行为检测,实验结果表明,该算法能够很好的发现用户用电异常行为。

  • 标签: 电力大数据 流数据聚类 流式 K-means聚类 用户用电异常
  • 简介:摘要本文分析了汽车行业基于不同思想的各类大数据算法,用户应该根据实际应用中的具体问题具体分析,选择恰当的算法。算法具有非常广泛的应用,改进算法或者开发新的算法是一件非常有意义工作,相信在不久的将来,算法将随着新技术的出现和应用的需求而在汽车行业得到蓬勃的发展。

  • 标签: 汽车 大数据 聚类算法 划分
  • 简介:提出了一种新的多数据算法.该算法可以有效地对有相似行为但存在一定时间延迟的多数据流进行.算法采用自回归模型技术度量数据间的延迟相关,利用频谱估计来抽取数据的特征.每一个数据流用其谱分量的和来表示,从而来计算每对数据间的相关关系.每个谱分量用振幅、相位、衰减率、频率4个参数来描述.算法计算谱分量对之间的ε-延时相关关系,并以此为基础来得到聚类分析中数据间距离的度量.此外,算法采用滑动窗口技术对多数据流进行,实时地得出结果且动态地调节的个数.在人工数据集和实际数据集上的实验结果表明,所提出的算法比其他类似的算法具有更快的速度和更好的效果.

  • 标签: 数据流 聚类 AR模型 谱分量
  • 简介:摘要:针对传统算法在处理大数据时出现的效率低、性能差、响应慢、稳定性不足等问题,提出了一种实时可控的边缘计算算法(SCCEC)。首先,通过粗糙方法对实时大数据元组进行预处理,确定聚数量和中心点位置,并形成具有差异的宏集合。其次,对获得的宏集合进行采样处理,并以最大和最小距离进行K均值并行,实现数据的精细。最后,将完全算法和边缘计算算法相结合,并在边缘计算框架下进行仿真实验。实验结果表明,该算法相比传统算法运行效率更高、计算质量更好、稳定性更强,可有效提高大数据性能,并降低实时数据误分类率。

  • 标签: 可控聚类 边缘计算算法 大数据流研究
  • 简介:摘要本文在将数值型数据标准化的基础上,将分类数据细分为二元数据和类型数据,并用相异度系数距离计算分类数据之间的距离,并且赋予二元和类型数据相应的权重,来改进k-prototypes算法,使该算法满足不同要求的混合属性数据,最后通过C#语言,在ArcEngine2010版本上实现。

  • 标签: K-prototypes算法 混合属性 类型数据 相异度系数 加权属性
  • 简介:对于一变量非线性相关的面板数据,现有的基于线性算法的面板数据方法并不能准确地度量样本间的相似性,且结果的可解释性低。综合考虑变量非线性相关问题及结果可解释性问题,提出一种非线性面板数据方法,通过非线性核主成分算法实现对样本相似性的测度,并基于混合高斯模型进行样本概率,实证表明该方法的有效性及其对结果的可解释性有所提高。

  • 标签: 非线性 面板数据聚类 核主成分算法 混合高斯模型
  • 简介:搜索在计算机上是多种操作的基本运算,其主要目的是从大量数据当中找出所想要的部分,而一般数据的存放,常设有键值(Key)以利搜索,例如在数据库中,要取得数据一定要配合许多键值的使用,方能有效而快速地存取。

  • 标签: 搜索方法 聚类技术 计算机 数据库 键值 存取
  • 简介:云计算中的群集计算应用程序(例如MapReduce和面向用户的应用程序)具有应用程序级别的需求,因此需要有高级别的抽象来表示这些应用程序的需求.协(coflow)是一个网络级别的抽象,用来表达数据并行编程范例的通信要求.协使应用程序更容易地将其通信语义传达给网络,从而使网络能够优化常见的通信模式.然而,现有的协识别方案依赖于修改应用程序,并不适用于多数实际场景.提出了基于增量的协识别策略,采用增量算法来执行快速、透明的协识别,实现了协识别的自动化,同时无需对应用进行修改.仿真实验结果显示,本文的识别算法具有超过90%的准确率,具有一定的鲁棒性.

  • 标签: 数据中心网络 协流 增量聚类
  • 简介:聚类分析是数据挖掘的一个重要的研究方向。本文在介绍了数据挖掘的基本概念之后,详细分析了常用的算法。最后,使用weka数据挖掘软件对K—means算法进行了实践,实验结果证明了K—means算法的有效性。

  • 标签: K-均值 聚类 有效性
  • 简介:轮廓线的变点识别是质量管理的研究热点之一,当前研究多以轮廓整体变化为识别对象,而对局部变化问题研究相对较少,且更少有在发现变异时间的同时能够寻找到变化区域在个体轮廓曲线上位置的系统方法。本文针对轮廓线局部变化识别问题,提出基于小波变换和聚类分析的方法。通过仿真性能评价,并与现有方法进行比较,结果显示本方法能够在更小的差异度检测出变化并准确定位变化区域。在文章的末尾,本文采用了一个实例对该方法的效果进行验证。

  • 标签: 变点识别 聚类分析 小波变换 轮廓线 统计过程控制
  • 简介:不确定性是数据的固有属性,在实验过程中由于仪器的限制或者收集过程中的误差都会造成数据的不确定性。数据挖掘算法在处理不确定数据的相关研究尚处于初级阶段,不确定数据是不确定数据研究中的典型问题,已有一些算法被应用到处理不确定数据,如UK-means等。无论是UK-means还是FDBSCAN都仅仅考虑了不确定数据之间的几何距离,而没有考虑到不确定数据之间的概率分布差异。然而,概率分布特征是不确定数据的本质特征,考虑不确定数据的概率分布能够更准确度量不确定数据间的距离,从而提高算法的性能,本文使用核函数度量不确定数据中心的距离,然后使用UK-means算法不确定数据,通过大量实验验证了本文提出的距离函数优于使用欧式距离期望的UK-means方法。

  • 标签: 不确定数据 概率密度函数 聚类 UK-means
  • 简介:针对网络学习者及其对案例访问的模糊性提出采用模糊的方法对学习者和案例进行聚类分析。在算法中,以各学习者对案例的访问次数、时间、学习效率等刻画学习者对案例的关注程度建立模糊相似矩阵,再由平方法求出模糊等价矩阵,然后进行聚类分析。通过具体实例阐述算法的计算过程,证明算法实现的可行性和有效性。

  • 标签: WEB日志挖掘 模糊聚类 模糊集 模糊等价矩阵
  • 简介:摘要:如今中国汽车销量已经跃居世界第一,而且还在不断增加。随着汽车行业的巨大需求和通信网络技术的不断发展,我们已经进入了车联网时代。车联网是将汽车与互联网连接起来,实现与汽车的交互控制,包括控制汽车行驶、汽车定位、与路侧设备通信等多种功能。基于此,下面讨论基于数据降维和的车联网数据分析的应用,以供参考。

  • 标签: 数据降维与聚类 车联网数据 分析应用
  • 简介:摘要在绝大多数情况下,电力变压器油色谱的在线监测数据是正常的,近似故障或者故障数据是非常少的,数据样本的不平衡就为电力变压器故障诊断增加了难度。基于尽可能早的发现电力变压器内部的发展程度及其潜伏性故障的目的,通过利用ISODATA算法对其油中气成分数据进行聚类分析。实践表明,该算法的具有较强的实用价值。

  • 标签:
  • 简介:针对高维空间数据,提出一种基于超图模式的数据方法,即把给定的高维空间中的原始数据映射到一个带权超图中,再对超图应用算法对顶点进行划分,从而得到相应数据项的.

  • 标签: 数据挖掘 数据聚类 超图 自底向上
  • 简介:摘要技术作为当前应用最广泛的静态数据分析技术之一,在多个领域发挥着重要作用,特别是在金融投资方面。俗话说物以类聚、人以群分,就是相似的元素,就是把相似的元素聚在一起,相当于一个集合。聚类分析技术就是研究分类问题的一种统计分析方法。在进行金融数据分析时,我们经常会使用到技术,并且分析结果意义重大,例如对股票的涨势、收益进行分析,能够为投资者提供投资范围和价值,帮助投资者把握股票的整体特点,为投资者的投资决策提供依据。本文主要讨论在是技术在金融数据分析中的应用。

  • 标签: 聚类技术 金融 数据分析
  • 简介:针对采用经典划分思想的算法以一个点来代表的局限,提出一种基于泛化中心的分类属性数据算法。该算法通过定义包含多个点的泛化中心来代表,能够体现出数据分布特征,并进一步提出泛化中心距离及间距离度量的新方法,给出泛化中心的确定方法及基于泛化中心进行对象到分配的策略,一般只需一次划分迭代就能得到最终结果。将泛化中心算法应用到四个基准数据集,并与著名的划分算法K-modes及其两种改进算法进行比较,结果表明泛化中心算法正确率更高,迭代次数更少,是有效可行的。

  • 标签: 聚类算法 泛化中心 分类属性 K-modes
  • 简介:摘要随着经济的快速发展,电能需求量越来越大,高效调节系统负荷的能力成为供电公司日趋关注的重点。用户的用电行为对于平衡供求关系,确保电力系统的可靠性具有重要意义。以用电信息采集系统中配变负荷数据为基础,结合K-Means聚类分析方法,对乡镇区域公变负荷曲线进行,研究地区电力用户负荷模式,为公司配电网运维决策提供科学的参考依据,对优化地区电网建设及规划具有极其重要的意义。

  • 标签: 聚类 实时负荷 用电信息采集