简介:摘要: 现如今,人们的生活质量在不断提高,对于电力的需求在不断加大, 针对电力大数据流的异常检测问题,该文将流数据聚类算法与电力大数据相结合,针对现有流数据聚类算法不易存储全部数据、断电数据易丢失等问题,以及流数据聚类算法对于离线阶段聚类算法实时应答的要求,从数据的完整性、安全性以及流数据聚类算法的低时间复杂度的角度出发,对 CluStream 流数据聚类算法进行改进,提出流式 K-means 聚类算法。对在线阶段,使用 Redis 集群进行流数据的缓冲,并设计节点时间衰减策略,增大心跳消息中有效消息所占比例;对离线阶段聚类算法进行优化,使用最佳距离法确定初始聚类中心,减少迭代次数;最后,使用所提出的流式 K-means 聚类算法进行用户用电异常行为检测,实验结果表明,该算法能够很好的发现用户用电异常行为。
简介:提出了一种新的多数据流聚类算法.该算法可以有效地对有相似行为但存在一定时间延迟的多数据流进行聚类.算法采用自回归模型技术度量数据流间的延迟相关,利用频谱估计来抽取数据流的特征.每一个数据流用其谱分量的和来表示,从而来计算每对数据流间的相关关系.每个谱分量用振幅、相位、衰减率、频率4个参数来描述.算法计算谱分量对之间的ε-延时相关关系,并以此为基础来得到聚类分析中数据流间距离的度量.此外,算法采用滑动窗口技术对多数据流进行聚类,实时地得出聚类结果且动态地调节聚类的个数.在人工数据集和实际数据集上的实验结果表明,所提出的算法比其他类似的算法具有更快的速度和更好的聚类效果.
简介:摘要本文在将数值型数据标准化的基础上,将分类数据细分为二元数据和类型数据,并用相异度系数距离计算分类数据之间的距离,并且赋予二元和类型数据相应的权重,来改进k-prototypes聚类算法,使该算法满足不同要求的混合属性数据聚类,最后通过C#语言,在ArcEngine2010版本上实现。
简介:云计算中的群集计算应用程序(例如MapReduce和面向用户的应用程序)具有应用程序级别的需求,因此需要有高级别的抽象来表示这些应用程序的需求.协流(coflow)是一个网络级别的抽象,用来表达数据并行编程范例的通信要求.协流使应用程序更容易地将其通信语义传达给网络,从而使网络能够优化常见的通信模式.然而,现有的协流识别方案依赖于修改应用程序,并不适用于多数实际场景.提出了基于增量聚类的协流识别策略,采用增量聚类算法来执行快速、透明的协流识别,实现了协流识别的自动化,同时无需对应用进行修改.仿真实验结果显示,本文的识别算法具有超过90%的准确率,具有一定的鲁棒性.
简介:不确定性是数据的固有属性,在实验过程中由于仪器的限制或者收集过程中的误差都会造成数据的不确定性。数据挖掘算法在处理不确定数据的相关研究尚处于初级阶段,不确定数据聚类是不确定数据研究中的典型问题,已有一些聚类算法被应用到处理不确定数据,如UK-means等。无论是UK-means还是FDBSCAN都仅仅考虑了不确定数据之间的几何距离,而没有考虑到不确定数据之间的概率分布差异。然而,概率分布特征是不确定数据的本质特征,考虑不确定数据的概率分布能够更准确度量不确定数据间的距离,从而提高聚类算法的性能,本文使用核函数度量不确定数据与类中心的距离,然后使用UK-means算法聚类不确定数据,通过大量实验验证了本文提出的距离函数优于使用欧式距离期望的UK-means方法。
简介:摘要在绝大多数情况下,电力变压器油色谱的在线监测数据是正常的,近似故障或者故障类数据是非常少的,数据样本的不平衡就为电力变压器故障诊断增加了难度。基于尽可能早的发现电力变压器内部的发展程度及其潜伏性故障的目的,通过利用ISODATA算法对其油中气成分数据进行聚类分析。实践表明,该算法的具有较强的实用价值。