基于机器学习的电网设备档案数据异常诊断研究

(整期优先)网络出版时间:2018-07-17
/ 1
为了对电网设备档案数据中无法提炼错误规则的数据问题进行自动诊断,提高数据质量,文章利用大数据机器学习技术,运用机器学习算法,对数据进行自动检测;基于Spark分布式内存计算,利用K-Means聚类算法对档案数据进行聚类训练,再对训练后数据进行分析和处理。试验证明,基于本方法论形成的自动诊断工具能够大幅降低在数据治理工作中的人力投入,减少工作量,降低工作成本,并且可以获得比人力筛查更详细更准确的结果。