基于SparkR的用户用电行为分析

(整期优先)网络出版时间:2017-05-15
/ 1
为了协助供电公司对用电客户的行为进行准确描述,进一步指导发电端合理、有效地调整发电策略,提出了一种基于SparkR的并行化K-means聚类算法对台区用电行为特性和用电负荷特性进行分类和分析的方法。文章通过提取南通市供电公司全量台区的用电数据,进行一系列清洗、归一化等处理后,依据台区的用电负荷曲线特性,利用R语言平台和Spark计算引擎实现K-means的并行化处理,对台区进行分类,最终得到4类不同用户及其用电特性,并结合地市的地域特性针对不同类型的负荷曲线进行了验证及分析。对典型用户的信息核验与验证结果表明,文章所提方法聚类分析结果的准确率可达95%以上。