基于机器学习的日用气量预测及影响因素分析
黄建安1,金亚东2,杨 谈3
【摘 要】 基于物联网智能抄表技术获取的准确的居民日用气数据,采用机器学习方法实现居民日用气量的预测与影响因素评价。在采用LSTM模型对居民日用气量进行预测时,分别进行无特征预测(在预测过程中,不添加特征值)、特征预测,特征预测的精度比较高。在对居民日用气量的影响因素进行评价时,采用XGBoost模型,主要考虑小区外部特征(地理位置、物业费价格、容积率、房价、建造时间、绿化率、交通情况、教育特征)的影响,地理位置、物业费价格、容积率、房价、建造时间、绿化率的重要性靠前,其他小区外部特征的重要性不明显。
【期刊名称】《煤气与热力》 【年(卷),期】2019(039)009 【总页数】4
【关键词】 居民日用气量预测;机器学习;影响因素分析;LSTM模型;XGBoost模型
1 研究现状、存在问题及研究内容
1.1 国内外研究现状
国外对燃气负荷的预测模型多样,包括Hubbert模型[1]、统计模型[2-3]、时间序列法[4]、灰色系统法[5-7]、专家系统法[8]等,分析时采用的数据量也大小不一[9-11]。
在国内燃气负荷预测领域,苗艳姝[12]在对燃气负荷预测方法研究中,介绍了众多传统的预测理论(时间序列法、灰色系统法、神经网络法等),并指出机器
学习也在燃气负荷预测领域有所应用。钱恒等人[13]提出了基于增量式随机森林的燃气负荷预测算法,针对大数据量设计了样本丢弃策略来控制内存空间,对上海市燃气负荷数据进行特征选择、提取并建模后,将模型应用于燃气负荷预测。舒漫等人[14]在城市天然气短期日需求量预测模型中,使用了最小二乘支持向量机方法进行预测,预测精度理想。 1.2 存在问题
① 数据来源真实性低。由于成本等原因,大量的计量装置较为传统,不具备在线计量的功能。数据的采集往往依靠人工抄表,准确性、实时性、可靠性不理想,可利用率也相当有限。
② 数据量少,粒度粗。对于数据量,大部分研究采用的数据量都比较小,涉及不到大数据的概念,人工智能和机器学习更无从谈起。
在时间粒度上,大部分数据以月、年为最小粒度,时间频率不高,预测结果的可参考性不强。在空间粒度上,常见的研究数据以城市为级别,很多甚至以省为级别。基于这样过于宏观的数据,预测结果实际意义不大,而且精度不高。 1.3 研究内容
随着物联网技术的发展,燃气行业也迎来了数字化、智能化的转型之路,居民用气量也由以往采用人工抄表获得的单薄且准确性低的数据,逐渐向实时、准确且多维度(时间、空间维度)方向发展。2018年,北京燃气集团有限公司(以下简称北京燃气公司)开始实施燃气数字化项目,借助物联网智能抄表技术,获取了真实可靠的北京市居民日用气数据,在准确性、数据量和粒度上都有了质的进步。基于这些数据,本文采用机器学习方法实现居民日用气量的预测与影响因素评价。
2 基本流程
① 对原始数据进行预处理。将原始数据中的缺失值、粗大误差数据等采取必要的手段进行处理。缺失值的处理方法为:当某一用户日用气量在连续采集过程中有4个及以上连续测量值缺失时,使用填充的方法很可能歪曲缺失属性的真实值,应直接忽略缺失值。当某一用户日用气量在连续测量过程中连续缺失数据小于4个时,可使用线性插值法进行填充。对于粗大误差数据采用拉依达准则对粗大误差数据进行处理[15]:用3倍测量数据的标准偏差作为取舍依据,并且根据随机误差一般符合正态分布原则进行判断。
② 利用特征工程的方法对数据进行特征构建、提取、选择和评估[16]。特征工程处理是在进行模型学习前极为重要的一个步骤,对于特征的处理及准确选取在很大程度上影响了模型的预测结果。
③ 对于居民日用气量的预测,采取有监督学习的方法。有监督学习的方法是指在已知输入、输出的情况下,学习得到一个模型,然后使用学习得到的模型对预测对象进行预测并不断优化。对于居民日用气量的影响因素评价,采取无监督学习方法,根据各小区单户日用气量特征对小区进行聚类,并将聚类结果作为各小区的标签。然后提取各小区的外部特征(地理位置、物业费价格、容积率等),利用机器学习模型对小区外部特征的重要性进行排序。
3 案例分析
3.1 居民日用气量的预测 ① 研究对象与数据处理
以北京市A小区(采用燃气采暖炉分户供暖)作为研究对象,对该小区居民日用气量进行采集与预测。采集期为2018年8月4日至11月18日,每日2:00