基于机器学习的日用气量预测及影响因素分析

由天下分享时间：2024/11/13 11:45:43 加入收藏我要投稿点赞

黄建安1，金亚东2，杨谈3

【摘要】基于物联网智能抄表技术获取的准确的居民日用气数据，采用机器学习方法实现居民日用气量的预测与影响因素评价。在采用LSTM模型对居民日用气量进行预测时，分别进行无特征预测(在预测过程中，不添加特征值)、特征预测，特征预测的精度比较高。在对居民日用气量的影响因素进行评价时，采用XGBoost模型，主要考虑小区外部特征(地理位置、物业费价格、容积率、房价、建造时间、绿化率、交通情况、教育特征)的影响，地理位置、物业费价格、容积率、房价、建造时间、绿化率的重要性靠前，其他小区外部特征的重要性不明显。

【期刊名称】《煤气与热力》【年(卷),期】2019(039)009 【总页数】4

【关键词】居民日用气量预测；机器学习；影响因素分析；LSTM模型；XGBoost模型

1 研究现状、存在问题及研究内容

1.1 国内外研究现状

国外对燃气负荷的预测模型多样，包括Hubbert模型[1]、统计模型[2-3]、时间序列法[4]、灰色系统法[5-7]、专家系统法[8]等，分析时采用的数据量也大小不一[9-11]。

在国内燃气负荷预测领域，苗艳姝[12]在对燃气负荷预测方法研究中，介绍了众多传统的预测理论(时间序列法、灰色系统法、神经网络法等)，并指出机器

学习也在燃气负荷预测领域有所应用。钱恒等人[13]提出了基于增量式随机森林的燃气负荷预测算法，针对大数据量设计了样本丢弃策略来控制内存空间，对上海市燃气负荷数据进行特征选择、提取并建模后，将模型应用于燃气负荷预测。舒漫等人[14]在城市天然气短期日需求量预测模型中，使用了最小二乘支持向量机方法进行预测，预测精度理想。 1.2 存在问题

① 数据来源真实性低。由于成本等原因，大量的计量装置较为传统，不具备在线计量的功能。数据的采集往往依靠人工抄表，准确性、实时性、可靠性不理想，可利用率也相当有限。

② 数据量少，粒度粗。对于数据量，大部分研究采用的数据量都比较小，涉及不到大数据的概念，人工智能和机器学习更无从谈起。

在时间粒度上，大部分数据以月、年为最小粒度，时间频率不高，预测结果的可参考性不强。在空间粒度上，常见的研究数据以城市为级别，很多甚至以省为级别。基于这样过于宏观的数据，预测结果实际意义不大，而且精度不高。 1.3 研究内容

随着物联网技术的发展，燃气行业也迎来了数字化、智能化的转型之路，居民用气量也由以往采用人工抄表获得的单薄且准确性低的数据，逐渐向实时、准确且多维度(时间、空间维度)方向发展。2018年，北京燃气集团有限公司(以下简称北京燃气公司)开始实施燃气数字化项目，借助物联网智能抄表技术，获取了真实可靠的北京市居民日用气数据，在准确性、数据量和粒度上都有了质的进步。基于这些数据，本文采用机器学习方法实现居民日用气量的预测与影响因素评价。

2 基本流程

① 对原始数据进行预处理。将原始数据中的缺失值、粗大误差数据等采取必要的手段进行处理。缺失值的处理方法为：当某一用户日用气量在连续采集过程中有4个及以上连续测量值缺失时，使用填充的方法很可能歪曲缺失属性的真实值，应直接忽略缺失值。当某一用户日用气量在连续测量过程中连续缺失数据小于4个时，可使用线性插值法进行填充。对于粗大误差数据采用拉依达准则对粗大误差数据进行处理[15]：用3倍测量数据的标准偏差作为取舍依据，并且根据随机误差一般符合正态分布原则进行判断。

② 利用特征工程的方法对数据进行特征构建、提取、选择和评估[16]。特征工程处理是在进行模型学习前极为重要的一个步骤，对于特征的处理及准确选取在很大程度上影响了模型的预测结果。

③ 对于居民日用气量的预测，采取有监督学习的方法。有监督学习的方法是指在已知输入、输出的情况下，学习得到一个模型，然后使用学习得到的模型对预测对象进行预测并不断优化。对于居民日用气量的影响因素评价，采取无监督学习方法，根据各小区单户日用气量特征对小区进行聚类，并将聚类结果作为各小区的标签。然后提取各小区的外部特征(地理位置、物业费价格、容积率等)，利用机器学习模型对小区外部特征的重要性进行排序。

3 案例分析

3.1 居民日用气量的预测 ① 研究对象与数据处理

以北京市A小区(采用燃气采暖炉分户供暖)作为研究对象，对该小区居民日用气量进行采集与预测。采集期为2018年8月4日至11月18日，每日2:00