龙源期刊网 http://www.qikan.com.cn
基于访问热点预测的油田大数据负载均衡研究
作者:魏学锋
来源:《电脑知识与技术》2020年第12期
摘要:油田生产数据量巨大,而大数据在生产网络中反复流转给整个系统的稳定与性能带来了极大的压力。为解决这一问题,本文提出了基于访问热点预测的油田大数据负载均衡算法,该算法基于就近访问原则,通过测算大数据块在存储网络中的访问热点,将其部署在对应的服务器上,从而避免其反复在生产网络中生灭与流转。实地测试表明:该算法具有良好的存储负载均衡效能,能够节约大量的流量与存储开支,具有一定的实用价值。 关键词:大数据系统;负载均衡;访问热点;预测 中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2020)12-0014-02
油田生产中的工况数据量巨大,因而相关企业与单位均采用了分布式大数据存储系统;此类系统可以将海量数据分散存储于多台服务器,并实现统一的管理与访问,其透明的服务模式受到了一致的好评。但实际应用中发现,目前的大数据存储系统在存储负载均衡方面还有所欠缺,集中表现在数据经常被部署在距离访问节点较远的存储服务器中,访问时需要通过多跳接力才能完成数据的获取,占用了过多的网络流量与多个节点的存储空间。针对这一问题,国内外研究人员提出了多种解决思路与方案,例如:李彦等人在大数据城市交通调度系统中提出了就近存储的解决思路。许道强等人基于异构分布式存储环境,提出了一种面向标签化管理的大数据调度算法,取得了一定的成效。李玮瑶基于存储资源感知理论,提出了一种大数据处理任务调度算法,并对它进行了仿真测试,证明了其有效性。董春涛等人针对Hadoop YARN大数据系统中的实际问题,研究了分布式存储一计算优化模式及其存储资源调度算法,证明了就近存储的可行性。刘鑫研究了一种分布式数据库环境的海量数据服务器间迁移算法,证明通过访问记录等方式能够有效地平衡数据存储,并降低NAS系统中的流量。刘汪根等人设计了一种云环境中的分布式大数据感知与存储资源调度算法,并在实际应用中验证了其有效性。钟健等人基于物联网环境研究了大数据的分级分段调度与流转算法;翁利国等人基于Spark数据处理平台研究了动态的存储资源分配与调度算法,并在通用Hadoop系统中对其进行了验证。而上述成果在大港油田的实际应用中暴露出访问热点预测精度差、存储与流量负载均衡效果不佳等问题,因此本研究提出了一种基于访问热点预测的油田大数据负载均衡算法,并取得了一定的应用效果。