龙源期刊网 http://www.qikan.com.cn
基于大数据的数据分析系统架构
作者:李超宇
来源:《中国新通信》2020年第01期
摘 要:随着“互联网+”时代的发展,人们已经从各种信息数据的使用和接收方变为数据的发送方,基于大数据的应用日渐成熟,各种行业类型的数据时刻都在产生着,基于大数据的应用系统就是在如此庞大的数据量的基础上建立的应用系统,系统应当具备强大的数据处理和分析能力,才能够在海量的数据当中寻求出有价值的数据,为行业发展提供洞察力和优化行业流程,为决策层提供精准决策,从而使得用户能够掌握庞大的数据信息资产。基于大数据的应用技术核心优势就是对有价值的数据进行处理和分析,本课题研究介绍了基于大数据应用技术的数据分析系统架构的实现过程。 关键词:大数据;数据分析;系统架构
在信息时代的今天,各个行业领域都有大量的数据,善于分析利用这些数据,能够为行业带来巨大的发展空间,甚至能够引起行业的变革,因此基于大数据的应用的关键技术就是数据分析的系统的架构。
基于大数据的应用的出现,给传统的数据分析系统架构带来了新的挑战,数据分析是隐藏在应用系统的背后,对于应用分析结果有举足轻重的作用,随着数据挖掘、探索等技术的发展,基于大数据的数据分析系统架构应该侧重解决传统数据分析的三个瓶颈问题:第一,分布式计算,分布式计算的设计思路是多个节点并行计算,强调的是数据本地化,数据尽可能少传输。第二,分布式存储,所谓分布式存储就是将一个大文件拆分为多个小文件分别存储到不同的主机,通过分片式管理技术对文件进行管理。第三,数据的检索和存储相结合,基于大数据的数据分析面临着海量的数据和多种数据类型,在不规范的数据中进行数据检索。 一、基于大数据的应用系统架构
在Hadoop体系的分布式应用中,基于大数据的数据分析应用架构已经和大数据信息架构互相结合,为各个行业领域在大数据的应用中带来了许多经济价值和数据信息资产,Hadoop体系采用云计算和分布式的应用技术,能够对大数据进行处理和分析,对未来大数据的信息中更大价值的数据源进行进一步的数据挖掘,会获得更大的数据潜在价值。 (一)Hadoop对日志数据处理
目前互联网站点的数量在呈指数级别增长,Web服务器会因为业务量的剧增而生成庞大的数据日志文件數据,其中包括了网址访问和业务数据流程处理的相关数据,这些日志文件数据