China's Industrial Market Research and Prospect Forecast Report(2024-2025) (专业、精准、高效,助力企业决策)
2024年版中国大数据应用行业市
场调研分析报告(部分内容)
Analysis
2024年度版
1
大数据产业链解析
一、大数据的生态系统
1、大数据的高效深度分析需要专用化的系统
在应用数据快速增长的背景下,为了降低成本获得更好的能效,大数据系统需要逐渐摆脱传统的通用技术体系,趋向专用化的架构和处理技术。这方面,国内百度、阿里巴巴和腾讯三大互联网巨头做出了尝试并取得了很好的效果。众所周知,百度的大数据典型应用是中文搜索,阿里巴巴的大数据典型应用是基于交易日志分析的数据服务,腾讯的大数据典型应用是图片数据存储和基于用户行为的广告实时推荐。百度2013年底成立专门的大数据部门,旨在深度挖掘大数据的价值。阿里巴巴已将不同业务部门的大数据技术整合在一起为数据产品提供统一的服务。腾讯的数据平台部正在将全公司的数据纳入统一管理平台。阿里巴巴在技术上与开源社区结合得最为紧密;腾讯大数据目前正在向开源技术靠拢;百度在技术层面偏好自行研发,包括软硬件定制化方案也是最先投入实用。技术上,他们的共同之处是,不再依赖传统的IOE,而基于开源系统(如Hadoop等)开发面向典型应用的大规模、高通量、低成本、强扩展的专用化系统。
2、大数据处理架构多样化模式并存
当前,克隆了Google的GFS和Map Reduce的Apache Hadoop自2008年以来逐渐被互联网企业所广泛接纳,并成为大数据处理领域的事实标准。但2013年出现的Spark作为一匹黑马终结了这一神话,大数据技术不再一家独大。由于应用不同导致Hadoop一套软件系统不可能满足所有需求,在全面兼容Hadoop的基础上,Spark通过更多的利用内存处理大幅提高系统性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Shark等的出现并不是取代Hadoop,而是扩大了大数据技术的生态环境,促使生态环境向良性化和完整化发展。今后在非易失存储层面、网络通信层面、易失存储层面和计算框架层面还会出现更多、更好和更专用化的软件系统。
3、实时计算逐步受到业界关注
Google于2010年推出了Dremel,引领业界向实时计算迈进。实时计算是针对Map Reduce这种批量计算的性能问题提出的,可分为流式计算和交互式分析计算两种模式。在大数据背景下,流式计算源于服务器日志的实时采集,如Facebook开源的Scribe是分布式日志收集系统,Apache Flume是类似的系统。Apache Kafka是高吞吐率的分布式消息系统,特点是高通量和容错。Storm是容错的分布式实时计算系统,可以可靠的处理流式数据并进行实时处理,单机性能可达到百万记录每秒。Storm可集成Apache Kafka作为其队列系统。作为批量计算的补充,交互式分析计算的目标是将PB
2
级数据的处理时间缩短到秒级。Apache Drill是开源的Dremel实现,虽已有应用但尚不成熟。由Cloudera主导的Impala也参照Dremel实现,同时还参考了MPP的设计思想,目前已经接近实用阶段。Horton works主导开发了TEZ/Stinger,TEZ是运行在YARN(Hadoop2.0的资源管理框架)上的DAG计算框架,而Stinger是下一代的Hive。2013年底,由Facebook开源的Presto分布式SQL查询引擎可对250PB以上的数据进行交互式分析,比Hive的性能高出10倍。类似的Shark是Spark上的SQL执行引擎,得益于Shark的列存储和Spark的内存处理等特性,Shark号称可以比Hive的性能提高100倍。
二、大数据产业的概念
大数据产业是指一切与大数据的产生与集聚、组织与管理、分析与发现、应用与服务相关的所有活动的集合。主要包括三个方面:(1)用以搭建大数据平台、实现大数据组织与管理、分析与发现的相关IT基础设施与软件的销售和租赁活动。(2)大数据平台的运维与管理服务,系统集成、数据安全、云存储等解决方案与相关咨询服务。(3)与大数据应用相关的数据出售与租赁服务、分析与预测服务、决策支持服务、数据共享平台、数据分析平台等。大数据产业链按照数据价值实现流程包括数据生产与集聚层、数据组织与管理层、数据分析与发现层、数据应用与服务层。
三、大数据产业链构成
1、数据产生与集聚层
大数据主要来源于伴随着社会信息化、企业信息化、平安城市、智慧城市、社交网络、电子商务等不断发展,以及云计算、物联网、移动互联网等新一代信息技术广泛应用而不断产生的交易数据、交互数据与传感数据。数据的产生与集聚层包括社会管理信息系统、企业ERP系统、在线交易系统、视频监控设备、传感设备、GPS设备、移动智能终端、光传输、移动通讯、网络传输等数据生成、采集、传输的系统与设备。涉及到政府机构,互联网、金融、电信、交通、能源、零售、制造等行业龙头,他们占据大数据产业链的上游,对数据的掌控能够带来对市场的支配和巨大的经济回报。
2、数据组织与管理层
数据组织与管理层是指能支撑大数据的组织与管理的所有活动集合。数据组织与管理层是对大数据进行处理分析并发现价值的必备基础。主要包含:(1)分布式文件系统、数据库、数据仓库、数据转换工具等软件销售与租赁,(2)支撑数据组织与管理的服务器、存储设备、网络设备、数据中心附属设备等IT基础设施硬件销售与租赁,(3)支撑数据组织与管理的平台规划咨询、系统集成、数据中心运营管理、云存储等服务。
3
3、数据分析与发现层
数据分析与发现层是指能支撑大数据的处理分析并挖掘数据价值的所有活动集合。数据分析与发现层是大数据从量变到质变,完成价值飞跃的关键环节。主要包含:(1)数据统计、内容/知识管理、数据挖掘、商务智能、人工智能、语义分析、数据可视化等软件销售与租赁。(2)支撑数据分析与发现的嵌入式芯片、服务器、高性能计算设备等IT基础设施硬件销售与租赁。(3)支撑数据分析与发现的计算平台集成、数据中心运营管理、弹性运算能力租赁等服务。 4、数据应用与服务层
数据应用与服务层是指通过数据出售与租赁、分析与预测服务、决策支持服务、数据共享平台、数据分析平台等商业模式为最终用户提供原始数据、数据价值、数据能力的产业集合,还包括支撑数据分析与共享平台的IT基础设施等硬件销售与租赁、系统集成、运营管理服务。
4