大数据平台架构-巨衫

由天下分享时间：2024/9/11 2:15:43 加入收藏我要投稿点赞

精选文库

方便快捷扩容作为设计标准，用户在系统性能不足时，通过快速扩展集群，提升系统整体性能。

SequoiaDB在线扩容图

1.1.3.5 本地化服务？（国产；本地企业；服务和维护能力）

1.1.4 数据接口（这里的内容，与“数据采集”是啥关系？）

（下面的内容，是数据采集的工具吗？）

SequoiaDB作为分布式数据库，能采集的大量数据进行分布式存储，并与众多数据处理工具进行对接。以下为推荐的数据处理工具。（）工具 kafka flume 作用分布式消息系统，它可以实现水平扩展和高吞吐量 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统 Kestrel 开源的消息中间件，高性能，小巧，持久存储及可靠获取 Kettle(ETL) 实现数据的交换，即数据的ETL操作 --

精选文库

kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群机来提供实时的消费。

Flume最早是Cloudera提供的日志收集系统，目前是Apache下的一个孵化项目，Flume支持在日志系统中定制各类数据发送方，用于收集数据。Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力 Flume提供了从console（控制台）、RPC（Thrift-RPC）、text（文件）、tail（UNIX tail）、syslog（syslog日志系统，支持TCP和UDP等2种模式），exec（命令执行）等数据源上收集数据的能力。

Kestrel是twitter的开发团队用scala语言写的开源消息中间件，可以将消息持久存储到磁盘上，也可以将消息存储于内存中，但是不论保存磁盘还是内存中都可以设置消息存储的超期时间长短。其具备了以下特点：快速、小巧、持久性、可靠性。除此之外kestrel还具备了很多让人眼前一亮的特性：支持多请求协议、FanoutQueues( 队列分发 ) 、集群支持、灵活的配置。

Kettle是Pentaho的一个组件，主要用于数据库间的数据迁移,数据抽取高效稳定。Kettle 中文名称叫水壶，该项目希望把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多。

1.1.5 数据采集（迁移？）

在项目中，面对旧系统升级改造、数据需要从原有系统的Oracle数据库中迁移到新系统的SequoiaDB上。

精选文库

SequoiaDB的基本安装包中，已经为用户提供了功能完善的数据迁移工具—sdbimprt ，用户可以将数据从Oracle 数据库中，导出到一个CSV格式的文件上，再使用sdbimprt 将CSV 文件导入到SequoiaDB中。

有一些系统，由于历史遗留的原因，整个系统的架构，并能单独使用一款数据库产品，而是要多个数据库产品同时共存，并且要求各个数据库都能互相交换数据。针对这种场景，用户可以自己按照业务需求，使用SequoiaDB提供的API接口，开发一套数据交换的工具。SequoiaDB除了提供API接口外，还能通过扩展PostgreSQL和Spark SQL，为用户直接提供JDBC 服务，用户也可以选择使用SQL语句，将数据写入到数据库中。

另外，SequoiaDB也为用户提供一种基于JDBC服务的数据交换工具，用户可以在此工具上，编写不同的SQL语句，从一个数据库中抽取数据导入到SequoiaDB中。

在项目中，除了需要处理、存储结构话数据，还需要对例如影像、语音等类型的文件进行存储管理。

SequoiaDB除了可以存储结构化数据外，还为用户提供了双存储引擎的功能，用户可以直接使用SequoiaDB存储海量的非结构化数据。使用这种双存储引擎的方法，可以让应用系统整体架构更加简单，减少后期的运维成本，同时由于节省了高端存储的硬件成本，对于降低整个系统的建设成本也有非常大的帮助。

-- 13

精选文库

1.1.6 数据存储

1) SequoiaDB与云平台

现在，越来越多的企业改变以往思路，不再为各个部门、下级机构统一准备机房、购买硬件、部署运行环境来提供服务，而是将系统运行的环境部署在云端，随着业务逐渐增多，数据慢慢增长，在需要性能提升、存储容量扩容情况下，直接在云端添加新的硬件资源，并且，SequoiaEnterprise企业版本操作性强，扩容步骤简单，管理人员可以通过图形化界面直接进行集群的水平扩容。

企业使用云数据库，可以像最原始的部署方式，由用户直接向云服务提供商申请资源，然后用户自行在租赁的环境里部署云数据库服务。

精选文库

这种传统的的云数据库搭建模式，由于需要用户自行在云端部署数据库，维护数据库整个集群环境，对于运维人员来说，当云数据库集群规模增长到某个级别，运维的成本就会大大增加。

目前，SequoiaDB 数据库目前已经与亚马逊云、阿里云、腾讯云有深度的合作。SequoiaDB 也向企业用户提供一站式的云数据库服务，用户无需自己在云提供商处申请资源，自行部署云数据库，而是直接面向云数据库提供商SequoiaDB 申请资源。这种新型的云数据库服务，能够大大降低政府电子政务公共平台未来的运维成本，而且未来对于资源的调度，可以做到随需扩容。

2) 数据分布式存储

SequoiaDB作为分布式数据库，天生就能对海量数据分散到整个集群中。

SequoiaDB在管理海量数据时，为用户提供多种数据切分方式 – 数据范围切分、Hash切分、数据百分比切分，用户可以根据自己的使用场景，选择不同