大数据平台框架选型分析
一、需求
城市大数据平台,第一是作为一个数据治理平台,核心需求是数据的存和取,然后因为海量数据、多数据类型的信息需要有丰硕的数据接入能力和数据标准化处置能力,有了技术能力就需要纵深挖掘附加价值更好的效劳,如信息统计、分析挖掘、全文检索等,考虑到面向的客户对象有的是上层的应用集成商,因此要考虑灵活的数据接口效劳来支撑。
二、平台产品业务流程
三、选型思路 必要技术组件效劳:
ETL > 非/关系数据仓储 > 大数据处置引擎 > 效劳和谐 > 分析BI > 平台监管
一、选型要求
1.需要知足咱们平台的几大核心功能需求,子功能不设局限性。如不知足全数,需要对未知足的其它核心功能的开放利用效劳支持
2.国内外资料及社区尽可能丰硕,包括组件效劳的成熟度流行度较高
3.需要对选型平台自身所包括的核心功能有较为深切的明白得,易用其API或基于源码开发 4.商业效劳性价比高,并有空间离开第三方商业技术效劳
5.一些非功能性需求的条件标准清楚,如承载的集群节点、处置数据量及平安机制等
二、选型需要考虑
简单性:亲自试用大数据套件。这也就意味着:安装它,将它连接到你的Hadoop安装,集成你的不同接口(文件、数据库、B2B等等),并最终建模、部署、执行一些大数据作业。自己来了解利用大数据套件的容易程度——仅让某个提供商的顾问来为你展现它是如何工作是远远不够的。亲自做一个概念验证。
普遍性:是不是该大数据套件支持普遍利用的开源标准——不只是Hadoop和它的生态系统,还有通过SOAP和REST web效劳的数据集成等等。它是不是开源,并能依照你的特定问题易于改变或扩展?是不是存在一个含有文档、论坛、博客和交流会的大社区?
特性:是不是支持所有需要的特性?Hadoop的发行版本(若是你已经利用了某一个)?你想要利用的Hadoop生态系统的所有部份?你想要集成的所有接口、技术、产品?请注意过量的特性可能会大大增加复杂性和费用。因此请查证你是不是真正需要一个超级重量级的解决方案。是不是你真的需要它的所有特性?
陷阱:请注意某些陷阱。某些大数据套件采纳数据驱动的付费方式(“数据税”),也确实是说,你得为自己处置的每一个数据行付费。因为咱们是在谈论大数据,因此这会变得超级昂贵。并非是所有的大数据套件都会生本钱地Apache Hadoop代码,通常要在每一个Hadoop集群的效劳器上安装一个私有引擎,而如此就会解除关于软件提供商的独立性。还要考虑你利用大数据套件真正想做的情形。某些解决方案仅支持将Hadoop用于ETL来填凑数据至数据仓库,而其他一些解决方案还提供了诸如后处置、转换或Hadoop集群上的大数据分析。ETL仅是Apache Hadoop和其生态系统的一种利用情形。
一、方案分析
成本 自建套件 hortonworks 100%开源 培训服务3k/人 授权支持100K 国内类exadoop TDW+fineBI 性能 单集群最大规模达到5600台,处理数据量可达百P级 功能 按需整合 HDFS和YARN数据管理 从各种引擎访问数据 根据策略加载和管理数据 身份验证、授权和数据保护