数据预处理节点集:支持行列过滤、合并、拓展、关联、替换、行列转换、计算、缺失值填充、标准化、编码、行列采样、切片、排序、聚合计算等,支持通过Python脚本,将部分上述数据预处理操作保存成标准的PMML格式。
数据可视化节点集:支持箱线图、柱形图、热力图、地图、散点图、数据上色、散布矩阵图、线图、毕达哥拉斯树图、文氏图、筛图、决策树图、列线图、地图、提升图等多种数据可视化展现手段。
数据挖掘节点集:支持模型加载和保存,优化算法支持随机梯度下降法、监督模型支持有:CN2规则、kNN、决策树、随机森林、SVM、线性回归、逻辑回归、朴素贝叶斯、AdaBoost、神经网络等,无监督模型支持有:PCA、关联分析、k-Means、MDS、距离图、距离矩阵、层次聚类、流形学习、关联分析、频繁集挖掘等,支持模型评估指标:ROC曲线、混淆矩阵、标准曲线,可以通关Python脚本拓展模块实现更多的模型。
文本分析节点集:文本接入支持NY Times、Twitter、Wikipedia,支持文本全集查看,支持次袋构建、主题模型、语义增强、词云、地图等功能。
图网络节点:支持加载、浏览、生成、分析、聚类、计算等图模型操作。 生物分析节点集:支持生物数据加载、分析、基因分析选取丰富、展示等功能。 正极大数据分析挖掘系统支持可视化操作,通过拖拉拽即可构建和连接数据加载、分析、挖掘、检验、可视化等节点搭建数据挖掘流程,节点有状态显示,支持启动和中断运行中的节点。
正极大数据分析挖掘系统支持从文档(Excel、txt、CSV)、传统数据库(PostgreSQL和SQL Server)或网址(URL)导入数据,数据类型支持结构化数据和非结构化生物、文本等数据。
- 2 -
正极大数据分析挖掘系统支持装有Python2.7/3.5及相关模块(NumPy, SciPy, Scikit Learn, PyQt等)的Linux/macOS/Windows平台。
系统支持主流的数据库(如:Oracle、SQL Server、Mysql); 支持可视化分析及结果导出(多格式)。 三、基于大数据系统的大数据应用案例
正极通过在大数据行业多年的积累,成功案例涉及多个行业,包含电商,物流快递,医疗,金融风控及政务等领域。正极将积累的大数据技术整理为系统的教学课程,包含2门大数据教学课程,配套教材,授课讲义课件,以及上机实验和操作指导书等,包含大数据概论介绍、大数据行业应用介绍、分布式文件系统HDFS原理及基本操作使用、MapReduce编程实战、Yarn/Mesos简介及架构、NoSQL数据库介绍、Hase管理与使用、Hive数据处理与分析、Zookeeper概念及体系架构、Spark编程实战、RHadoop/SparkR的使用、Sqoop基本操作、大数据挖掘分析模型原理及应用、数据可视化工具实践等门大数据课程与案例课程等,帮助学校快速建立学科,方便学生理解和学习大数据技术及大数据处理流程。 四、系统其他功能支持
1. 性能测试报告(正极大数据系统可以提供提供包含以下内容的性能测试报告,中标后合同签订前采购方可以对我公司的证测试报告的真实性进行验证)
2. 正极大数据系统的健康大数据系统,多用户同时使用是经常发生的场景,可以保证多用户同时使用和保障每个用户具有一定的计算性能。对于性能,正极大数据系统的各个组件都达到日常使用需求的标准。
- 2 -
3. 正极大数据系统可以提供4个数据节点的集群性能指标的详细测试报告:包括测试集群的硬件配置信息、服务组件名称、测试工具和测试结果。每个服务组件可以运行下表推荐的测试并收集指标数据,并生成测试报告。
4. 正极大数据系统对集群硬件配置的(对搭载的硬件标准如下) 硬件类别具体如下:
数据节点 CPU: 2颗 8 核 16 线程 CPU以上,内存128GB以上,硬盘8 块1T 7200RPM SATA数据盘以上
网络设备标准: 四口千兆绑定或万兆交换网络。
- 2 -
三、每种货物详细的供货清单表及备品备件清单表(货物名称、品牌、规格、型号、制造商名称、产地、数量)
供货清单表
序号 品牌 规格 型号 制造商名称 山东正极信V1.0 息系统技术有限公司 山东济南 1套 产地 数量 1 正极 正极大数据系统
备注:纯软件项目,不涉及备品备件
- 35 -
四、所报货物的实验报告、鉴定报告、制造标准、彩页等详
细资料。
4-1大数据应用管理平台
4-1-1平台简介
正极大数据系统 V1.0作为海量数据存储系统,通过将关系型数据库和文件系统中的数据导入到大数据挖掘平台中,实现数据的导入、清洗、转化、分层的ETL流程后,集中存储海量非结构化数据和结构化数据;在存储数据的基础上,提供统一的能力开放接口、数据产品服务能力的封装、基础资源的管理,并提供定制化的算法开发、数据展示等服务。
平台支持安装于不少于3个数据节点的大数据集群,且面向使用的用户无上限设置。
系统组件架构图如下:
- 35 -