1.1 大数据深度学习平台
1.1.1 图文介绍
大数据深度学习平台(AI-DPS)是中智讯公司基于容器云和大数据技术开发的一款面向人工智能相关专业师生,进行机器学习和深度学习算法建模实验的分布式计算资源集群管理平台。
大数据深度学习平台(AI-DPS)采用容器云技术,部署在通用的GPU/CPU服务器集群上,满足数十人或上百人同时运行机器学习和深度学习算法构建和模型训练任务。同时该平台还提供用户管理、容器镜像管理、集群硬件监控和任务运行监控等功能。
? 硬件资源:
AI算力服务平台的硬件资源包括CPU+GPU服务器集群、网络存储单元和高性能网络
- 1 -
单元构成,学校可以根据自身的教学和科研需求,灵活搭配构建计算平台的硬件集群。
? 算力平台:
AI算力服务平台基于容器云和大数据技术,在硬件服务器集群基础上,提供云计算管理、大数据管理和深度学习管理三大平台服务,具体服务内容如下:
云计算管理平台:提供AI算力平台所有计算资源的自动化管理,负责计算资源的调度和伸缩性控制,确保上层大数据和深度学习集群的稳定运行。 大数据管理平台:基于云计算管理平台,提供大数据集群管理和服务,包括Hadoop和Spark大数据集群,提供分布式文件系统HDFS和MapReduce分布式运算环境。
深度学习管理平台:基于云计算管理平台,提供并行的深度学习算法建模任务运行环境,支持TensorFlow、PyTorch、Caffe和CNTK等深度学习框架。
? 大数据处理工具:
人工智能算法模型的建立需要海量的数据基础,为了满足教学人员搜集和处理海量数据的实际需求,AI算力服务平台提供了一系列的数据操作工具,包括数据采集爬取工具、数据模拟生成工具、数据标注工具和数据可视化工具。具体介绍如下:
数据爬取工具:提供分布式的多线程互联网数据采集和下载功能,根据指定的URL,快速爬取海量的互联网数据。
数据模拟工具:按照数据生成的配置,快速生成千万级以上的模拟数据,数据生成配置包括数据可选序列、数据概率分布、数据上下限、数据随机化规则等,通过这些数据生成配置,数据模拟工具可以自动生成所需要的海量随机化模拟数据。
数据标注工具:为了解决人工智能算法建模缺乏标注数据集的问题,AI算力服务平
台还提供了数据标注工具,可以对图像、视频、文本等数据进行标注,提供布点、划线、拉框和文字标注等操作,适合于图像分割、目标检测、图像分类、视频跟踪等机器视觉算法建模的数据标注。
数据可视化工具:数据可视化工具提供了强大的数据挖掘分析和可视化展现能力,包括OLAP分析、地理位置分析,关联分析和社交网络分析等功能,提供散点图、柱图、饼图、气泡图、雷达图等丰富的数据图表可视化展现方式,用户可以快速生成各种丰富的数据统计报表,并导出为WORD、EXCEL、PDF等文档格式。
1.1.2 产品参数
设备部件 参数指标 1)深度学习集群管理平台完全基于容器云架构,所有的管理平台服务和处理任务均在容器中运行,提高平台硬件资源利用效率; 2)提供英伟达GPU显卡深度学习训练容器,内置多种常见的英伟达GPU显卡驱动+CUDA工具集以及cuDNN深度神经网络加速包,支持英伟达GPU服务器集群的容器化部署; 3)支持TensorFlow、PyTorch、Caffe、CNTK、XGBoost、MXNet、Scikit-Learn等深度学习框架的处理任务运行; 4)提供CPU+GPU服务器集群的硬件资源监控功能,包括CPU、GPU、内存、磁盘IO、网络等设备的实时监控; 5)支持服务器集群在线增加和减少服务器节点,并重新配置和迁移相关平台服务到不同的服务器节点; AI服务器集群 6)提供深度学习处理任务的在线调试、错误报警、日志管理、性能监测功能; 7)提供大数据处理平台功能,支持大数据文件系统HDFS和分布式任务调度框架YARN,深度学习任务可以无缝读写大数据文件系统HDFS;提供Spark大数据处理框架容器,支持Spark大数据处理任务的分布式运行; 8)提供用户权限管理功能,管理员可以注册平台用户,并分配给用户不同的虚拟集群,支持不同用户之间任务和数据的隔离; 9)提供用户资源申请自动审核和仲裁功能,管理平台根据用户申请的计算资源份额,结合集群现有剩余计算资源,自动分配相应的计算资源份额,确保用户任务的运行; 10)提供Visual Studio开发工具集成插件,通过Visual Studio Coder,用户可以远程提交部署和监控深度学习处理任务。 1)提供机器视觉相关的AI深度学习案例资源包,包括基于卷积神经网络(CNN)的猫狗分类、手势识别、车牌识别、光学字符识别、目标检AI深度学习平台资源包 测、焰火识别等; 2)提供自然语言处理相关的AI深度学习案例资源包,包括基于循环神经网络(RNN)和长短期记忆神经网络(LSTM)的文本分类、文本摘要、词向量、文本情感分析等;