AI芯片技术的选型说明 - 图文

由天下分享时间：2025/2/26 16:37:08 加入收藏我要投稿点赞

AI芯片技术的选型说明

一、背景与意义

当前随着人工智能理论和技术的日益成熟，应用范围不断扩大，目前已广泛应用于计算机科学、金融贸易、医药、诊断、重工业、运输、远程通讯、在线和电话服务、法律、科学发现、玩具和游戏、音乐等诸多方面。

算力作为承载人工智能应用的平台和基础，其发展推动了整个人工智能系统的进步和快速演进，是人工智能最核心的要素之一。以人工智能应用为主要任务的，面向智能计算的处理器的相关设计方法与技术已成为国内外工业界和学术界共同角逐的热点，国内外企业纷纷布局AI芯片。

AI芯片的应用场景不再局限于云端，部署于智能手机、安防摄像头、及自动驾驶汽车等终端的各项产品日趋丰富。除了追求性能提升外，AI芯片也逐渐专注于特殊场景的优化。

为了进一步促进供需对接，为AI芯片供应商和需求商提供交流的平台，中国人工智能产业发展联盟（以下简称“AIIA”或联盟）计算架构与芯片推进组启动“AI芯片技术选型目录”（以下简称“选型目录”）的工作，希望为AI芯片的可持续发展，服务和促进相关产业发展壮大贡献一份力量。

人工智能芯片按照目前的应用场景来看，主要分为训练和推断两类场景，按部署位置又可分为云端、边缘和终端。AIIA“AI芯片技术选型目录”具体根据应用场景与部署位置，包含云端训练、基于云端、边缘和终端推断的四大产品形态。又依据行业应用，AI芯片技术选型目录根据垂直应用场景如图3所示给出。

AI芯片根据行业应用分类图二、云端训练技术概述

百度昆仑1芯片面向AI通用计算，基于百度XPU架构，既可以用于训练，也可以用于推理，能全面支持语音，图像，自然语言处理等应用。

技术指标百度昆仑1芯片基于百度XPU架构，采用三星14nm工艺，HBM2和PCIE4.0等技术，给用户提供高性能、高带宽、低功耗、高灵活性、高度可编程等优势。

产品信息

应用案例

百度ERNIE模型，应用于翻译、搜索排序等场景。百度网盘里的图像模型；百度云主机；百度云的工业质检客户。

产品特征/技术特点 1．高性能，峰值256Tops；

2．高带宽，片外内存带宽512GB/s；

3．高度可编程性，能提供C++/C++的编程，用户可以自由开发自己的算子。

上海燧原科技有限公司-邃思通用人工智能训练芯片技术概述

邃思芯片集成神经元处理器架构和数据处理引擎，通过可编程的通用张量/向量运算核心，支持各类数据精度的主流深度学习训练负载。

技术指标

邃思芯片采用12nmFinFET工艺，2.5D封装，总计141亿个晶体管。其宣称单芯片提供20TFLOPS@FP32及80TFLOPS@BF16/FP16的算力，最大功耗190W。

邃思芯片主要技术特点包括：自主指令集的神经元处理器（SIP），可编程的通用张量/向量运算核心，支持张量/向量/标量计算；神经元处理集群（SIC），由8个神经元处理器构成，4MB共享集群缓存；自主研发2.5D封装，集成16GBHBM存储，提供512GB/s带宽；自主ESL（燧原智能互联，

Enflame SmartLink）片间互联引擎，每通道双向50GB/s，4通道总共200GB/s接口带宽，通道延时小于1μs；系统稳定性控制，支持服务器级别RAS需求。支持CNN、RNN、LSTM、BERT等网络模型

产品信息

产品特征/技术特点

云燧T10是基于邃思芯片打造的人工智能训练加速卡，20TFLOPS@FP32，最大功耗225W，支持FP32/FP16/BF16/INT8/INT16/INT32等多种数据类型；支持PCIe4.0接口，提供64GB带宽以及200GB/s片间互联带宽；

计算和编程平台主要包含分布式调度、软件开发包（SDK）和设备驱动层，用户可以将已有训练系统，无缝迁移至邃思平台上运行，无需二次开发或者模型转换工作。

云燧T10人工智能训练加速卡面向云端数据中心，可广泛应用于互联网、金融、教育、医疗、工业及政务等人工智能训练场景。

NVIDIA-NVIDIAA100/V100/T4Tensor Core GPUs 技术概述

为数据中心GPU，可加快AI、高性能计算(HPC)和图形技术的发展。技术指标

NVIDIA Ampere GPU架构配备540亿个晶体管，为7纳米芯片架构，集训练和推理于一身，具有多实例GPU、TF32、结构化稀疏等特性。

NVIDIAVolta GPU架构配备640个Tensor内核，可提供每秒超过100万亿次(TFLOPS)的深度学习性能，是上一代NVIDIA Pascal架构的5倍以上。NVIDIA Turing GPU架构支持实时光线追踪、AI、模拟和光栅化技术。

应用案例

利用NVIDIAA100/V100/T4GPU可以更快速地处理要求最严格的高性能计算(HPC)和超大规模数据中心工作负载。现在，数据科学家和研究人员可以在能源勘探和深度学习等应用场合中解析PB级的数据，速度比使用传统CPU快几个数量级。NVIDIA A100/V100/T4加速器可以超快速度运行更大型的模拟。此外，NVIDIA GPU还能为虚拟桌面、应用程序和工作站提供超高性能和用户密度。

产品特征/技术特点

NVIDIA A100采用了NVIDIA Ampere架构的突破性设计，集AI训练和推理于一身，宣称其性能相比于前代产品提升了20倍。作为一款通用型工作负载加速器，A100还被设计用于数据分析、科学计算和云图形。NVIDIAT4GPU推理加

速器搭载NVIDIATuringTensorCore，提供多精度推理性能，以加速人工智能的各种应用。

产品信息

赛灵思–Alveo 技术概述

赛灵思AlveoTM数据中心加速器卡专为现代数据中心多样的应用需求而设计。Alveo加速器卡可通过对加速资源的重新配置，适应持续算法优化，在降低总成本的同时，灵活支持各类工作负载。

赛灵思推出的Vitis统一软件平台为各类软件和AI推理应用开发提供统一编程模型，帮助用户加速实现从C/C++、Python、Caffe、Tensor flow到差异化应用落地的开发过程。

技术指标

赛灵思Alveo数据中心加速器卡基于Xilinx 16nm Ultra Scale架构，使用赛灵思堆叠硅片互联(SSI)技术来实现FPGA容量、带宽和功耗效率，通过结合多个超逻辑区域(SLR)来增大密度。

Alveo加速卡旨在加速服务器或工作站中的机器学习、数据分析和视频处理等计算密集型应用。Alveo U50卡采用XCU50 FPGA包括2个SLR，配备PCIe Gen4和8G HBM2，每秒100G网络连接，以高效能75瓦、小尺寸形式为金融计算、机器学习、计算存储以及数据搜索与分析工作负载提供优化加速。

AlveoU200卡采用XCU200FPGA包括3个SLR,AlveoU250卡使用

XCU250FPGA包括4个SLR。二者均可连接到PCIExpress的16个通道，最高运

行速度8GT/s(Gen3)，也可以连接到4根DDR4 16GB 2400MT/s64位含纠错码(ECC)的DIMM，总计64GB的DDR4。

应用案例

Alveo加速卡已经开发和认证的关键应用涵盖AI/ML、视频转码、数据分析、金融风险建模、安全和基因组学等。Algo-Logic SystemsInc、Bigstream、Black LynxInc.、CTAccel、Falcon Computing、Maxeler

Technologies、Mipsology、NGCodec、Skreens、Sum Up Analytics、Titan IC、Vitesse Data、VYUsync和Xelera Technologies等合作伙伴开发完成的应用已经投入部署。此外，DellEMC、Fujitsu Limited和IBM等顶级OEM厂商也在同赛灵思合作，认证采用Alveo加速器卡的多个服务器SKU。

Alveo-Mipsology,Zebra搭载Alveo

U50数据中心加速卡用于神经网络推理，板卡功耗75W，关键功能：快速卷积神经网络(CNN)推理——Zebra设立了新的性能标准；支持所有神经网络——Zebra可加速任何CNN的所有层级；易于使用——Zebra是“即插即用”的解决方案，无需对神经网络进行修改或再训练；不改变软件环境——无新语言、框架或工具。Zebra在TensorFlow、PyTorch、ONNX、Caffe和MXNet模型内运行；可扩展性、灵活性和适应性——Zebra可替代GPU或在任何位置补充CPU。 Alveo-SK电讯基于人工智能的实时物理入侵和盗窃检测服务，基于赛灵思Alveo U250加速器卡，可提供充足的吞吐量与精准度

产品特征/技术特点

AlveoU50数据中心加速器卡采用赛灵思UltraScale+ 架构，使用半高半长的外形尺寸和低于75瓦的低包络功耗。该卡支持第四代PCIe及高带宽存储器（HBM2），每秒100G网络连接，面向各种类型的服务器部署。

AlveoU50加速器卡产品详细介绍：