更多晶体管更低功耗——英特尔Ivy Bridge处理器平台评测
作者:暂无
来源:《计算机世界》 2012年第17期
Ivy Bridge 最大的特点是采用了新的22nm Tri-Gate 3D 晶体管制程工艺,并大幅度强化了核芯显卡。
计算机世界实验室 盘骏
根据英特尔的Tick-Tock 钟摆策略,每年英特尔都会轮流更新一次处理器的微架构或制程工艺,交替进行,这避免了同时更新微架构或者制程工艺的风险,从而可以得到更为成熟的产品。2011 年是这种策略的“Tock”年,英特尔带来了全新的Sandy Bridge 微架构,而2012 年的“Tock”年则带来了新的工艺制程,这就是采用了22nm 工艺的Ivy Bridge 处理器。除了22nm工艺之外,4 月22 日(美国时间)发布的Ivy Bridge 还采用了Intel 在更早些时期宣布的Tri-Gate 3D 晶体管技术。
最新22nm 3D晶体管工艺
在五年前首度使用HKMG(High-K Metal Gate)工艺制作商用处理器之后,英特尔新一代的IvyBridge 处理器不仅仅采用了22nm制程,还采用了3D 晶体管工艺。
被称为3D 晶体管的英特尔Tri-Gate 三栅极晶体管技术属于FinFET的一种变种,早在多年前就已经出现。在1999 年,加州大学伯克利分校实验室内首先制造出了被称为FinFET 的晶体管,其原理和现在的Tri-Gate 很相像。但英特尔是首先将其商品化的公司,Ivy Bridge 也是首款采用了这个工艺的处理器。
在传统平面型晶体管上,源漏极沟道与衬底平行,栅极覆盖于沟道之上,晶体管工作的电流通道只有栅极与源漏极互相接触的一部分。而英特尔采用Tri-Gate 工艺结构的立体型晶体管制造了一个垂直突出于衬底的源漏极,由覆盖其上的栅极的三个面包围(这也是Tri-Gate三栅极的意思),形成的沟道具有明显增大的接触面积,因此这种结构可以大为增强栅极对沟道的控制能力,从而提升了晶体管的电流驱动能力和省电性能。由于架构的重大变化,英特尔将其称为“重新发明了晶体管”。
与英特尔目前最好的32nm 制程工艺比较,22nm 制程的3D 晶体管工作电压可以低至0.7V,普通平面型晶体管则很难达到这样的工作电压水准,一般为1.0V。与32nm 制程工艺比较,在同样的电压下22nm3D 晶体管的性能可以提升37%,或者在提供同样的性能时,功耗降低50% 以上,而代价是2% ?3% 的制造成本提升。
核芯显卡:晶体管数量剧增
采用新工艺的直接结果就是晶体管体积缩小,功耗降低,因此在外围条件不变的情况下集成更多的晶体管。在公布的官方资料中,主流的四核心桌面Ivy Bridge 处理器大约集成了14 亿个晶体管,核心面积为160mm2;相比较之下,四核心桌面Sandy Bridge 处理器大约集成了9.95 亿个晶体管, 核心面积为216mm2;AMD 的推土机系列集成了20 亿个晶体管,核心面积315mm2。根据一些消息,不同步进(Stepping) 的Ivy Bridge 处理器的晶体管数量和核心面积处于逐渐增大的趋势,最新的E1 步进其核心面积应该达到了183mm2 左右。本文中使用的Ivy Bridge 晶圆图均为核心面积160mm2 的官方版本。
可以说,Ivy Bridge 的CPU 微架构与Sandy Bridge 是一模一样,这新增加的4 亿多晶
体管, 有很大部分是用在了核芯显卡——GPU上。在上一代,GPU 与CPU 的面积比仅为0.33, 到了Ivy Bridge,这个比率提升到了0.75,可以说,GPU 部分具有非常大的变化,以至于英特尔使用“Tock+”来代表IvyBridge,额外的加号就是用来说明GPU 的重大升级。
非常多的晶体管用来增加GPU的渲染管线,Sandy Bridge 的内置GPU 拥有12 条EU(渲染管线),按照官方资料,Ivy Bridge 将其升级到了16 条,增加了1/3,同时频率也提升到了1.15GHz,因此性能应该可以获得较大的提升。有消息表明,使用TEM 隧道电子显微镜分解的结果是最新版本的Ivy BridgeGPU 具有24 条渲染管线,这也是其核心面积比早期版本提升的原因。Sandy Bridge 的GPU 有两个版本:12 条管线的HD3000 和6 条管线的HD2000。Ivy Bridge 也引入了两个版本:16 条管线的HD4000 和6 条管线的HD2500。
最后,从Ivy Bridge 的GPU 开始, 英特尔首次支持DirectX11、OpenGL3.1、OpenCL1.1,上一代的Sandy Bridge 仅支持DirectX 10.1,OpenGL 以及OpenCL 支持力度也很不足,与流行的GPU 相比显得有些弱。新一代的Ivy Bridge GPU 现在可以支持DirectCompute 11 以及OpenCL 1.1 这两种GPGPU 计算,真正具有了与主流独立GPU 抗衡的能力。
Ivy Bridge GPU 还有一个值得一提的地方是它可以支持3 个独立的显示器,上一代仅支持两个。
I/O 能力提升:PCIe 3.0
除了GPU 性能提升之外,IvyBridge 处理器一个明显的大改进就是它开始支持PCI
Express 3.0 总线,其信号速率从上一代的5GT/s 提升到了8GT/s,并且其编码方式从原有的8/10b 更改为更有效率的128/130b编码,因此实现了接近一倍的带宽提升,对于一些需要高速IO 设备的用户来说非常实用。PCIe 3.0 可以完美地向后兼容PCIe 2.0/1.0,用户无需进行任何特别的操作。
PCI Express 3.0 只有在i5 和i7系列中得到支持,i3 系列并不提供PCI Express 3.0 特性。
上面指出的三点都是Ivy Bridge处理器最值得一提的特点。除此之外,Ivy Bridge 处理器还具有一些微小的升级,一个是指令集的提升,包括加入了新的字符串处理指令以及提升AES 加密指令集的效能,另一方面引入了一个硬件随机数字产生器,可以获得比软件实现的伪随机数字产生器具有更好的随机性。
7 系芯片组:变化不大
处理器需要搭配相应的芯片组才能得到应用。Ivy Bridge 处理器搭配原有的6 系列如Z68、 H61 等芯片组也能使用,然而英特尔为IvyBridge 准备了一套新的芯片组,也就是7 系芯片组。代号为PantherPoint 的7 系芯片组的发布比IvyBridge 处理器要早一些,主要包含了Z77、Z75、H77三个消费级芯片组。7 系列芯片组最大的特征就是开始提供英特尔的原生USB 3.0 控制器,而不再像6 系列芯片组那样,需要采用第三方控制器芯片,应用上就显得方便多了。7 系芯片组提供了最多4 个英特尔原生USB 3.0 端口,USB 3.0 的接口速率为5Gbps,因为采用了8/10b 编码,因此其数据速率是4.5Gb/s,约为上一代480Mbps的9 倍多。值得一提的是,从7 系列开始英特尔的USB 控制器采用了Rate Matching Hub 架构,可以更好地管理多种不同速率的设备,以实现更好的节电效果。7 系列芯片组最多可以提供14 个USB 2.0 接口。
还有一个值得一提的特性是在功能和性能最强的Z77 芯片组的支持下,Ivy Bridge 可以实现x8+x4+x4 的PCIe 信道划分形式,比上一代的x8+x8 要灵活一点,在使用PCI Express 3.0 设备的情况下,这种方式可以更好地利用处理器的I/O 能力。Z77 也是首款支持
Thunderbolt 雷电光纤接口的主板,其支持x8+x4+x4 的PCI Express 分配方式也很适合雷电接口使用。
Z77 芯片组还继承了Z68 芯片组上的Smart Response Technology( 智能响应技术,一种SSD Caching 技术)。
7 系列芯片组还提供了两种新技术,一种是加快系统开机速度的快速启动(Rapid Start) 技术, 一种是让机器在关机状态下也能更新邮件、社交信息的智能连接(SmartConnect)技术,此外,英特尔也把WiDi(Wireless Display)技术正式打包引入了7 系列芯片组之中。
测试平台与测试方法
我们继续使用了在Sandy Bridge系统上使用过的SPEC CPU 2006v1.1 测试软件与
SiSoftware Sandra2012 测试软件。硬件系统则是Corei7 3770K 处理器和英特尔DZ77GA-70K 主板。Core i7 3770K 处理器是目前英特尔最高端的Ivy Bridge 处理器,4 核心8 线程,默认频率为3.5GHz, 四核心Turbo Boost 可以达到3.7GHz, 单核心Turbo Boost可以达到3.9GHz, 可以看出, 其规格比上一代32nm Sandy Bridge处理器的四核心最强版本要高上100MHz,并不算多。预计下一次推出的增强版本才会实现默认工作频率4GHz。
Turbo Boost 技术会对性能分析带来影响,我们以往的测试当中都会选择给出打开/关闭Turbo Boost技术后的性能成绩。然而, 我们收到的DZ77GA-70K 主板属于工程样品, 其
BIOS 存在着问题,它无法关闭Turbo Boost功能,因此少了很多可以用来跟上一代对比的数据。此外,在英特尔的处理器微架构当中,如T L B、R O B、RS 等资源是两个硬件线程共享的,
超线程实际上会导致单线程运行资源的减少,因此我们分别测试了打开和关闭超线程下的表现。
内存子系统也是SPEC CPU 测试的重要因素,我们为测试系统准备了16GB 的内存
(4×4GB)。规格是DDR3-1600,Ivy Bridge 处理器还支持DDR3L——1.35V 的低工作电压内存。尽管笔者也想测试英特尔HD4000 显卡的性能,然而由于主板(仅提供一个HDMI 接口)、BIOS 的限制,内置显卡工作有些问题,因此相关的测试没有进行。
测试使用了一块NVIDIA GeForceGTX560Ti 显卡。SPEC CPU 几乎不受CPU 和内存之外部件的影响。为了将磁盘的影响最小化,我们使用了6 个Intel X25-V SSD 组建一个RAID 0 阵列来作为存储系统。
测试使用的操作系统平台是Windows Server 2008 R2 SP1 以支持AVX 指令集(不带SP1 的版本不支持AVX)。和以往的测试完全一样,测试使用了老的SPEC CPU 2006v1.1 代码, 基于一年多前的IntelCompiler 11.0,基于SSE4.2 优化,不支持Sandy Bridge 的AVX 指令集,这可以体现出Sandy Bridge 在运行老的代码时相对上一代处理器架构的变化。实际上,笔者也进行了基于较新的Intel Compiler 12.0.1编译器、基于AVX 优化的代码。
SPEC CPU 测试会给出大量的数据。例如,可以分为测试单线程运行效能的speed 测试和测试多线程运行效能/ 测试整个处理器运算吞吐量的rate 测试,或者分为测试通常优化性能的base 测试和极致优化性能的peak 测试,此外,每个测试同时包含了整数的int 测试和浮点的fp 测试,总共会得出8 个测试数据表,每个表包括一个总分和若干个子项目得分,由于不同的子项目代表不同的应用,因此我们给出了具体的子项目成绩。限于篇幅,这里不给出具体子项目的成绩。