实验项目 名称 循环展开及指令调度 1. 加深对循环级并行性、指令调度技术、循环展开技术以及寄存器换名技术的理解; 2. 熟悉用指令调度技术来解决流水线中的数据相关的方法; 3. 了解循环展开、指令调度等技术对CPU性能的改进。 1.用指令调度技术解决流水线中的结构相关与数据相关 (1) 用MIPS汇编语言编写代码文件*.s,程序中应包括数据相关与结构相关(假设:加法﹑乘法﹑除法部件各有2个,延迟时间都是3个时钟周期) (2) 通过Configuration菜单中的 “Floating point stages” 选项,把加法﹑乘法﹑除法部件的个数设置为2个,把延迟都设置为3个时钟周期; (3) 用winMIPS64运行程序。记录程序执行过程中各种相关发生的次数、发生相关的指令组合,以及程序执行的总时钟周期数; (4) 采用指令调度技术对程序进行指令调度,消除相关; (5) 用winMIPS64运行调度后的程序,观察程序在流水线中的执行情况,记录程序执行的总时钟周期数; (6) 根据记录结果,比较调度前和调度后的性能。论述指令调度对于提高CPU性能的意义。 2. 用循环展开、寄存器换名以及指令调度提高性能 (1) 用MIPS汇编语言编写代码文件*.s,程序中包含一个循环次数为4的整数倍的简单循环; (2) 用winMIPS64运行该程序。记录执行过程中各种相关发生的次数以及程序执行的总时钟周期数; (3) 将循环展开3次,将4个循环体组成的代码代替原来的循环体,并对程序做相应的修改。然后对新的循环体进行寄存器换名和指令调度; (4) 用winMIPS64运行修改后的程序,记录执行过程中各种相关发生的次数以及程序执行的总时钟周期数; (5) 根据记录结果,比较循环展开、指令调度前后的性能。 实验 目的及要求 实验 内容 实验步骤 1.用指令调度技术解决流水线中的结构相关与数据相关 1) 代 码: divf f2,f5,f6 divf f1,f2,f6 divf f3,f1,f5 divf f0,f4,f7 addf f14,f0,f6 addf f15,f5,f7 multf f20,f4,f6 multf f21,f5,f7 2)设置运算部件个数以及运算时钟周期数 图1 图2. Pipeline图 以下为出现的数据相关 图3 先写后读相关 图4 由于只有两个除法部件,所以出现了功能部件的冲突。 总的执行周期是38指令调度后代码:将无关指令放在一起执行,相关指令分开尽量避免数据相关 divf f2,f5,f6 multf f20,f4,f6 multf f21,f5,f7 divf f1,f2,f6 addf f15,f5,f7 divf f3,f1,f5 divf f0,f4,f7 addf f14,f0,f6 图5.Pipeline图 图6.Statistics图 总执行时钟周期为35个。 (6)指令调度后,数据相关减少了,总时钟周期数减少了,效能提高了。调度前的时钟周期数为38,调度后的时钟周期数减少为35,加速比 = 38/35= 1.08 2. 用循环展开、寄存器换名以及指令调度提高性能 带循环指令 代码:求四个1相加的和,结果存在r2中 .text .global main main: addi r1,r0,#4 addi r2,r0,#0 Loop: sgt r3,r1,r0 bnez r3,Sub1 trap 0 Sub1: addi r2,r2,#1 subi r1,r1,#1 j Loop 结果:总时钟周期是42个,5 raw stalls,循环了4次,结果 r2 =4 图7 循环展开: 代码: .text .global main main: addi r1,r0,#4 addi r2,r0,#0 addi r2,r2,#1 subi r1,r1,#1 addi r2,r2,#1 subi r1,r1,#1 addi r2,r2,#1 subi r1,r1,#1 addi r2,r2,#1 subi r1,r1,#1 trap 0 结果:总时钟周期是15个,0 raw stalls,执行了4次,结果r2 = 4
好文档 - 专业文书写作范文服务资料分享网站