高性能计算机体系结构试题
1.名词注释
推测执行,指令级并行,并行计算机,流水线,反相关,结构竞争。 简述高性能计算机系统的应用领域;
简述记分牌算法中指令执行阶段及每个阶段所解决的冲突类型;(资料5)
简述解决数据冒险的几种方法;
简述路径调动技术的基本思想。(课件第三部分,P33)
3籼稻.下面四组MIPS代码,每组由两条指令组成
(1)DADDI R1, R1, 4 (2) DADD R3,R1,R2
LD R2, 7(R1) SD R2,7(R1)
(3)SD R2,7(R1) (4) BEZ R1,PLACE
黎氏三兄弟 SD F2,200(R7) SD R1,7(R1)
判断每组是否存在相关,如果存在,请给出相关的类型,并判断每组是否能乱续执行。
4. 根据需要展开下面的循环并进行指令调度,直到没有任何延迟(资料4) LOOP: LD F0,0(R1)
MULTD F0,F0,F2
LD F4,0(R2)
ADDD F0,F0,F4
SD 0(R2),F0
SUBI R1,R1,8
SUBI R2,R2,8
BNEQZ R1,LOOP
指令延迟表如下:
浮点流水线延迟
产生结果指令 | 使用结果指令 | 延迟时钟数 |
浮点计算 | 其它浮点计算 | 3 |
浮点计算 | 浮点存操作(SD) | 2 |
浮点取操作(LD) | 浮点计算 | 1 |
浮点取操作(LD) | 浮点存操作(SD) | 0 |
| | |
5.假设有一个长流水线,仅仅对条件转移指令使用目标缓冲。假设分支预测错误的开销为4个时钟周期,缓冲不命中的开销为3个时钟周期。假设:命中率为95%,预测精度为90%,分支频率为20%被妖魔化的沙尘暴
,没有分支的基本母猪性激素CPI为1。 (1) 程序执行的CPI
(2) 相对于采用固定的2个时钟周期延迟的分支处理,哪种方法程序的执行速度快?
6.请将如下代码写成软件流水循环。
LOOP: LD F0,0(R1)
ADDD F4,F0,F2
MULTD F6,F4,#5
SD F6,0(R1)
DSUBI R1,R1,# 8
BNZ R1,制作电子杂志的软件R2,LOOP
7.由16个节点组成的立方体网络中,按照E立方体路由,请给出15号节点传送数据给4号节点的路由过程。课件第四部分P17)
>林荫道