没有合适的资源?快使用搜索试试~ 我知道了~
首页计算机考研资料自己整理
资源详情
资源评论
资源推荐
.( 分)一台模型机共有 条指令,各指令的使用频度分别为 ,,,,,,,有 个通用数据寄存器
个变址寄存器。
要求操作码的平均长度最短,请设计操作码的编码,并计算所设计操作码的平均长度。
设计 位字长的寄存器寄存器型指令 条, 位字长的寄存器存储器型变址寻址方式
指令 条,变址范围不小于正、负 。请设计指令格式,并给出各字段的长度和操作码的编码。
操作码:,,,,,,
平均长度:
,每个 为 位,共 位
, 为 位, 为 位,变址量 为,共 位
.( 分)某工作站采用时钟频率 为 ,处理速率为 的处理机来执行一个已知混合程序。假定每次存储器存取为
周期延迟,试问:
()( 分)此计算机的有效 是多少
()( 分)假定将处理机的时钟频率 提高到 ,但存储器子系统速率不变。
这样,每次存储器存取需要两个时钟周期,如果 指令每条只需要一次存储存取,
而另外 每条需要两次存储存取,还假定已知混合程序的指令数不变,并与原工作站兼容,试求改进后的处理机性能。
( )!( )
如题所述,%的指令需要一次存储存取,则这些指令在处理器提高时钟频率之后需要增加一个时钟 同样,另外 %的指令
需要增加两个时钟周期。
"#$(改进前执行混合程序的所需时钟周期数%!!指令数%!!指令数指令数
改进前有效 %!%!%%&
处理速率 "#$"#$!!&!&,假设混合程序的指令数为 '则有
. 分在下列不同结构的处理机上执行 ! 的矩阵乘法 !(,计算所需要的最短时间。只计算乘法指令和加法指令的执行
时间,不计算取操作数、数据传送和程序控制等指令的执行时间。加法部件和乘法部件的延迟时间都是 个时钟周期,
另外,加法指令和乘法指令还要经过)取指令)和)指令译码)的时钟周期,每个时钟周期为 "*, 的初始值为))。
各操作部件的输出端有直接数据通路连接到有关操作部件的输入端,在操作部件的输出端设置有足够容量的缓冲寄存器。
分处理机内只有一个通用操作部件,采用顺序方式执行指令。
分单流水线标量处理机,有一条两个功能的静态流水线,流水线每个功能段的延迟时间均为一个时钟周期,
加法操作和乘法操作各经过 个功能段。
要完成上面的矩阵乘法,需要完成的各种操作的数量+
需要完成的乘法次数为 !! 次;
需要完成的加法次数为 !! 次;
下面我们分析处理机的结构会给性能带来什么样的影响。
顺序执行时,每个乘法和加法指令都需要 个时钟周期(取指令、指令分析、指令执行);所以所需要的时间为:
单流水线标量处理机,采用两功能静态流水线时;因为有足够的缓冲寄存器,所以我们可以首先把所有的乘法计算完,并通过
调度使加法流水线不出现停顿,所以所需要的时间为:
4.(10 分)假设一条指令的执行过程分为"取指令"、"分析"和"执行"三段,每一段的时间分别为△,、2△, 和 3△,。在下列各种情况
下,分别写出连续执行 n 条指令所需要的时间表达式。
(1)(3 分)顺序执行方式。 (2)(7 分)"取指令"、"分析"和"执行"重叠。
顺 序 执 行 时 每 条 指 令 用 时 =△,%△,%△,△, , 因 此 n 条 指 令 所 需 要 的 时 间 =6n*△, ( 2 ) 第 一 条 指 令 完 成 需 要 时 间 =
△,%△,%-,△,,由于一条指令的"取指令"和"分析"阶段和下一条指令的"执行"阶段重叠,因此,此后每 3△,完成一条指令,余下
的 n-1 条指令用时(n-1)*3△,所以因此 n 条指令所需要的时间=6△,%" △,"%△t
5.(10 分)已知一个 Cache 共有 4 个块,每个块大小为 4 个字。采用直接映像方式,假设该 Cache 的缺失代价为 8 个时钟周期。初
始时 Cache 为空,当程序执行过程中访存的字地址序列为 0,7,12,9,16,8,17,0,12,2 时 (1)( 7 分)试计算 Cache 的命中率
(2)( 3 分)计算 Cache 缺失(不命中)代价
字地址流进入 ./.0# 时工作情况:
时间
1 2 3 4 5 6 7 8 9 10
字地址流
0 7 12 9 16 8 17 0 12 2
块 0
0 0 0 0 16 16 17 0 0 2
块 1 -
7 7 7 7 7 7 7 7 7
块 2 - - -
9 9 8 8 8 8 8
块 3 - -
12 12 12 12 12 12 12 12
装
入
装
入
装
入
装
入
替
换
替
换
替
换
替
换
命
中
替
换
在上表中,共有 10 个时刻,只有时刻 9 命中,所以命中率 1/10=10%
(2) 缺失代价=9×8=72 个时钟周期
6.(10 分)假设一个网络的频宽为 10 兆位/秒,发送方开销和接收方开销分别等于 230 微秒和 270 微秒。如果两台机器相距 100
米,现在要发送一个 1000 字节的消息给另一台机器,试计算总时延。如果两台机器相距 1000 公里,那么总时延为多大?
光的速度为 299792.5 公里/秒,信号在导体中传递速度大约是光速的 50%,所以“飞行”时间可以计算出来了。那么相距 100 米时总
时延为:
相距 1000 公里时的总时延为:
7.(10 分)设有下列流水线预约表:
1 2 3 4
S1 X X
S2 X
S3 X
1111分别写出禁止表 2、冲突向量 、画出状态转换图,求出最小平均延迟及流水线的最大吞吐率(假设流水线的时钟周期为
3"*)。禁止表 245、
1111冲突向量 ()
状态图如下:
简单循环:(4), (2), (2,4), (1,4), (1,1,4);
迫切循环:(1,1,4), (2);
最佳恒定等待时间循环: (2);
最小平均等待延迟 MAL=2;
因为 MAL=2,所以该流水线的吞吐率 :
8.(10 分)一台单处理机可以以标量方式运行,也可以以向量方式运行。在向量方式情况下,计算可比标量方式快 9 倍。设某基
准程序在此计算机上运行的时间为 T。另外,已知 T 的 25%用于向量方式,其余的时间则以标量方式运行。 (1) 计算在上述条件下
与完全不用向量方式条件下相比的加速比,并计算上述程序中向量化代码所占的比例 。 (2) 假设我们改进硬件使向量方式与标量方
式之间的速度比加倍,试计算可达到的加速比。 (3) 如果要达到与(2)相同的加速比,用的方法是改进编译器,而不是改进硬件,
那么,用向量化编译器支持同样的基准程序,其新的向量化比率是多少?
、(1) 由于 T 中向量化代码所占的时间为 0.25T,则串行代码用时=T-0.25T=0.75T,所以完全不用向量方式执行该段代码用时=
0.75T+9*0.25T=3T, 因此加速比=3T/T=3. 根据 Amdahl 定律.
(2)
(3)
EXAM 2
一、 填空题
(1) 处理机流水线又称为 流水线,功能部件级流水线也称为 流水线。
(2) 假设高速缓存 Cache 工作速度为主存的 5 倍,且 Cache 被访问命中的概率为 90%,则采用 Cache 后,能使整个存储系统获得
的加速比= 。
(3) 向量处理机的结构主要有 和 两种。
(4) 某模型机共有 7 条指令,分别是 8 位和 16 位两种指令字长,都按双操作数指令格式编排。采用 2-4 扩展操作码,8 位字长指令
为寄存器-寄存器(R-R)类型,16 位字长指令为寄存器-存储器(R-M)型变址寻址(-127<=变址范围<128)方式。该机允许使
用 8 个可编址的通用寄存器, 个变址寄存器。
(5) 一个 3 段流水线,各段的执行时间分别为 t 、2t、t, 在该流水线上完成 N 个连续任务时的加速比为 。
(6) 利用混洗交换单级互连网络将一个 PE 的数据播送到所有 16 个 PE 中去,共需要 次交换, 次混洗。
(注:混洗交换单级互连网络每一步只能进行混洗或交换中的一种变换)。
一、 填空题答案
(1) 指令 运算操作(2) 3.57(3) 存储器-存储器 寄存器-寄存器(答案顺序可以不同)(4) 2(5) 2N/(N+1)(6) 4
3
二、 问答题
1、(8 分)令 2
m
×2
m
矩阵 A 以行主方式存放在主存储器中,试证明在对 A 进行 m 次完全混洗变换后可获得转置矩阵 A
T
。
2、(10 分)设 α 为一个计算机系统中 n 台处理机可同时执行的程序代码的百分比,其余代码只能用单台处理机顺序执行。每台
处理机的执行速率为 x MIPS,并假设所有处理机的处理能力相同。 (1)试用 n,α,x 推导出系统专门执行该程序时的有效 MIPS
速率表达式。 (2)假设 n=16,x=4MIPS,要求得到系统的性能为 40MIPS,试求 α 值。
3、(10 分)用一台 40MHZ 处理机执行标准测试程序,它含的混合指令数和相应所需的时钟周期数如下:
指令类型 指令数 时钟周期数
整数运算
45000 1
数据传送
32000 2
浮点
15000 2
控制传送
8000 2
求有效 CPI、MIPS 速率和程序的执行时间。
4、(10 分)假定你是一个计算机设计者,你已设想了一个优化的设计方案,它能减少过程调用和返回所需的取/存指令次数。为
了进行验证,对未加优化和已优化的方案进行实验测试,假定所使用的是相同的优化编译器。实验测得的结果如下: 优化方案的时
钟周期比未优化的快 15%; 未优化方案中的取/存指令数占总指令数的 30%; 优化方案中的取/存指令数比未优化的少 1/3。对于其
它指令,两种方案的动态执行数没有变化; 未优化方案的所有指令执行均只需 1 个时钟周期。而优化方案只有取/存指令执行需要 2
个时钟周期,其它指令执行也只需 1 个时钟周期。 (1) (4 分)计算优化方案的平均 CPI (2) (6 分)通过计算加速比,判断哪一种
设计方案计算机工作的速度更快
5、(10 分)设计一种采用加、乘和数据寻径操作的算法,分别在下面两种计算机系统上用最短的时间来计算表达式
s=A1*B1+A2*B2+…A32*B32。假设加法和乘法分别需要两个和四个单位时间,从存储器取指令,取数据、译码的时间忽略不计,
所有的指令和数据已装入有关的 PE。试确定下列每种情况的最小计算时间: (1)一台串行计算机,处理机中有一个加法器和乘法
器,同一时刻只有其中一个可以使用。这种单处理机系统不需要数据寻径操作。 (2)一台有 8 个 PE(PE0,PE1,…,PE7)的
SIMD 计算机,8 个 PE 连成双向环结构。每个 PE 用一个单位时间可以把数据直接送给它的相邻 PE。操作数 Ai 和 Bi 最初存放在 PE
i
mod 8
中,其中 i=1,2,…,32。每个 PE 可在不同时刻执行加法或乘法。
6、(10 分)分别确定在下列两种计算机系统中,计算表达式 所需的时间:
(1) 有 4 个处理器的 SIMD 系统;
(2) 有 4 个处理机的 MIMD 系统。 设访存取指和取数的时间可以忽略不计;加法与乘法分别需要 2 拍和 4 拍;在 SIMD 和
MIMD 系统中处理器(机)之间每进行一次数据传送的时间为 1 拍;在 SIMD 系统中,PE 之间采用线性环形互连拓扑,即每个 PE
与其左右两个相邻的 PE 直接相连,而在 MIMD 中每个 PE 都可以和其它 PE 有直接的的通路。
7、 (10 分)下面由六条指令组成的代码段需运行 64 次才能计算向量算术表达式:
D(I) = A(I) + B(I) x C(I),其中 0≤I≤63。
Load R1,B(I)
Load R2,C(I)
Multiply R1,R2
Load R3,A(I)
Add R3,R1
Store D(I),R3
/R1←Memory(α+I)/
/R2←Memory(β+I)/
/R1←(R1) x (R2)/
/R3←Memory(γ+I)/
/R3←(R3)+(R1)/
/Memory(θ+I)←(R3)/
运行一遍这六条指令,共需要(忽略其它延迟时间)4+4+8+4+2+4=26 个周期。
(2)在一台 SISD 单处理计算机上依次重复执行上述代码段 64 遍所需的 CPU 周期数为 26×64 = 1664
(3)在一台有 64 个 PE 的 SIMD 机,以 6 条同步向量指令直接对 64 组向量数据执行上述向量操作,那么只需要执行一遍,所
需 CPU 周期数为 26。SIMD 计算机和 SISD 计算机相比,加速比 为 1664/26 = 64。
8、(10 分)假设某台机器访问存储器都是 cache 命中,那么它的 CPI 等于 2。还假设只有 Load 和 Store 指令才能访问存储器数
据,这两种指令的数目占整个程序的 40%。如果访问存储器时出现 cache 缺失,则一次缺失需要花费 25 个时钟周期。问这台机器
在所有指令都 cache 命中情况比有 2%缺失情况快几倍?
9、 (10 分)在 CRAY-1 机上,Vi 为向量寄存器,设向量长度为 32,s 为标量寄存器,所有浮点功
能执行部件的执行时间分别为:加法需 6 拍,相乘需 7 拍,从存储器读数需 6 拍,结果打入寄存器和启动功能部件(包括存储器)
各需 1 拍,分别计算各指令序列全部完成所需要的拍数。
(1)(5 分)V0←存储器 V3←V1+V2 V4←V0*V3 V6←V4+V5
(2)(5 分)V0←存储器 V2←V0+V1 V3←V2*V1 V5←V3+V4
问答题答案
1、不失一般性,设 元素 a 的下标 ij 可以分别用 m 位二进制表示成 . 由于矩阵 A 以行主方式存
放在主存储器中,所以对 A 经过 m 次完全混洗对元素 a 来说,相当于对其下标 进行了 m 次完全混洗,
混洗后变成 ,即元素 aij 所在位置经过 m 次完全混洗变换后变成了 。所以对 A 进行 m 次完全混洗变
换后可获得转置矩阵 。
2、(1)假定一共要执行 W 条指令,总的执行时间是 ,因此有效 MIPS 速率表达式为 .
(2)把给定值代入上面的表达式可得 ,解得 .
3、
剩余24页未读,继续阅读
firetaker
- 粉丝: 118
- 资源: 57
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- ExcelVBA中的Range和Cells用法说明.pdf
- 基于单片机的电梯控制模型设计.doc
- 主成分分析和因子分析.pptx
- 共享笔记服务系统论文.doc
- 基于数据治理体系的数据中台实践分享.pptx
- 变压器的铭牌和额定值.pptx
- 计算机网络课程设计报告--用winsock设计Ping应用程序.doc
- 高电压技术课件:第03章 液体和固体介质的电气特性.pdf
- Oracle商务智能精华介绍.pptx
- 基于单片机的输液滴速控制系统设计文档.doc
- dw考试题 5套.pdf
- 学生档案管理系统详细设计说明书.doc
- 操作系统PPT课件.pptx
- 智慧路边停车管理系统方案.pptx
- 【企业内控系列】企业内部控制之人力资源管理控制(17页).doc
- 温度传感器分类与特点.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0