# 存储器概述

# 存储器分类

存储介质：

磁存储器：机械硬盘
半导体存储器：固态硬盘，内存条
光存储器：光盘

存取方式：

随机存储器 $RAM$ ：可按照地址随机读写数据存储单元，存取访问时间与存储单元的位置无关
顺序存储器 $SAM$ ：存储单元中的内容只能依地址顺序访问，访问速度与存储单元的位置有关
直接存储器 $DAM$ ：不必经过顺序搜索就能在存储器中直接存取信息的存储器，这类存储器兼有随机存储器和顺序存储器的访问特性。

（绕过 $CPU$ 直接传输数据， $DMA$ 是外设与内存间直接传输数据的技术，无需 CPU 逐字节干预，但仍需指定内存地址（非搜索））

# 存储器技术指标

存储容量

可以存储的二进制信息总量，采用比特位或者字节表示

位表示：以存储器中存储单元总数与存储字位数的乘积表示， $eg:1K\times 4$ 表示该芯片有 $1K$ 个单元，每个存储单元长度为 $4$ 个二进制位
字节表示：以存储器中的单元总数表示，存储单元由 $8$ 个二进制位组成，称为一个字节，用 $B$ 表示， $eg:128B$ 表示该芯片由 $128$ 个单元

存取速度

存取时间：启动一次存储器操作到该操作完成所经历的时间
存取周期：连续启动两次访问操作之间的最短时间间隔

存储器带宽：单位时间内存储器所能传输的信息量，一般而言，存取时间越短，数据位宽越大，存储带宽越高

# 存储系统层次结构

# 主存基本结构

主存是机器指令直接操作的存储器

在存储器芯片的规格（如 8×8、8×16、8×32）中，第一个数字通常表示 地址线的数量（或地址空间大小），第二个数字表示 数据线的位数（字长）

# 主存中数据的存放

# 存储字长和数据字长的概念

存储字长：指主存储器（内存）一次读写操作中传输的数据位数，即内存单元的宽度。例如，内存可能以 64 位为单位进行读写，即使 CPU 的数据字长是 32 位。

数据字长：指 CPU 一次能处理的二进制数据的位数，通常由 ALU（算术逻辑单元）的宽度决定。例如，32 位 CPU 的数据字长为 32 位，表示其能一次性处理 32 位的数据运算。

# 地址访问模式

存储字长都是字节的整数倍，主存通常按字节进行编址

按照访问存储单元的大小，主存地址可以分为字节地址，半字地址，字地址

字节地址逻辑右移一位得到半字地址，右移两位可得到字地址

不同的地址访问模式所使用的主存地址实际上都是字节地址， $CPU$ 在执行指令的时候可以将字节的低两位用于访问控制

采用字节访问模式，字节地址的低两位用于选择字存储单元中的哪一个字节
采用半字访问模式，字节地址的倒数第 $2$ 位用于选择字存储单元中的哪个半字

$eg:$

MOV AL,[0x4] ， [AL]=0x00
MOV AX,[0x4] ， [AX]=0xEF00
MOV EAX,[0x4] ， [EAX]=0xABEF00

1MB 按照字节寻址需要多少位地址线？

$1MB=2^{20}B$ 按照字节编址，需要 $20$ 条地址线

1MB 按 16 位字寻址需要多少位地址线

按照 $16$ 位字寻址， $1MB=2^{20}B=2^{19}$ 字

所以需要 $19$ 条地址线

# 大端和小端

# 数据的边界对齐

字节数据不存在边界对齐问题
半字 $(2$ 字节 $)$ 数据的起始字节地址的最低 $1$ 位为 $0$ ，即地址是 $2$ 的倍数
单字 $(4$ 字节 $)$ 数据的起始字节地址的最低 $2$ 位为 $00$ ，即地址是 $4$ 的整数倍
双字 $(8$ 字节 $)$ 数据的起始字节地址的最低 $3$ 位为 $000$ ，即地址是 $8$ 的整数倍、

# 半导体存储器

# 静态 MOS 存储器

以静态 $MOS$ 存储元为基本单位组成的存储器称为静态 $MOS$ 存储器 $(SRAM)$

“静态” 指的是只要保持通电，其内部所存储的数据就可以保持不变，而不需要进行周期性地刷新；但是只要断电，数据就会消失

# 存储元

存储元是存储器中的最小存储单元，其作用是存储一位二进制信息

若干存储元组成一个存储单元，若干存储单元组成一个存储器

初始状态

读操作

行列选通信号都为有效高电平

将两个位线的输出信号经过差分放大器放大后，就可以根据电流方向的不同输出不同的数据信息

写操作

行列选通信号都为有效高电平

信息的保持

行列选通信号都为无效信号低电平

总结：

# 存储元扩展

同一时刻只能访问一位数据，而实际存储器均是以字节为基本单位的，如何扩展存储器的字长呢？

字长扩展

# 静态 MOS 存储器的结构

存储阵列

驱动器

每个行译码器输出信号都要同时驱动这一行上所有位存储体的 $T_5、T_6$ 两个门控制

对于 $4$ 个存储阵列并发，每一根行译码输出信号要驱动 $64\times 2\times 4=512$ 个门控制，负载较大，用驱动增强负载功能

每个列译码器输出信号要打开 $T_7、T_8$ 两个门控制

对于 $4$ 位存储体需要驱动 $2\times 4=7$ 个门控制，负载较大，用驱动增强负载功能

# 存储器芯片实例

写入时：

$\overline{CS},\overline{WE}$ 均有效（低电平），左侧的三态门打开，数据总线上的数据经输入数据控制逻辑写入存储器

读出时：

$\overline{WE}$ 无效（高电平），右侧三态门打开，数据从存储器读出并由列 $I/O$ 电路送入数据总线

# SRAM 读写时序

存储器由自己的读写周期特性，只有按照存储器的读写周期去访问存储器才能保证读写操作的正确性

习题

$SRAM$ 芯片的引脚通常包括以下几类：

地址线
数据线
控制信号线
电源和地线

地址线： $256K=2^{18}b$ ，需要 $18$ 根地址线

数据线： $16$ 根

控制信号线： $\overline{CS}$ 和 $\overline{WE}$ ，两根

共

$18+16+2=36$

# 动态 MOS 存储器

# 存储元

电容 $C$ 没电表示二进制 $0$
电容 $C$ 充满电表示二进制 $1$

读操作会使电容放电，原来存储的 $1$ 变成 $0$ ，所以在读之后需要进行数据恢复

# 存储元扩展

、

预充电操作：将 $Y_0\sim Y_3$ 这些线充到 ${\frac{V_{CC}}{2}}$
访问操作：接着给出行选通信号。让每个电容上存储 $1$ 或 $0$
信号检测：读入时，如果电容本来是 $1$ ，操作会使 $Y_i$ 的电压变成 $\frac{V_{CC}}{2}+\delta$ ，电容变成 $0$ ；如果电容本来是 $0$ ，操作会使 $Y_i$ 的电压变成 $\frac{V_{CC}}{2}-\delta$
数据恢复
数据输出 / 输入

# 动态 MOS 存储器的刷新

# 概念

最大刷新周期：从数据存入 $DRAM$ 开始，到数据丢失之前为止的这段时间

刷新周期： $DRAM$ 实际完成两次完整刷新之间的时间间隔

刷新方式：按行刷新，为了缩短刷新周期，可减少存储阵列的行数，增加列数

# 刷新的方式

因为 $DRAM$ 在刷新时是不能响应 $CPU$ 的访问的，因此 $CPU$ 对 $DRAM$ 进行访问和内存控制器对 $DRAM$ 进行刷新就存在内存争用问题

集中刷新

分散刷新

异步刷新

# 动态 MOS 存储芯片实例

# 动态 MOS 存储器的读写周期

读周期中：

行地址必须于 $\overline{RAS}$ 有效前送到地址输入端
由于地址复用，因此 $\overline{CAS}$ 必须滞后于 $\overline{RAS}$ ，直到列地址送入地址输入端为止
$\overline{RAS}$ 和 $\overline{CAS}$ 必须保持一定的宽度
$\overline{WE}$ 信号为高电平，必须在 $\overline{CAS}$ 有效前建立

习题

# 主存的组织及与 CPU 的连接

# 存储器的扩展

# 位扩展

当存储芯片数据总线位宽小于 $CPU$ 数据总线位宽时，采用位扩展的方式进行扩展

# 字扩展

当存储芯片容量不能满足存储器对存储容量的需求时，采用字扩展方式扩展存储器

# 字位同时扩展

当存储芯片的数据位宽和存储容量均不能满足存储器的数据位和存储容量要求时，可以采用字位同时扩展方式来组织存储器

首先通过位扩展满足数据位的要求

再通过字扩展满足存储总容量的要求

例题

# 存储器接口设计举例

$(1)$ 画出地址译码方案

总容量： $FFFF-0000+1=2^{16}=64KB$

$ROM$ 的存储容量： $3FFF-0000+1=2^{14}=16KB$

$RAM$ 的存储容量： $FFFF-6000+1=2^{13}+2^{15}=40KB$

其他的存储容量： $64-16-40=8KB$

因为存储芯片 $ROM$ 和 $RAM$ 的存储容量不能满足存储器对存储容量的要求，所以需要字扩展

地址译码采用 $8KB$ 作为区域单元，则将 $64KB$ 的存储空间分为 $8$ 个 $8KB$

所以需要 $3$ 根地址线用于区域选择译码；剩下的 $8KB=2^{13}B$ 需要 $13$ 根地址线；正好总共 $16$ 根地址线

$(2)$ 如果 ROM 和 RAM 存储器芯片都采用 $8K×1$ 的芯片，试画出存储器与 CPU 的连接图

注意 $ROM$ 是只读存储器，没有读写 $WE$ 控制端

$(3)$ 如果 ROM 存储器芯片采用 $8K×8$ 的芯片，RAM 存储器芯片采用 $4K×8$ 的芯片，试画出存储器与 $CPU$ 的连接图

因为 $4K\times 8$ 的芯片只需要 $12$ 位地址线，所以多出来的一根地址线 $A_{12}$ 用于选择使能端 $CS$

$(3)$ 如果 ROM 存储器芯片采用 $16K×8$ 的芯片，RAM 存储器芯片采用 $8K×8$ 的芯片，试画出存储器与 $CPU$ 的连接图

# 并行主存系统

提高主存的存取速度的方法：

使用高速元件来提高主存的访问速度

通过存储器的并行工作来提高主存的访问速度

双端口存储器

单体多字存储器

多体交叉存储器

习题

# 高速缓冲存储器

# cache 工作原理

主存一般采用容量大、功耗较小、成本较低的同步动态随机存取存储器 $DRAM$

静态随机存取存储器 $SRAM$ 的容量小、功耗大、成本高，但 $SRAM$ 的访问速度远高于 $DRAM$

因此，为了提升 $CPU$ 访问主存的性能，通常会在 $CPU$ 与主存之间添加一个 $SRAM$ 作为高速缓冲存储器 $cache$

将主存中经常访问或即将访问的数据，复制一份调度到 $cache$ 中，使得大部分数据访问都可以在 $cache$ 中进行，从而提升系统性能
采用这种方法的主要原因是 $CPU$ 执行的程序具有较强的程序局限性

# 程序局限性

在一段时间内，整个程序的执行仅限于一个较小的局部范围内

# 时间局限性

若程序在某个时刻访问了一个存储位置，该位置在未来可能会被多次访问

# 空间局限性

若程序访问了某个存储位置，则其附近的存储位置也可能被访问

# cache 的基本概念–cache 系统的性能评价

上图的情况下，数据访问时间称为命中访问时间，记作 $t_c$

包括

$cache$ 内的查询时间
$cache$ 的访问时间

上图的情况下，数据访问时间称为缺失补偿

包括

$cache$ 内的查找时间
内存访问时间，较长，记作 $t_m$ （一般用 $tm$ 表示缺失补偿）
$cache$ 访问时间

为了便于快速查找，主存和 $cache$ 都被划分成若干个固定大小的数据块，每个数据块又包含若干个字

预读策略：出现数据缺失的情况，则需要将缺失数据所在的数据块从慢速主存载入 $cache$ 中（缺失数据相邻的数据也会随着数据块一起载入 $cache$ ）

数据块的地址由地址块和块内偏移地址两部分构成

命中率

程序运行期间命中 $cache$ 的次数记作 $n_c$ ，从主存中访问信息的次数记作 $n_m$ ，命中率记作 $h$

$h=\frac{n_c}{n_c+n_n}$

缺失率

$1-h$

$cache/$ 主存系统的平均访问时间

命中情况下的访问时间记作 $t_c$ ，数据缺失情况下的访问时间记作 $t_m$ ， $cache/$ 主存系统的平均访问时间记作 $t_a$

$t_a=ht_c+(1-h)t_m$

访问效率 $e$

$e=\frac{t_c}{t_a}=\frac{t_c}{ht_c+(1-h)t_m}=\frac{1}{h+(1-h)\frac{t_m}{t_c}}=\frac{1}{h+(1-h)r}$

$r$ 一般以 $5\sim 10$ 为宜

# cache 的读、写流程与关键技术

# 相联存储器 CAM

$CAM$ 通常用于 $cache$ 的快速查找，也可用于在虚拟存储器中存放段表、页表和 $TLB$ 表

$CAM$ 是一种按内容进行访问的存储器，用于存放查找表，其内部存储的基本数据单元是键值对

$CAM$ 的输入是检索关键字 $key$ ，输出是该关键字对应的 $value$ 值

# 地址映射

# 直接相联映射

$cache \text{ 行号 }i=\text{主存块号 }j \mod (cache\text{ 行数})$

（注意：上述的 $cache$ 容量是在不考虑脏数据位的情况下）

$CPU$ 要读取主存中的某个信息，通过该信息的主存地址的区内数据块号（ $cache$ 行号）直接索引到对应的 $cache$ 行

若 $cache$ 行中保存的主存分区号与信息的主存地址中的主存分区号相同且有效位为 $1$ 时，数据命中。根据信息的主存地址中的数据块内偏移，从该 $cache$ 行中的数据块副本中读取信息
若 $cache$ 行中保存的主存分区号与信息的主存地址中的主存分区号不同或有效位为 $0$ 时，数据缺失。 $CPU$ 根据该信息的主存地址，将主存中该信息所在的数据块载入相应 $cache$ 行，相应地，还要将该 $cache$ 行的有效位置 $1$ ，以及将该 $cache$ 行的主存分区号设置为该信息的主存地址中的主存分区号，同时将信息送入 $CPU$

硬件实现

假设主存地址长度为 $9$ 位， $cache$ 块大小为 $4W$ ， $8$ 行

直接映射特点

每个主存数据块映射到 $cache$ $c a c h e$ 中的一个固定的行
- $cache$ 利用率低，命中率低，冲突高（未满也可能发生数据块替换）
成本低，适合于大容量 $cache$ 使用
替换算法简单。访问不命中则直接替换相应 $cache$ 行即可；但是，若该 $cache$ 行存在脏数据，需要将脏数据写入二级存储器以保证数据一致性

习题

习题一

计算机字长为 $32$ 位，主存容量为 $4MB$ ，按字节编址， $cache$ 采用直接映射， $cache$ 数据存储体容量为 $4KB$ ， $cache$ 块长度为 $8$ 个字

问主存字节地址的划分情况
- $cache$ 块（指的是数据块）的长度为 $8\times 32b=32B=2^5B$ ，所以块内偏移 $w=5$
  - $cache$ 数据块的大小和主存数据块的大小是一样的，所以如果题目中给的是主存数据块的大小，也是可以求出块内偏移的
- $cache$ 行数为 $4KB/32B=2^7$ ，所以区行内地址 $r=7$
- 因为主存容量为 $4MB=2^{22}B$ ，所以地址线为 $22$ 位，即主存地址为 $22$ 位
  - 注意区分计算机字长和主存地址位数
- 区地址位数为 $22-5-7=10$
设 $cache$ 的初始状态为空，若 $CPU$ 依次访问主存，从 $0$ 到 $99$ 号字单元，并从中读出 $100$ 个字（假设访问主存一次读出一个字），并重复此顺序 $10$ 次，计算 $cache$ 访问的命中率

$cache$ 有 $128$ 行，每行有 $8$ 个字

读出的 $100$ 个字会存储在 $cache$ 的前 $\lceil\frac{100}{8}\rceil=13$ 中，每一行的第一次读访问都不命中，其余的所有都命中

命中率

$h=\frac{100\times 10-13}{100\times 10}=98.7\%$

习题二

习题三

注意：在写回策略中需要在 $cache$ 中增加脏位

习题四

数据 $cache$ 的总容量为 ${cache\text{ 行数 }\times \text{ 行大小}}$

对主存地址分析：
- 主存地址 $256MB=2^{28}B$ ，所以内存地址位数为 $28$
- $cache$ 行数为 $8$ ，所以 $index=3$
- $cache$ 块大小为 $64B=2^{6}B$ ，所以 $w=6$
- $tag=28-3-6=19$
那么 $cache$ 的容量为 $8\times((1+19)+(64\times 8))/8B=532B$
$a[0][31]$ 所处的主存地址为

$320+31\times 4=444$

$a[1][1]$ 所处的主存地址为

$320+(256\times 4)+1\times 4=1348$

$cache$ 中对应的行号为主存块号 $mod$ $cache$ 行数

$a[0][31]$ 所处的 $cache$ 行号为

$(444/64)\mod 8=6$

$a[1][1]$ 所处的 $cache$ 行号为

$(1348/64)\mod 8=5$
行优先存储：

因为 $cache$ 块大小为 $64B$ ，所以每个 $cache$ 数据块可以存储 $16$ 个 $int$ 型数据

顺序访问时，第一次访问数据缺失，后 $15$ 次访问命中

所以命中率为 ${\frac{15}{16}}$

列有限存储：

每次都不命中，命中率为 $0$