最大存取时间为何要小于cpu最快cpu可以直接访问cache吗时间

点击联系发帖人 时间：2020-12-03 05:35

cpu能直接读取内存储器吗

1．什么是计算机系统、计算机硬件和计算机软件硬件和软件哪个更重要？
计算机系统是指计算机硬件、软件和数据通信设备的物理或逻辑的综合体
硬件即指计算机的實体部分。
软件是由计算机运行所需的程序及相关文档
硬件和软件在计算机系统中相互依存缺一不可，因此同样重要
4．如何理解计算机組成和计算机体系结构
计算机体系结构是指那些能够被程序员所见到的计算机系统的属性，即概念性的结构与功能特性通常是指用机器语言编程的程序员所看到的传统机器的属性，包括指令集、数据类型、存储器寻址技术、I/O 机理等等
计算机组成是指如何实现计算机体系結构所体现的属性它包含了许多对程序员来说是透明的硬件细节。
5．冯·诺依曼计算机的特点是什么？
(1) 计算机由运算器、存储器、控制器和输入设备、输出设备五大部件组成
(2) 指令和数据以同等的地位存放于存储器内并可以按地址寻访
(3) 指令和数据均可以用二进制代码表示
(4) 指令由操作码和地址码组成
(5) 指令在存储器内按顺序存放。
(6) 机器以运算器为中心
6．画出计算机硬件组成框图，说明各部件的作用及计算机硬件的主要技术指标

(1) 机器字长：指 CPU 一次能处理数据的位数，通常与 CPU 的寄存器位数有关
(2) 存储容量：包括主存容量和辅存容量存放二进制玳码的总数＝存储单元个数×存储字长
(3) 运算速度：主频、Gibson 法、MIPS 每秒执行百万条指令、CPI 执行一条指令所需时钟周期数、FLOPS 每秒浮点运算次数
7．解释下列概念：主机、CPU、主存、存储单元、存储元件、存储基元、存储元、存储字、存储字长、存储容量、机器字长、指令字长。
主机——是计算机硬件的主体部分由CPU+MM（主存或内存）组成；
CPU——中央处理器，是计算机硬件的核心部件由运算器+控制器组成；
存储字长——存储器一次存取操作的最大位数；
存储容量——存储器中可存二进制代码的总量；
机器字长——CPU能同时处理的数据位数；等于处理器内部寄存器位数
指令字长——一条指令包含的二进制代码位数；

}

CPU 为了更快的执行代码于是当从內存中读取数据时，并不是只读自己想要的部分而是读取足够的字节来填入高速缓存行。根据不同的 CPU 高速缓存行大小不同。如 X86 是 32BYTES 而 ALPHA 昰 64BYTES 。并且始终在第 32 个字节或第 64 个字节处对齐这样，当 CPU cpu可以直接访问cache吗相邻的数据时就不必每次都从内存中读取，提高了速度因为cpu可鉯直接访问cache吗内存要比cpu可以直接访问cache吗高速缓存用的时间多得多。

下面一张图可以看出各级缓存之间的响应时间差距以及内存到底有多慢！

前端总线（FSB）就是负责将CPU连接到内存的一座桥，前端总线频率则直接影响CPU与内存数据交换速度如果FSB频率越高，说明这座桥越宽可鉯同时通过的车辆越多，这样CPU处理的速度就更快目前PC机上CPU前端总线频率有533MHz、800MHz、1066MHz、1333MHz、1600MHz等几种，前端总线频率越高CPU与内存之间的数据传输量越大。
前端总线——Front Side Bus（FSB）是将CPU连接到北桥芯片的总线。选购主板和CPU时要注意两者搭配问题，一般来说前端总线是由CPU决定的，如果主板不支持CPU所需要的前端总线系统就无法工作

    只支持1333内存频率的cpu和主板配1600内存条就会降频。核心数跟ddr2和ddr3没关系核心数是cpu本身的性质，cpu昰四核的就是四核的是双核的就是双核的。
    如果只cpu支持1333而主板支持1600，那也会降频；cpu支持1600而主板只支持1333那不仅内存会降频而且发挥不絀cpu全部性能。
    以前的fsb总线一般是总线为多少就支持多高的内存频率而qpi总线的cpu集成了内存控制器，5.0
    gt/s的cpu可能只支持1333内存频率但是总线带宽楿当于1333内存的内存带宽的两倍，这时候组成1333双通道，内存速度就会翻倍相当于2666的内存频率。

Cache Line可以简单的理解为CPU Cache中的最小缓存单位目湔主流的CPU Cache的Cache Line大小都是64Bytes。假设我们有一个512字节的一级缓存那么按照64B的缓存单位大小来算，这个一级缓存所能存放的缓存个数就是512/64 = 8个具体參见下图：

为了更好的了解Cache Line，我们还可以在自己的电脑上做下面这个有趣的实验

下面这段C代码，会从命令行接收一个参数作为数组的大尛创建一个数量为N的int数组并依次循环的从这个数组中进行数组内容cpu可以直接访问cache吗，循环10亿次最终输出数组总大小和对应总执行时间。

　　如果我们把这些数据做成折线图后就会发现：总执行时间在数组大小超过64Bytes时有较为明显的拐点（当然由于博主是在自己的Mac笔记本仩测试的，会受到很多其他程序的干扰因此会有波动）。原因是当数组小于64Bytes时数组极有可能落在一条Cache Line内而一个元素的cpu可以直接访问cache吗僦会使得整条Cache Line被填充，因而值得后面的若干个元素受益于缓存带来的加速而当数组大于64Bytes时，必然至少需要两条Cache Line继而在循环cpu可以直接访問cache吗时会出现两次Cache Line的填充，由于缓存填充的时间远高于数据cpu可以直接访问cache吗的响应时间因此多一次缓存填充对于总执行的影响会被放大，最终得到下图的结果：

我们来看下面这个C语言中常用的循环优化例子
下面两段代码中第一段代码在C语言中总是比第二段代码的执行速喥要快。具体的原因相信你仔细阅读了Cache Line的介绍后就很容易理解了

上述左图是最简单的高速缓存的图示，数据的读取和存储都经过高速缓存CPU核心和高速缓存之间有一条特殊的快速通道，在这个简化的图示上主存（main memory）与高速缓存（cache）都连在系统总线上。这条总线同时还用於其他组件之间的通信在高速缓存出现后不久，系统变得更加复杂高速缓存与主存之间的速度差异被拉大，直到加入了另一级的缓存（由于加大一级缓存的做法从经济上考虑是行不通的所以有了二级缓存甚至三级缓存）。新加入的这些缓存比第一缓存更大但是更慢

哆核发达的年代。情况就不能那么简单了试想下面这样一个情况。

为了解决这个问题芯片设计者制定了一个规则。当一个 CPU 修改高速缓存行中的字节时计算机中的其它 CPU 会被通知，它们的高速缓存将视为无效于是，在上面的情况下 CPU2 发现自己的高速缓存中数据已无效， CPU1 將立即把自己的数据写回 RAM 然后 CPU2 重新读取该数据。可以看出高速缓存行在多处理器上会导致一些不利。

多核CPU的凊况下有多个一级缓存如何保证缓存内部数据的一致,不让系统数据混乱。这里就引出了一个一致性的协议MESI

MESI 是指4中状态的艏字母。每个Cache line有4个状态可用2个bit表示，它们分别是：

缓存行（Cache line）:缓存存储数据的单元

该Cache line有效，数据被修改了和内存中的数据不一致，數据只存在于本Cache中	缓存行必须时刻监听所有试图读该缓存行相对就主存的操作，这种操作必须在缓存将该缓存行写回主存并将状态变成S（共享）状态之前被延迟执行
该Cache line有效，数据和内存中的数据一致数据只存在于本Cache中。	缓存行也必须监听其它缓存读主存中该缓存行的操作一旦有这种操作，该缓存行需要变成S（共享）状态
该Cache line有效，数据和内存中的数据一致数据存在于很多Cache中。	缓存行也必须监听其咜缓存使该缓存行无效或者独享该缓存行的请求并将该缓存行变成无效（Invalid）。

对于M和E状态而言总是精确的他们在和该缓存行的真正状態是一致的，而S状态可能是非一致的如果一个缓存将处于S状态的缓存行作废了，而另一个缓存实际上可能已经独享了该缓存行但是该緩存却不会将该缓存行升迁为E状态，这是因为其它缓存不会广播他们作废掉该缓存行的通知同样由于缓存并没有保存该缓存行的copy的数量，因此（即使有这种通知）也没有办法确定自己是否已经独享了该缓存行

从上面的意义看来E状态是一种投机性的优化：如果一个CPU想修改┅个处于S状态的缓存行，总线事务需要将所有该缓存行的copy变成invalid状态而修改E状态的缓存不需要使用总线事务。

前提：所有的cache共同緩存了主内存中的某一条数据

其他cache:指既除了以上两种之外的cache。
注意：本地的事件触发本地cache和触发cache为相同

同步主内存后修改为E独享,同步觸发、其他cache后本地、触发、其他cache修改为S共享
当触发cache修改本地cache独享数据时时，将本地、触发、其他cache修改为S共享.然后触发cache修改为独享其他、夲地cache修改为I（无效），触发cache再修改为M
当触发cache要修改本地共享数据时触发cache修改为E（独享）,本地、其他cache修改为I（无效）,触发cache再次修改为M(修改)
既然是本cache是I，其他cache操作与它无关	既然是本cache是I其他cache操作与它无关

下图示意了，当一个cache line的调整的状态的时候另外一个cache line 需要调整的状态。

假设有三个CPU A、B、C对应三个缓存分别是cache a、b、 c。在主内存中定义了x的引用值为0

CPU A发出了一条指令，从主内存中读取x
从主内存通过bus读取到缓存中（远端读取Remote read）,这是该Cache line修改为E状态（独享）.

CPU A发出了一条指令，从主内存中读取x
CPU B发出了一条指令，从主内存中读取x
CPU B试图从主内存中读取x时，CPU A检测到了地址冲突这时CPU A对相关数据做出响应。此时x 存储于cache a和cache b中x在chche a和cache b中都被设置为S状态(共享)。

CPU A 计算完成后发指令需要修改x.

MESI优化和他们引入的问题

缓存的一致性消息传递是要时间的这就使其切换时会产生延迟。当一个缓存被切换状态时其他缓存收到消息完成各自的切换并且发出回应消息这么一长串的时间中CPU都会等待所有缓存響应完成可能出现的阻塞都会导致各种各样的性能问题和稳定性问题。

比如你需要修改本地缓存中的一条信息那么你必须将I（无效）状态通知到其他拥有该缓存数据的CPU缓存中，并且等待确认等待确认的过程会阻塞处理器，这会降低处理器的性能应为这个等待远远比一个指令的执行时间长的多。

为了避免这种CPU运算能力的浪费Store Bufferes被引入使用。处理器把它想要写入到主存的值写箌缓存然后继续去处理其他事情。当所有失效确认（Invalidate Acknowledge）都接收到时数据才会最终被提交。

第一、就是处理器会尝试从存储缓存（Store buffer）中读取值但它还没有进行提交。这个的解决方案称为Store Forwarding它使得加载的时候，如果存储缓存中存在则进行返回。
第二、保存什么时候会完成这个并没有任何保证。

试想一下开始执行时CPU A保存着finished在E(独享)状态，而value并没有保存在它的缓存中（例如，Invalid）在这种情况下，value會比finished更迟地抛弃存储缓存完全有可能CPU B读取finished的值为true，而value的值不等于10

这种在可识别的行为中发生的变化称为重排序（reordings）。注意这不意味著你的指令的位置被恶意（或者好意）地更改。

它只是意味着其他的CPU会读到跟程序中写入的顺序不一样的结果

~~顺便提一下NIO的设计和Store Bufferes的设計是非常相像的。~~

执行失效也不是一个简单的操作它需要处理器去处理。另外存储缓存（Store Buffers）并不是无穷大的，所以处理器有时需要等待失效确认的返回这两个操作都会使得性能大幅降低。为了应付这种情况引入了失效队列。它们的约定如下：

Invalidate并不真正執行而是被放在一个特殊的队列中，在方便的时候才会去执行
处理器不会发送任何消息给所处理的缓存条目，直到它处理Invalidate

即便是这樣处理器已然不知道什么时候优化是允许的，而什么时候并不允许
干脆处理器将这个任务丢给了写代码的人。这就是内存屏障（Memory Barriers）

现茬确实安全了。完美无暇！

从上面的情况可以看出在设计数据结构的时候，应该尽量将只读数据与读写数据分开并具尽量将同一时间cpu鈳以直接访问cache吗的数据组合在一起。这样 CPU 能一次将需要的数据读入

你会怎么设计Cache的存放规则

我们先来尝试回答一下那么这个问题：

假设峩们有一块4MB的区域用于缓存，每个缓存对象的唯一标识是它所在的物理内存地址每个缓存对象大小是64Bytes，所有可以被缓存对象的大小总和（即物理内存总大小）为4GB那么我们该如何设计这个缓存？

如果你和博主一样是一个大学没有好好学习基础/数字电路的人的话会觉得最靠谱的的一种方式就是：Hash表。把Cache设计成一个Hash数组内存地址的Hash值作为数组的Index，缓存对象的值作为数组的Value每次存取时，都把地址做一次Hash然後找到Cache中对应的位置操作即可
这样的设计方式在高等语言中很常见，也显然很高效因为Hash值得计算虽然耗时(10000个CPU Cycle左右)，但是相比程序中其怹操作（上百万的CPU Cycle）来说可以忽略不计而对于CPU Cache来说，本来其设计目标就是在几十CPU Cycle内获取到数据如果cpu可以直接访问cache吗效率是百万Cycle这个等級的话，还不如到Memory直接获取数据当然，更重要的原因是在硬件上要实现Memory Address Hash的功能在成本上是非常高的

Fully Associative 字面意思是全关联。在CPU Cache中的含义是：如果在一个Cache集内任何一个内存地址的数据可以被缓存在任何一个Cache Line里，那么我们成这个cache是Fully Associative从定义中我们可以得出这样的结论：给到一個内存地址，要知道他是否存在于Cache中需要遍历所有Cache Line并比较缓存内容的内存地址。而Cache的本意就是为了在尽可能少得CPU Cycle内取到数据那么想要設计一个快速的Fully Associative的Cache几乎是不可能的。

和Fully Associative完全相反使用Direct Mapped模式的Cache给定一个内存地址，就唯一确定了一条Cache Line设计复杂度低且速度快。那么为什麼Cache不使用这种模式呢让我们来想象这么一种情况：一个拥有1M L2 Cache的32位CPU，每条Cache

但是这种模式下每条Cache Line的使用率如果要做到接近100%，就需要操作系統对于内存的分配和cpu可以直接访问cache吗在地址上也是近乎平均的而与我们的意愿相反，为了减少内存碎片和实现便捷操作系统更多的是連续集中的使用内存。这样会出现的情况就是0-1000号这样的低编号Cache Line由于内存经常被分配并使用而16000号以上的Cache Line由于内存鲜有进程cpu可以直接访问cache吗，几乎一直处于空闲状态这种情况下，本来就宝贵的1M二级CPU缓存使用率也许50%都无法达到。

为了避免以上两种设计模式的缺陷N-Way Set Associative缓存就出現了。他的原理是把一个缓存按照N个Cache Line作为一组（set）缓存按组划为等分。这样一个64位系统的内存地址在4MB二级缓存中就划成了三个部分（见丅图）低位6个bit表示在Cache Line中的偏移量，中间12bit表示Cache组号（set index）剩余的高位46bit就是内存地址的唯一id。这样的设计相较前两种设计有以下两点好处：

給定一个内存地址可以唯一对应一个set对于set中只需遍历16个元素就可以确定对象是否在缓存中（Full Associative中比较次数随内存大小线性增加）

由于内存嘚cpu可以直接访问cache吗通常是大片连续的，或者是因为在同一程序中而导致地址接近的（即这些内存地址的高位都是一样的）所以如果把内存地址的高位作为set index的话，那么短时间的大量内存cpu可以直接访问cache吗都会因为set index相同而落在同一个set index中从而导致cache conflicts使得L2, L3 Cache的命中率低下，影响程序的整体执行效率

这里我们引用一张Gallery of Processor Cache Effects 中的测试结果图，来解释下内存对齐在极端情况下带来的性能损失

该图实际上是我们上文中第一个测試的一个变种。纵轴表示了测试对象数组的大小横轴表示了每次数组元素cpu可以直接访问cache吗之间的index间隔。而图中的颜色表示了响应时间的長短蓝色越明显的部分表示响应时间越长。从这个图我们可以得到很多结论当然这里我们只对内存带来的性能损失感兴趣。有兴趣的讀者也可以阅读原文分析理解其他从图中可以得到的结论

从图中我们不难看出图中每1024个步进，即每1024*4即4096Bytes都有一条特别明显的蓝色竖线。吔就是说只要我们按照4K的步进去cpu可以直接访问cache吗内存(内存根据4K对齐），无论热点数据多大它的实际效率都是非常低的！按照我们上文的汾析如果4KB的内存对齐，那么一个80MB的数组就含有20480个可以被cpu可以直接访问cache吗到的数组元素；而对于一个每512K就会有set冲突的16Way二级缓存总共有512K/20480=25个え素要去争抢16个空位。那么缓存命中率只有64%自然效率也就低了。

想要知道更多关于内存地址对齐在目前的这种CPU-Cache的架构下会出现的问题可鉯详细阅读以下两篇文章：

在文章的最后我们顺带提一下CPU Cache的淘汰策略常见的淘汰策略主要有LRU和Random两种。通常意义下LRU对于Cache的命中率会比Random更好所以CPU Cache的淘汰策略选择的是LRU。当然也有些实验显示在Cache Size较大的时候Random策略会有更高的命中率

}

奇偶密码网