从GPU诞生说起：AMD统一渲染架构回顾及展望（转）

从GPU诞⽣说起：AMD统⼀渲染架构回顾及展望（转）

导读：AMD统⼀渲染架构全回顾

数⽉之前，笔者曾写过《》⼀⽂，⽂章就AMD（ATI）的显卡发展之路进⾏了详细回顾，对历代⽐较有代表性的显卡以及重⼤事件着墨较多。撰⽂之时，Radeon HD 5000风华正茂，Radeon HD 6000还在孕育当中。时光飞梭，如今Radeon HD 6000已部署完毕，具有颠覆意义的APU也横空出世，传统GPU与CPU的概念将逐步⾛向融合。借此之机，笔者希望通过此⽂对AMD以往统⼀渲染GPU架构的发展历程进⾏回顾，以此窥探AMD未来GPU架构将会朝着何种⽅向发展。

溯本归源：GPU的由来及渲染流程

为什么要有GPU？说实话，这个问题有些难回答，不过我们依然从过往的⼀些回忆中引出GPU的概念。虽然民⽤显卡可以追溯到上世纪的80年代，但当时的并没有GPU的概念，⽽所谓的显卡更多的被成为显⽰适配器（Display Adapter），仅能⽤于简单的⽂字和图形输出，在处理3D图像和特效是主要还是依赖CPU。

史上⾸款GPU—GeForce 256

真正的GPU，也就是Graphic Processing Unit（图形处理器）的概念，最早是由NVIDIA在1999年发布G

eForce 256图形处理芯⽚时⾸先提出的，核⼼技术有硬体T&L、⽴⽅环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等等。GPU 的出现使得显卡减少了对CPU的依赖，尤其是在3D图形处理时取代了部分原本CPU的⼯作，⽽这⼀切都要归功于GPU引⼊的硬件T&L（Transform & lighting，坐标转换和光源）功能。

本质上来说，3D图形的渲染是由复杂的坐标转换和光源运算组成的，当显卡还没有T&L功能时，坐标处理和光源运算都是由CPU来处理的，也就是所谓的软件T&L。不过由于CPU的任务繁多，除了T&L之外，还要做内存管理、输⼊响应等⾮3D图形处理⼯作，因此在实际运算的时候性能会⼤打折扣，常常出现显卡等待CPU数据的情况，其运算速度远跟不上复杂3D游戏的要求。

弯曲弹簧硬件T&L

⽽GPU从硬件上⽀持T&L以后， CPU就得以从繁重的运算中解脱出来。⾸先，3D模型可以⽤更多的多边形来描绘，这样就拥有了更加细腻的效果。其次，CPU不必再计算⼤量的光照数据，直接通过显卡就能获得更好的效能。虽然后来的GPU取消了T&L，采⽤全新的Shader Model来完成3D建模和光影效果，但就当时来说，硬体T&L技术是GPU的标志。限于篇幅，关于T&L更多的细节这⾥就不再⼀⼀赘述。

下⾯要说⼀下GPU的⼯作原理，虽然这和今天的主题看起来离得有些远，不过考虑到能够对下⾯章节

更好的阐述，我认为还是很有必要的。简单的说，GPU的主要功能就是完成对3D图形的处理即⽣成渲染。⼀般来说，GPU的图形处理流⽔线可分为以下五个阶段：

传统GPU渲染流程

1、顶点处理：这个阶段GPU读取描述3D图形外观的顶点数据并根据顶点数据确定3D图形的形状及位置关系，建⽴起3D图形的⾻架。在⽀持DX8以后的GPU中，这些⼯作由硬件实现的Vertex Shader（顶定点着⾊器）完成。

2、光栅化计算：显⽰器实际显⽰的图像是由像素组成的，我们需要将上⾯⽣成的图形上的点和线通过⼀定的算法转换到相应的像素点。把⼀个⽮量图形转换为⼀系列像素点的过程就称为光栅化。例如，⼀条数学表⽰的斜线段，最终被转化成阶梯状的连续像素点。

3、纹理帖图：顶点单元⽣成的多边形只构成了3D物体的轮廓，⽽纹理映射（texture mapping）⼯作完成对多边形表⾯的帖图，通俗的说，就是将多边形的表⾯贴上相应的图⽚，从⽽⽣成“真实”的图形。TMU（Texture mapping unit）即是⽤来完成此项⼯作。

4、像素处理：这阶段（在对每个像素进⾏光栅化处理期间）GPU完成对像素的计算和处理，从⽽确定每个像素的最终属性。在⽀持DX8以后的GPU中，这些⼯作由硬件实现的Pixel Shader（像素着⾊器）完成。

5、最终输出：由ROP（光栅化引擎）最终完成像素的输出，1帧渲染完毕后，被送到显存帧缓冲区。

所以通俗⼀点来讲，GPU的⼯作就是完成3D图形的⽣成，将图像映射到相应的像素点上，并且对每个像素进⾏计算确定最终颜⾊，最后完成输出。

传统GPU顶点单元和像素单元的出现

上⽂我们提到了GPU的由来以及渲染过程，以及象征着初期GPU标识的T&L。GPU通过硬件T&L，实现⼤量的坐标和光影转换。随着更加复杂多变的图形效果的出现，顶点和像素运算的需求量⼤幅提升，此时的GPU架构也遇到了⼀些⿇烦的问题。游戏画⾯的提⾼对GPU有了更⾼的要求，图形处理⽣成多边形的过程中需要加上许多附加运算，⽐如顶点上的纹理信息、散光和映射光源下的颜⾊表现等等，有了这些就可以实现更多的图形效果。

当然，与此同时带来的就是对GPU顶点和像素的计算能⼒极具考验。通过对GPU图形流⽔线的分析，⼯程师们发现与传统的硬件T&L相⽐，另⼀种⽅案具有更⾼的效率和灵活性，这就是Shader（渲染器/着⾊器）的出现。2001年微软发布的DirectX 8带出了Shader

Model（渲染单元模式），Shader也由此诞⽣。

DX8显卡体系结构及渲染流⽔线

梁延淼本质上来说，Shader是⼀段能够针对3D图像进⾏操作并被GPU所执⾏的图形渲染指令集。通过这些指令集，开发⼈员就能获得⼤部分想要的3D图形效果。在⼀个3D场景中，⼀般包含多个Shader，这些Shader中有的负责对3D对象顶点进⾏处理，有的负责对3D对象的像素进⾏处理。所以最早版本的Shader Model 1.0中，根据操作对象的不同分别Vertex Shader（顶点着⾊器/顶点单元，VS）和Pixel

Shader（像素着⾊器/像素单元，PS）。

相⽐T&L实现的固定的坐标和光影转换，VS和PS拥有更⼤的灵活性，使得GPU在硬件上实现了顶点和像素的可编程（虽然当时的可编程特性与现在相⽐很是孱弱），反映在图形特效上就是出现了动态的光影效果，游戏玩家们第⼀次见到了更加逼真波光粼粼的⽔⾯；⽽对于开发者来说，游戏的开发难度也⼤⼤降低了。从历史意义上来讲，Shader Model的出现对GPU来说是⼀场空前的⾰命，⽇后也成为DirectX API的⼀个重要部分。每逢DirectX版本升级，Shader Model的技术特性都会随之增强和扩充。

具体来说，VS的主要作⽤就是构建3D图形的⾻架，也就是顶点。本质上，任何3D图形在计算机中只有两种存在形式，构建⾻架的顶点以及连接顶点之间的直线。⽐如，我们划⼀个圆，计算机会把它当做多边形来处理；如果精度较低，可能是5边形和或6边形；如果精度较⾼，则会是500边形或600边形，

也就是⼏百个顶点和⼏百个直线。

⽽PS的作⽤就更好理解了，主要负责VS之后的处理，⽐如图形表⾯的纹理以及像素值、颜⾊等等，使其达到预期的的效果。不过PS中根据各⼯种的不同细化分为像素渲染单元（Pixel Shader Unit，PSU）、纹理贴图单元（Texture Map Unit，TMU）以及光栅化单元（Raster Operations Pipe，ROP；A卡中叫做Render Back End，RBE）。PSU主要负责像素的处理⼯作，⽐如我们在游戏中见到的场景、光影效果等；TMU主要负责纹理处理⼯作，⽐如树⽊、⽯头的纹理以及⽔⾯反射等等；⽽ROP/RBE负责像素的最终输出⼯作，执⾏像素的读／写操作、Z-Buffer检查、⾊彩混合及抗锯齿等。

传统GPU管线的的概念和SIMD架构

微波烧结炉以上诸多单元协同⼯作，就形成了渲染管线（Shader Pipeline）的概念。渲染管线也习惯上被成为渲染流⽔线，从某种程度上来讲，我们可以把它看做⼯⼚⾥⾯常见的⽣产流⽔线，⼯⼚⾥的⽣产流⽔线是为了提⾼产品的⽣产能⼒和效率，⽽渲染管线则是提⾼显卡的⼯作能⼒和效率。当然，同样按照⼯种，还可分为顶点渲染管线（Vertex Shader Pipeline，主要就是指顶点单元）和像素渲染管线（Pixel Shder Pipeline，包括PSU、TMU和ROP/RBE），⽽我们常说的渲染管线就是指像素渲染管线。

在传统GPU实时渲染的时候，⼀条管线显然是远远不够的，于是多条管线并⾏处理的结构诞⽣了。⼀般在同等芯⽚的对⽐情况下，管线数量越多性能越⾼；同样管线数量的情况下，新核⼼的性能要⾼于

于⽼核⼼的产品。不过另外⼀个问题⼜出现了，传统意义上的像素流⽔线各个部分单元⽐例相当，但随着3D图形技术的发展，管线各部分负载的压⼒开始不均衡起来。

最简单的例⼦就是，VS很快完成顶点处理的任务，然后发现PS部分还忙得不可开交。由于运算量太⼤，PS既不能接收VS的新数据，⼜不能给后⾯的ROP/RBE输出信号，就造成数据的延迟出现。所以PS成为了管线中的瓶颈；这种情况下，使⽤更多的PS单元来加强像素和纹理处理⼯作就成为显卡着重改进的地⽅。⽽PS的数量也成了衡量显卡性能的标准之⼀（针对早期GPU来说）。

VS和PS都是四元组结构

经过上⾯的介绍，我们知道VS和PS是传统GPU中的两项重要指标，那么VS和PS在架构⼜有何异同呢？在计算机图形处理中，最常见的像素数据都是由R、G、B（红、绿、蓝）三种颜⾊构成的，加上它们共有的信息说明（Alpha），⽤来表⽰颜⾊的透明度，加起来总共是四个通道；⽽顶点数据⼀般是由X、Y、Z、W四个坐标构成，这样也是四个通道。所以从架构上来看，VS和PS既有相同⼜有不同之处。相同之处在于，⼆者处理的都是四元组数据，不同之处在于VS需要⽐较⾼的计算精度，⽽PS计算精度较低。

事实上，在3D图形进⾏渲染的过程中，VS和PS的主要⼯作就是进⾏X、Y、Z、W四个坐标运算和计算除R、G、B、A得出像素颜⾊。为了⼀次性处理1个完整的⼏何转换或像素渲染，GPU的VS和PS从

最初就被设计成为同时具备4次运算能⼒的算数逻辑运算器（ALU）。⽽数据的基本单元是Scalar（标量），就是指⼀个单独的变量，所以GPU的ALU进⾏⼀次这种变量操作，被称做1D标量。

SIMD架构⽰意

与标量对应的是Vector（⽮量），⼀个⽮量由N个标量标量组成。所以传统GPU的ALU在⼀个时钟周期可以同时执⾏4次标量的并⾏运算被称做4D Vector（⽮量）操作。虽然GPU的ALU指令发射端只有⼀个，但却可以同时运算4个通道的数据，这就是单指令多数据流（Single Instruction Multiple Data，SIMD）架构。

超分散剂应用涂料工业SIMD的弊端和统⼀渲染架构的出现

承接上⽂，由于先天性设计的优势，SIMD能够有效提⾼GPU的⽮量处理性能，尤其是在顶点和像素都是4D⽮量的时候，只需要⼀个指令端⼝就能在单周期内完成预运算，可以做到100%效率运⾏不浪费运算单元。虽然早期SIMD执⾏效率很⾼，因为很多情况都是4D⽮量的运算操作。但随着3D技术的不断发展，图形API和Shader指令中的标量运算也开始不断增多，1D/2D/3D混合指令频率出现，这时SIMD架构的弊端就显现出来了。当执⾏1D标量指令运算的时候，SIMD的效率就会下降到原来的1/4，也就是说在⼀个运算周期内3/4的运算单元都被浪费了。

混合型SIMD架构的出现

遇到问题的时候，当时的ATI和NVIDIA都在寻求改进。进⼊DX9时代之后，混合型SIMD设计得到采⽤，不再使⽤单纯的4D⽮量架构，允许⽮量和标量指令可以并⾏运算（也就是Co-issue技术）。⽐如当时的ATI的R300就采⽤了3D⽮量+1D标量架构，⽽NVDIA的NV40之后也采⽤了2D⽮量+2D标量和3D⽮量+1D标量两种运算模式。虽然Co-isuue技术⼀定程度上解决了SIMD架构标量指令执⾏率低的问题，但遇到需要分⽀预测运算的情况，依然⽆法发挥ALU的最⼤运算能⼒。

除了SIMD架构的弊端之外，VS和PS构成的所谓“分离式”渲染架构也遭遇了⿇烦。在全新⼀代图形API DirectX 10的到来之前，顶点渲染和像素渲染各⾃独⽴进⾏，⽽且⼀旦当架构确定下来，VS和PS的⽐例就会固定。微软认为这种分离渲染架构不够灵活，不同的GPU，其VS和PS的⽐例不⼀样，⼤⼤限制了开发⼈员⾃由发挥的空间。另外，不同的应⽤程序和游戏对像素渲染和顶点渲染的需求不⼀样，导致GPU的运算资源得不到充分利⽤。

分离式渲染架构：VS和PS负载不均

统⼀渲染架构：VS和PS负载均衡

举例来说，许多⼤型3D游戏中的独⽴渲染场景中，遇到⾼负载⼏何⼯作的时候，VS处理压⼒增⼤⼤，⽽PS单元⼯作较少很多时候都被闲置；反之，遇到⾼负载像素⼯作的时候，PS处理压⼒增⼤，⽽VS⼜处于闲置状态。加上传统的PS和VS以前都是各⾃为战，彼此不相⼲涉，PS也帮不上VS任何

忙，也就造成了GPU执⾏效率的降低。传统的管线架构已经跟不上时代了，⽽这也就促使了DirectX 10中统⼀渲染架构（Unified Shader Architecture）的出现。

分离式架构和统⼀架构的差异

轴流风机启动所谓统⼀渲染架构，就是将传统的VS、PS以及DirectX 10新引⼊的GS进⾏统⼀分装。与传统GPU架构不同，此时的GPU不再分配单独的渲染管线，所有的运算单元都可以处理任何⼀种Shader运算（不论顶点操作、像素操作还是⼏何操作），⽽这种运算单元就是经常提到的统⼀渲染单元（Unified Shader，US）。它的出现避免了传统GPU架构中PS和VS资源分配不合理的现象，也使得GPU的利⽤率更⾼。US的概念⼀直沿⽤⾄今，⼀般来说US的数量越多，GPU的3D渲染执⾏能⼒就越强，所以US的数量也就成了判断显卡性能的⼀个主要标准。

Xenos与第⼀款统⼀渲染架构GPU

不过对于很多GPU爱好者来说，第⼀次接触统⼀渲染架构的概念并⾮来⾃桌⾯显卡，⽽是当时还没被收购的ATI于2005年与微软合作发布的XBOX 360游戏主机采⽤的Xenos图形处理器。Xenos采⽤了统⼀渲染架构，顶点、像素等操作都在US上执⾏，架构上区别于ATI以往任何⼀款GPU，是ATI第⼀代统⼀渲染架构，对⽇后的R600等也有较⼤影响。关于的详细架构，这⾥限于篇幅就不再过多介绍，感兴趣的读者可以⾃⾏查阅。

Xenos的逻辑架构⽰意图

那么第⼀款统⼀渲染架构的桌⾯GPU呢？虽然理论上这款GPU⾮ATI莫属，毕竟已经有了Xenos的设计经验。不过由于2006年7⽉份被AMD收购，ATI主要忙收购之后的事宜，研发精⼒⼤打折扣，反倒被没有统⼀渲染架构设计经验的NVIDIA在同年7⽉份抢先发布G80核⼼的GeForce 8800 GTX显卡，掀开了桌⾯统⼀渲染GPU架构的序幕。G80是NVDIA显卡历史上⼀款极具划时代意义的GPU，⾰命性的架构影响了⽇后的数代显卡。（虽然G80与AMD毫不相⼲，但通过G80的和下⽂R600的对⽐，我们能够发现A/N两家在⾯对统⼀架构时做出的不同选择。）

G80的流处理器结构

G80架构上的改变可谓相当激进，在实现统⼀渲染单元（Unified Shader，US）的过程中，将传统GPU架构中VS和PS中的4D⽮量 ALU 重新设计为功能更全的1D标量ALU，每⼀个ALU都有⾃⼰的专属指令发射器，所有运算全部转化为1D标量运算，可在⼀个周期内完成乘加操作。这种1D标量的ALU被NVIDIA称为流处理器（Stream Processors，SP）。

G80核⼼架构图

G80采⽤的1D标量式的流处理器架构称为多指令多数据流架构（MIMD），完全区别于传统GPU的SI

MD架构。MIMD⾛的是彻底的标量化路线，这种实现的最⼤好处是灵活、效率更⾼，不论是1D、2D、3D、4D指令，G80都通过编译器将其拆成1D指令交给不同的SP来处理。

每个TPC的详细结构

这样也带来了⼀些问题，传统GPU中⼀个周期完成的4D⽮量操作，在这种标量SP中需4个周期才能完成，或者说1个4D操作需要4个SP并⾏处理完成，那么执⾏效率是否会受到很⼤影响呢？不过NVIDIA异步架构将核⼼频率和流处理器频率分离，流处理频率进⾏了⼤幅提升，达到两倍于核⼼频率的⽔平，同时⼤幅增加流处理器数量的⽅法很好的解决了这⼀问题。

除了流处理器，G80的纹理单元也被重新设计，将传统纹理单元（TMU）的功能拆分为两种单元：纹理寻址单元（Texture Address Unit）和纹理过滤单元（TexTure Filtering Unit），它们以跟核⼼频率相同的频率运作，以1：2的⽐例组成了新的纹理渲染阵列（Tex Array）。

所以规格⽅⾯，G80核⼼拥有128个流处理器、64个纹理单元和24个光栅单元，由8个TPC（Thread Processing Cluster，线程处理器集）组成，每个TPC中拥有两组SM（Streaming Multiprocesser，流式多处理器），每组SM拥有16个流处理器和8个纹理单元。每⼀个TPC都拥有独⽴的8个纹理过滤单元（Texture Filtering Unit，TFU）、4个纹理寻址单元（Texture Address Unit，TAU）以及L1缓存。

虽然MIMD架构看起来⽆懈可击额，不过和任何事物⼀样，GPU架构也不可做到完美。虽然1D标量ALU的设计执⾏效率很⾼，但也有相应的代价。理论上4个1D标量ALU和1个4D⽮量ALU的运算能⼒是相当的，但是前者需要4个指令发射端和4个控制单元，⽽后者只需要1个，如此以来MIMD架构设计的复杂度和所占⽤的晶体管数都要远⾼于SIMD架构。

AMD变⾰开端：超标量架构的R600

直到G80架构出现半年之后的2007年5⽉15⽇，AMD（此时已不叫ATI）才正式发布了基于统⼀渲染架构R600的Radeon HD 2900

XT（以及其它低端型号的HD 2000系列）。发布的数⽉之前AMD就表⽰R600将会⽐Xenos快不⽌⼀个档次。但是⾯对对⼿G80呢？

相⽐G80激进地架构变⾰，R600显得相对保守⼀些，因为它的⾝上还能看到传统GPU采⽤SIMD架构的影⼦，不过其中的改变还是相对传统的GPU架构已经算是脱胎换⾻了。不同于G80的全标量设计，R600是将原有的4D⽮量ALU扩展设计为5D ALU，准确⼀点应该叫作5个1D ALU，因为每个ALU可以执⾏任意的1D+1D+1D+1D+1D或1D+4D或2D+3D指令运算，（⽽以往的GPU往往只能是1D+3D或

2D+2D），Co-isuue（⽮量和标量并⾏执⾏）技术在这⾥更加灵活多变，所以这种架构也叫做5D Superscalar超标量架构。

R600采⽤的5D Superscalar超标量架构

AMD称这些5D ALU为统⼀流处理器单元（Stream Processing Units，SPU，区别于SP），每⼀个SPU中都有5个ALU（也就解释了为何A卡和N卡中的流处理器数⽬差距如此⼤），其中4个ALU可以进⾏MADD（Multiply-Add，乘加）操作，⽽另外⼀个（也可叫做SFU，特殊函数运算单元）可以执⾏函数运算、浮点运算以及运算Multiply运算（不能进⾏ADD运算）。由于每个流处理器单元每个周期只能执⾏⼀条指令（这也是传统SIMD架构的弊端），但是每个每个流处理器中却拥有5个ALU，如果遇到类似1D标量类似的短指令，执⾏效率只有1/5，其余4个ALU都将闲置。

R600核⼼架构图

为了尽可能的提⾼效率，AMD引⼊了VLIW5体系（Very Long Instruction Word，超长指令集）的设计，可以将多个短指令合并为⼀组长的指令交给流处理器单元去执⾏，⽐如5条1D指令或者1条3D指令和两条1D指令可以合并为⼀组5D VLIW指令。这部分的操作由流处理器单元中的Branch Execution Unit（分歧执⾏单元）来执⾏。分之执⾏单元就是指令发射和控制器，它获得指令包后将会安排⾄它管辖下5个ALU，进⾏流控制和条件运算。General Purpose Registers（通⽤寄存器）存储输⼊数据、临时数值和输出数据，并不存放具体的指令。

整体规格⽅⾯，R600设计了320个流处理器（64个流处理器单元X5），分为四个SIMD阵列，每个SI

MD阵列分为两组，每组包含40个流处理器（16个流处理器单元X5）。纹理单元为4组，每组包括4个纹理过滤单元和8个纹理寻址单元以及20个纹理采样单元，共计16个纹理过滤单元和32个纹理寻址单元以及80个纹理采样单元。无线报警系统

R600中引⼊的Tessellation是现在曲⾯细分的雏形

在R600架构中还有两项技术值得⼀提，第⼀个则是Hardware Tessellation，也就是⽬前DX11中⽕热的硬件曲⾯细分技术，AMD在HD 2000显卡中引⼊了这⼀技术，不过当时的硬件环境远不成熟，Hardware Tessellation不具有实⽤性，只在HD 2000显卡上昙花⼀现，到了HD 3000系列就去掉了。

R600中的环形总线技术

另外⼀个则是1024-bit环形总线技术，R600本⾝就拥有512bit显存位宽，已经是当时位宽最⼤的，G80最⼤位宽也不过384-bit。AMD 在此基础上⼜引⼊了Ring bus环形总线，可以等效1024-bit位宽，如果使⽤⾼速的GDDR4显存，那么显存带宽可以轻易突破130GB/s，普通的GDDR3显存带宽也有100GB/s以上的带宽。可惜的是当时的⽣产⼯艺还是80nm，512-bit的显存位宽要占据相当⼤的晶体管规模，AMD的环形总线技术也没有普及开来，到HD 3000系列上甚⾄精简为256-bit，但是搭配⾼速GDDR3显存来弥补。

总得来说，得益于SIMD架构，R600可以⽤少于G80的晶体管堆积出远远⼤于后者的ALU规模，但是在指令执⾏效率⽅⾯，R600相⽐

G80并没有什么优势。因为⾮常依赖于将短指令重新打包组合成长指令的算法，对编译器要求⽐较⾼，⽽G80则不存在这样的问题。虽然ALU规模、显存带宽等⼀系列数据都要领先，但执⾏效能的劣势还是让R600输给了G80，这⼀点也深刻地反映到当时的实际测试中。

作为AMD第⼀款桌⾯统⼀渲染架构GPU的R600虽然在新特性上亮点不少，但绝对性能⾯对G80没有任何优势，再加上发布时间上的落后，相关产品在市场上的反映很是惨淡，也宣告了AMD统⼀渲染架构在桌⾯GPU的第⼀次试⽔以落寞⽽告终。

不变中的改变：全新制程⼯艺的RV670

R600的试⽔失败之后，AMD很快便推出了改进版的RV670架构。AMD在RV670上并没有增加新晶体管，反⽽是在减负，晶体管数量由R600的7.2亿个降⾄6.6亿，核⼼⾯积则从原来的408平⽅毫⽶减少⾄192平⽅毫⽶。RV670能够减负⼀⽅⾯是架构的精简，⽐如去掉了1024-bit环线总线改⽤25bit，另外⼀⽅⾯则得益于⽣产⼯艺的进步，由原来的80nm、65nm⼀步跨⼊55nm制程⼯艺，核⼼⾯积因此⼤幅减少。

RV670采⽤了全新的55nm，核⼼规模减⼩，功耗更低

在功能上，RV670增加了DX10.1和PCI-E 2.0⽀持，增加了RV 670缺失的UVD解码引擎，可完整⽀持主流⾼清编码的硬解，新⼀代

RV670显卡还⽀持三路/四路交⽕以提⾼游戏性能，并在功耗上有过⼈表现。

RV670相⽐R600核⼼架构没有改变

本文发布于:2024-09-22 21:21:56，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/110533.html

上一篇：使用特征脸进行人脸识别

下一篇：GURUTZPE 重型数控卧式车床维修实例