小霸王g20和g8080只有启动画面没有游戏主界面

 下载
 收藏
所有文档均可在线免费浏览,需要的朋友请看好是否是自己需要的文档。所有资料来源于网络,仅供大家参考学习,版权归原作者。若有侵权,敬请及时告知,本人会及时删除侵权文档,竭诚全力为您服务!!!
 下载此文档
正在努力加载中...
基于VC的扫雷游戏开发(EasyX)
下载积分:1627
内容提示:基于VC的扫雷游戏开发(EasyX),基于,vc,的,扫雷,游戏,开发,easyx
文档格式:DOC|
浏览次数:1|
上传日期: 09:35:52|
文档星级:
该用户还上传了这些文档
下载文档:基于VC的扫雷游戏开发(EasyX).DOC
官方公共微信享受DX11视觉盛宴 GTX480首发测试
享受DX11视觉盛宴Geforce GTX 480全球首发测试
这次Geforce GTX 400的确来了。
它是Geforce 8800发布以来,NVIDIA GPU架构最大的一次跃进,它也将为代号“Tesla”的上一代架构正式画上句号。
它将在上一代GT200 GPU的基础上延续性能翻番的步伐,它将在图形架构和通用计算架构上同时进行深刻的变革,它已经是目前最优秀的GPU通用计算核心。
它的到来已经让我们苦苦等待了几个月。
它能不能扫清NVIDIA头顶的阴霾,在图形市场力挽狂澜,在今天我们就会略知一二。
Geforce GTX 480是全新的Geforce GTX 400系列显卡的旗舰产品,配备480个流处理器、60个纹理贴图单元、48个ROP、15个几何处理单元,配备位宽384-bit、容量1536MB的GDDR5显存,核心Shader频率1401MHz,核心固定功能单元频率700MHz,显存频率924MHz(等效频率3696MHz),核心晶体管数目约为30亿,采用TSMC 40nm工艺生产,整卡最大功耗250W,使用6pin+8pin外接供电。
Geforce GTX 470是Geforce GTX 400系列的次高端产品,配备448个流处理器、56个纹理贴图单元、40个ROP、14个几何处理单元,配备位宽320-bit、容量1280MB的GDDR5显存,核心Shader频率1215MHz,核心固定功能单元频率607MHz,显存频率837Mhz(等效频率3348Mhz),整卡最大功耗215W,使用6pin+6pin外接供电。
它们组成了DX11时代NVIDIA的第一批高端军团。
下面我们首先就新一代Geforce产品的图形架构做一些介绍。
###NextPage###
几个名词:Fermi、GF100、Geforce GTX 400系列
“Fermi”是新一代Geforce显卡所基于的GPU体系结构的代号。其名字取自著名的物理学家。过去几个月当中我们习惯于以“Fermi”来称呼Geforce GTX 400系列显卡以及它们所基于的GPU芯片,然而“Fermi”并不是单一的一颗GPU,这颗芯片称为“GF100”,是Fermi体系结构第一代GPU中的高端产品,使用TSMC 40nm工艺生产。
“Fermi”这个名词又被用来指代基于Fermi体系结构的GPU通用计算架构,毕竟Fermi架构在通用计算方面的可编程性太令人印象深刻了。而Fermi体系结构还有一个传言中的代号“NV60”,因为它是Tesla之后的下一个架构重大更新,而Tesla体系结构又被称为“NV50”。
GF100中的“GF”代表“Graphics Fermi”即Fermi架构图形产品,“100”表示第一代高端GPU核心。在“Fermi”这个名字浮出水面以前,因为GF100是GT200继任者的缘故,大家猜测它的芯片代号是“GT300”——“GT”代表“Graphics Tesla”,显然GF100并非基于上一代Tesla体系结构。
Geforce GTX 400系列显卡,是基于GF100芯片的最新高端显卡产品。
作为NVIDIA第一颗支持DX11 API的GPU,GF100本应在去年下半年Windows 7操作系统发布的时间点一起发布,正如第一颗DX10 GPU G80赶在Windows Vista操作系统发布之前发布一样。因为某种原因,这颗硕大的芯片迟迟不能发布,并传出良率奇低、发热巨大、性能不如预期等流言。外界猜测GF100的延宕是由于NVIDIA和TSMC在工艺方面遇到的问题,而NVIDIA将这一延期归咎于开发过程中架构上的一次重大修改。
有关GF100芯片架构的一切一切其实已经不再是秘密。在2009年9月份,NVIDIA公布了Fermi的GPU计算架构细节,于是有了《》;然后,在今年1月份,GF100的游戏显卡正式发布前两个月,NVIDIA又公布了作为Geforce产品的GF100图形架构细节,于是有了《》。到Geforce GTX 480/470发布之前,仅剩的秘密就是这两张显卡的频率、管线规格,以及它们的性能测试数据。以上两份英文白皮书详尽而且图文并茂地覆盖了GF100这颗芯片的各种细节,如果读者在一两个月以前已经通读过这两份文档,可以直接跳过和架构相关的章节。
Fermi作为面向高性能计算的GPU架构是很出色的;然而今天是新一代Geforce发布日,本文着重于评测Geforce GTX 400系列显卡产品,对Fermi通用计算架构不会做多少涉及。读者如果希望对Fermi的计算架构做更多了解,可以阅读以下两篇精彩的文章,David Canter的《》(英文)和陈寅初的《》。此外要特别感谢,英文比较好的网友可以直接阅读他们的文章,本篇的架构分析大部分基于他们的工作,主要面向喜欢看中文的网友。
###NextPage###
GF100芯片管芯照片、架构图、规格总表:
GF100 GPU基于TSMC 40nm工艺生产,集成约30亿个晶体管。核心面积的具体数据并没有公布,因为封装顶部散热盖的遮挡也无法直接测量。不过根据互联网上的流言,GF100芯片核心大约是边长23毫米的正方形,面积约为529平方毫米,假如传言属实,其核心尺寸正好介于G80(90nm)的边长22毫米和GT200(65nm)的边长24毫米之间,65nm GT200仍然保持着“尺寸最大GPU”的纪录。
▲GF100核心照片(来源:NVIDIA)
让我们对GF100的图形架构做一个整体认识:
上面的架构框图与G80、GT200的框图相似又有所区别,拿我们最常见的指标来说,可以看到16个称为“SM”的单元,每个单元里包含了32个SP和4个TMU,因而整个芯片总共包含了512个SP和64个TMU,每个SM里还多了个名叫“PolyMorph引擎”的新模块。每4个SM和一些其它结构组成了名为“GPC”的单元,整个GPU一共有4个GPC。GPU里除了4个GPC以外的部分包括了名为GigaThread的线程调度器、6个ROP分区(总共48个ROP)、大小为768KB的共享二级缓存和6个64bit显存控制器(组成384bit显存位宽)等等。后面我们会深入到模块当中的一些细节。SM内的SP(流处理器)和SFU运行在Shader时钟频率下,其余部分如TMU、ROP等运行在Shader频率的一半,即内核频率下,这些都有G80和GT200的影子。
作为实际发售的游戏显卡,Geforce GTX 480和GTX 470并未具备完整的GF100规格,在SM数量和显存位宽等规格上有所削减。GTX 480屏蔽了16个SM中的一组(包含32个SP、4个TMU和1个PolyMorph),剩余配置为15个SM(总共480个SP、60个TMU、15个PolyMorph)、48个ROP和384bit显存位宽。GTX 470屏蔽了16个SM中的两组以及1个ROP分区和1个64bit显存控制器,剩余配置为14个SM(总共448个SP、56个TMU、14个PolyMorph)、40个ROP和320bit显存位宽。从SP数量上看,GTX 480“恰好”达到了GT200(240个)的两倍,ROP达到GT200(32个)的1.5倍,而TMU的数量只有GT200(80个)的80%。
下表对比了GF100与GT200和竞争对手Cypress(RV870)的一些共同理论性能指标,以及Geforce GTX 480、GTX 470和Geforce GTX285、Radeon HD5870、HD5850的理论指标。
▲GT200、GF100、Cypress性能指标
▲Geforce GTX 480、GTX 470和Geforce GTX 285、Radeon HD5870、HD5850的理论指标
草草一看,GF100像是个放大版支持DX11的GT200,但实际上在图形架构上GF100做出了非常重大的改变,空前地增强了GPU的几何处理能力,为此我们首先要了解一下DX11最引人注目的特性——Tessellation。
###NextPage###
DX11引入的重要特性:实时Tessellation
自从DX7以来每次API重大更新几乎都会带来视觉效果的全面大幅提升或是一项标志性的特效,只有从DX9.0C到DX10的更新算是个例外。如果说DX11有什么标志性的特效,自然非Tessellation莫属了。图形硬件上Tessellation的雏形可以上溯到DX8一代。Tessellation(曲面细分)和Displacement Mapping(位移贴图)并不是全新的技术。简而言之,开发者建立一个多边形数量较少的几何模型,通过Tessellation增加顶点数量从而形成细分的曲面,再通过Displacement Map对每个顶点进行位移,就获得了大量多边形组成的丰富的凸凹细节。
我们通过下面这个例子看看Tessellation和位移贴图的魔术是如何变出来的。
▲从顶点很少的模型到最终精细的几何模型
最左边是用很少的四边形勾勒的人物的大致轮廓,这种表现形式占用空间非常少但是缺乏几何细节。对左边的模型通过一定算法和参数进行Tessellation得到了中间的模型,插入了大量的顶点,形成了很光滑的曲面,但是仍然缺乏我们想要的最终细节。对经过Tessellation的模型附上一个位移贴图效果,给模型中的每个顶点增加一个位移量,就得到最终有丰富细节的模型。
我们可以看到,在最左边的图像使用了四边形网格来勾勒人物的大致轮廓。虽然这种表现形式占用空间非常少,但是这种方格构成人物轮廓的模型看起来会非常的粗糙,缺乏真实感;中间这幅人物图像是对左侧图像进行了Tessellation(曲面细分)与描绘的结果,拥有非常光滑的外观,没有因模型形状的限制而形成多个方格平面。这个人物虽然外表光滑,但是与粗糙的网格相比,细节部分并没有改善;右侧的图像是对中间图像附上了一个Displacement Mapping(贴图置换)的效果,这个人物就可以拥有可媲美电影制作中的丰富模型细节。
位移贴图是同凹凸贴图,法线贴图,视差贴图相区别的另一种制造凸凹细节的技术,它不是让平面看上去有立体感,而是让点真正地移动,形成复杂的凸凹表面,但是这样做增加了大量的几何信息,消耗很多硬件资源。
如今,DCC领域的各种软件都提供了Tessellation和Displacement Mapping功能。艺术家建模的时候,也是先画出粗糙的模型,然后通过支持Displacement Mapping的工具生成精细的表面。不同的渲染场景需要不同的几何细节,艺术家需要手动调整参数以生成不同细腻程度的精细模型,在游戏运行时每一帧需要用到的精细模型信息就通过主界面传给显卡。显然,模型精细度越高,PCI-e总线的负担就越重,占用的显存空间也越大,由于资源限制,游戏开发者最终往往在几何细节上妥协而以凸凹贴图、法线贴图、视差贴图等技术“欺骗”眼睛产生凹凸细节的感受。
▲FarCry 2游戏中的几何细节图形妥协现象
即使像上图中《FarCry 2》这样图形效果很棒的游戏也不得不在人物模型的细节上大打折扣。从游戏画面上我们可以看到:手枪皮套有明显的方格平面,皮带有太多的分段,瓦片屋顶本应是波纹状,但是实际上只是带有条纹的平面;最后,正如游戏中的大多数人物一样,这个人戴着一顶帽子,细心地避开了渲染头发所带来的硬件资源的消耗。
在DX11 API当中,为配合固定功能的Tessellator单元工作,加入了Hull Shader和Domain Shader两个可编程环节,让各种Tessellation算法可以在GPU内高效地实现。当Tessellation不再是在开发者的工作站上预先进行,而是搬到了GPU上实时进行,情况彻底改变了。现在艺术家不再需要重复生成不同精细度的精细模型,游戏只需要将艺术家建立的粗糙模型、位移贴图和一系列参数提供给显卡,占用非常小的接口带宽和显存资源。显卡根据这些参数,通过Tessellation和位移贴图生成不同精细度的几何模型。例如当一个物体很远的时候可以只显示一个大致的轮廓,到近处时就一最高精细度生成精细模型。
▲Unigine Heaven测试中远景(左)和近景(右)的曲面细分
更有趣的是,在游戏中还可以通过改变位移贴图来实时地改变物体的表面形状,比如下面这个门本来只是个平面,游戏通过弹孔的位置改变位移贴图,从而让门的形状发生实时改变。
▲Displacement Mapping(贴图置换)带来的弹孔效果
###NextPage###
GF100的几何硬件并行化架构
一直以来GPU的几何处理能力提升十分缓慢。根据NVIDIA的说法,从NV30到GT200,Shader性能提升了大约150倍,而几何性能只提升了3倍。传统GPU当中,流水线中重要的一环Triangle Setup(三角形设定)一直是由单一的固定功能单元Setup Engine执行的,Setup性能的提升只能通过时钟频率的提升和处理周期数的缩短来获得。举个例子,Geforce 256(NV10)可以在8个周期里处理完一个三角形,Geforce FX(NV3X)需要花2个周期,而G80最好状况下可以一个周期处理一个三角形。所幸以往的游戏在几何吞吐量方面也十分保守,使得这一部分没有成为架构的瓶颈。当DX11来临以后,一切就要发生改变。
我们来看一下GF100单个GPC的架构。
▲GF100的GPC模块,示Raster与PolyMorph引擎
一个GPC里包含了一个名为Raster引擎的光栅化操作单元,其每个SM各包含了一个名为PolyMorph引擎的几何操作单元。整个GPU共有四个Raster引擎和16个PolyMorph引擎。从顶点到几何操作的固定功能由PolyMorph负责,而之后的光栅化操作由Rasterizer负责。
(上图遗漏了Tessellator。PolyMorph的任务段位于Geometry Shader之前,Raster引擎的任务段位于Rasterizer处)
▲Raster引擎
PolyMorph引擎处理完的图元被发送给光栅(Raster)引擎,它以流水线方式执行三个环节。为了实现较高的三角形吞吐量,GF100采用四个Raster引擎并行工作的方式。最理想情况下每个Raster引擎可以在一个周期内处理一个三角形,这样GF100的峰值多边形生成率可以达到4个多边形每周期,当然实际当中多边形生成率会受到其它因素制约。据NV称在理论性测试中GF100平均能达到3.2个每周期的多边形生成率,仍然是相当惊人的指标,要知道GT200仍然停留在一个周期最多一个三角形的阶段。
▲PolyMorph引擎
PolyMorph引擎每个SM配备了一个,它负责控制D3D流水线中光栅化之前的所有环节,包括Vertex Shader、Hull Shader、固定功能的Tessellator、Domain Shader和Geometry Shader——当然流水线中的四个可编程Shader是在SM的Shader阵列中执行的。SM从上一个固定环节获得结果,执行游戏中对应的Shader程序,再将Shader的输出送入下一个环节。上图中画出了PolyMorph的五个固定功能环节:顶点获取、Tessellator、视口变换、顶点属性设定以及Stream Out,这恰好是GF100架构中硬件本来的样子——五个方框分别对应了实际硬件中的五部分电路。通过PolyMorph的并行,加速了Tessellation当中固定步骤(Tessellator生成新顶点)的执行,其余可编程步骤还是由Shader阵列执行的。
GF100架构的PolyMorph和Raster资源分别与SM和ROP绑定,这是一种弹性很高的架构。低端产品配备较少的GPC和SM,同时具备较少的几何和光栅化能力,高端产品相应扩展出更多的几何和光栅化能力。
通过并行的PolyMorph和Raster引擎,NVIDIA声称GTX 480的几何性能最高达到了GT200的8倍,这个几何性能远不是在GT200架构上加入Tessellator能达到的。将原本是串行的任务并行化并非容易的事,同一个Tessellation任务被分割到多个并行的PolyMorph执行,最终输出结果时步调一致,这就需要多个PolyMorph之间进行某种协调,GF100通过一个片上网络实现这一协调机制。我们相信NVIDIA在GF100上遭遇的开发延期有一部分原因是为开发架构的这一部份而付出的代价。从零开始进行架构创新总是要承担风险,但这些工作对以后的图形硬件发展有着重要意义。
另一方面,从现实角度讲,GF100几何处理架构上的努力并不能获得立竿见影的效果。DX11新游戏总数还很少,有的游戏没有应用Tessellation技术,有的游戏对Tessellation应用的规模还很温和,只有Unigine Heaven测试程序和一些理论性测试偏重于Tessellation。GF100在几何性能上的大幅加强在越密集的Tessellation应用下越能体现出优势,如果未来实际的DX11游戏对Tessellation的应用停留在“温和”的程度,GF100架构上付出的代价就得不到什么回报。
###NextPage###
GF100层次组织结构上的改变
让我们回到这张GPC组织图上来。
▲GF100的GPC模块
一个GPC是一组顶点、几何、光栅化、纹理以及像素处理资源的组合。现在我们知道,GPC当中四个SM以外的部分,也就是Raster引擎,实际上就是将以往位于顶层的固定单元Triangle Setup、Z-Culling等等向下推了一个级别,整合进GPC当中。这样看GPC确实像一个拿掉了ROP与全局任务调度器的GPU。GF100的一个GPC共包含4个SM,总计128个SP和16个纹理单元,这个规模很接近我们熟悉的G92 GPU,只不过G92分成了8个TPC。整个GF100就像是四个G92规模的GPU集合在一起。在挂着各种名字征战图形市场将近三年以后,G92又以这种低调的方式让我们怀念了一下。
再来看GF100最基本的组成单元SM。在GT200的一个TPC当中,共有8个固定功能的纹理单元为3个SM所共享,GF100也将这个结构向下推了一个层次,现在每个SM都有了4个独享的纹理单元。由于地位被SM取代,SM的概念也就不复存在了。
###NextPage###
支持FMA与半速双精度计算,新一代流处理器
下面我们深入到单个SM单元来进行讨论。
▲流式多处理器(SM)
在很多宣传中“SP”流处理器被认为是GPU内的单独内核,然而在GPU中更接近“内核”概念的单元应该是SM。GF100的SM内包含32个SP,分成16个一组的两个bank。此外每个SM还包括一组16个Load/Store单元、4个SFU、两个Warp调度器和分发单元、32K*32位的Register File、64KB可配置L1 Cache/Scratch pad、4个纹理定址/拾取单元、12KB纹理缓存、指令缓存、负责几何处理的PolyMorph模块等等。
相比于GT200的单个SM,GF100的SM发生了如下改变:
——每个SM包含32个SP,是GT200的4倍;
——16KB的共享内存变成了64KB的可配置L1缓存/共享内存,可以在16KB+48KB和48KB+16KB之间进行配置,在图形模式下配置为48KB共享内存+16KB L1缓存;
——支持32位整数操作、IEEE 754-2008的单精度/双精度FMA操作;
——4个独享的纹理单元;
——PolyMorph引擎。
其中每个SP具备全流水线化的ALU和FPU,SP现在不再支持GT200上的MAD+MUL co-issue,转而支持了单精度FMA操作,相比MAD而言精度更高。双精度FMA操作速度由GT200的1/8于单精度变成半速于单精度操作。与之对照,AMD Cypress也支持单、双精度FMA,双精度速度FMA是单精度FMA的1/5,GF100的双精度运算能力有很大优势。GF100在SP层面的这一改动对图形性能的影响很小,而对通用计算有重要意义。
SM可对32个为一组的并行线程(又叫做Warp)进行调度。每个SM拥有两个Warp调度器以及两个指令分派单元,这样,就能够同时发出和执行两个Warp。GF100的双Warp调度器可选出两个Warp,从每个Warp发出一条指令到SP bank、16个载入/存储单元或4个特殊功能单元。因为Warp是独立执行的,所以GF100的调度器无需检查指令流内部的依存关系。通过利用这种优秀的双指令执行(Dual-issue)模式,GF100能够实现接近峰值的硬件性能。
▲双Warp调度
大多数指令都能够实现双路执行,两条整数指令、两条浮点指令或者整数、浮点、载入、存储的混合指令以及SFU指令均可同时执行。双精度指令不支持与其它指令同时分派。
###NextPage###
纹理单元的更新:
GF100的每个SM内的纹理单元矩阵,每个周期GF100的每个SM相比GT200的每个TPC,纹理单元数量减少了一半,算术:纹理比例超过翻倍。就整个GPU而言,GF100的纹理单元总数只是GT200的80%。然而NVIDIA声称通过对纹理单元内部结构、一级纹理缓存的重新设计提高了GF100的纹理性能,另外GF100的纹理单元相对Shader运行频率比值更高,也一定幅度提升了性能,最终在应用环境中GF100提供的纹理性能强出40~70%。
▲虽然GT200比GF100的纹理单元数量多,但是GF100能够实现更高的实际性能,这要归功于效率的提升。
从G80开始引入的纹理过滤算法在GT200上并没有改变,到了GF100上也没有变。AMD在Evergreen一代实现了几乎完美的各向异性过滤质量,不过NVIDIA认为G80开始的这一算法效果很好,不需要修改。
GF100的纹理单元当然也新增了对DX11中BC6H与BC7纹理压缩格式的支持,从而减少了HDR纹理与Render Target的显存占用。
GF100支持了DX11的Gather4特性,纹理采样是4-way向量操作,现在纹理单元可以通过一条Gather4指令从4个不同位置并行地采得四个标量值,程序员可以控制采样位置,可以用来加速阴影贴图、SSAO和后处理算法。通过Gather4实现抖动采样来消除阴影边缘的锯齿,可以大幅提高软阴影渲染的性能。
▲3Dmnark2006中的阴影的抖动采样
###NextPage###
大幅更新的ROP:
GF100的ROP子系统进行了重新设计以提升吞吐量和效率。NVIDIA一直将ROP与二级缓存和显存控制器绑定,上一代GT200具备8个64bit显存控制器,有8个ROP分区与之绑定,每个ROP分区4个ROP单元。到了GF100,显存控制器减为6个64bit,ROP分区也相应减为6个,为了保证ROP性能与其它部分均衡,每个分区的ROP数量翻倍变为8个。每个ROP输出一个INT8像素花费1个时钟周期,一个FP16像素花费2个时钟周期,一个FP32像素花费4个时钟周期。
▲抗锯齿性能,尤其8xMSAA在GF100上实现了大幅提升
关于ROP子系统玩家最应当关心的是MSAA性能的变化。自打AMD R700系列以来,NVIDIA GPU在8xMSAA执行性能上一直落于下风,GF100将会终结这一状况。GF100的ROP提升了色彩压缩的效率,从而使得8xMSAA性能损失小了很多,大量的ROP也提升了性能。NVIDIA以《HAWX》游戏中的数据说明8xMSAA性能损失的改变。根据上图数据,从4xMSAA到8xMSAA,GTX285的性能损失了28.6%,效率无疑十分低下,而GF100的性能只损失9.3%。当然需要注意HAWX是DX10.1游戏,对支持DX11的GF100的抗锯齿性能也会有帮助。
当8xMSAA的性能有了保证以后,NVIDIA顺理成章地升级了其CSAA(覆盖采样抗锯齿)的规格,最新的规格为32xCSAA。CSAA在MSAA基础上通过使用更多的采样点位置的覆盖信息,在保持色彩和深度信息量不变的情况下,只增加了很少的存储器占用就实现了边缘抗锯齿质量的一定提升,性能损失很小。一个像素的32个采样点当中,有8个采样点是传统的采样点,其余24个采样点是只获取覆盖信息的“覆盖采样点”。
▲从8xMSAA增强而来的32xCSAA
程序员使用DX10中的“Alpha-to-coverage” MSAA技术渲染植被的柔和边缘时,32xCSAA提供的大量覆盖采样可以有效地提升平滑效果。DX9游戏无法直接使用“Alpha-to-coverage”技术,转而使用名为“Alpha-test”的技术,而NVIDIA驱动中的透明多重采样(TMAA)功能可以将shader当中的“Alpha-test”代码自动转换为“Alpha-to-coverage”,从而配合CSAA也能大幅提升图像质量。
▲16xQ抗锯齿和32X抗锯齿对比图
左侧图像显示了在过去GPU上利用16xQ CSAA(8个多重采样点、8个覆盖采样点)所实现的TMAA效果。右图显示了在GF100上利用32xCSAA(8个多重采样、24个覆盖采样)所实现的TMAA效果。因为覆盖采样被用作GF100中TMAA计值的一部分,所以生成了平滑得多的渐变效果。
▲32xCSAA性能与8xMSAA接近,相比8xMSAA性能损失只有7%,所谓不开白不开
###NextPage###
新的缓存架构对游戏的帮助
▲GT200与GF100高速缓存架构的对比
与大多数GPU相同,GF100的SM内也有一系列专用存储结构,比如指令缓存和12KB本地一级纹理缓存。然而GF100的SM当中还包含有64KB的可配置存储器,可以配置为16KB L1 Cache+48KB Shared Memory,或者48KB L1 Cache+16KB Shared Memory,其在图形形态下配置为前者的状态,48KB的Shared Memory由图形驱动控制,就像GT200上每TPC 16KB的Shared Memory由图形驱动控制一样。16KB的L1 Cache对图形应用仍然有一个好处,假如一个复杂的Shader程序导致了寄存器溢出,在GF100上数据将溢出到L1缓存而不是片外DRAM里,从而大大减少了存取时延。
GF100拥有一个768 KB的统一2级高速缓存,该缓存可以为所有载入、存储以及纹理请求提供服务,对于所有SM都是一致的,可在整个GPU中提供高效、高速的数据共享。在图形领域这个大Cache带来至少两个好处,一是相对GT200的256KB只读纹理缓存而言可以存储更多更大的纹理,二是可以为大量的几何数据提供缓存,配合GF100弹性的几何架构。
▲GF100的高速缓存架构让各流水线阶段之间可以高效地通信,减少了片外存储器的通信量。
###NextPage###
其它(光线追踪、PhysX)
以往的GPU是针对光栅化渲染优化的架构,光线追踪一直不能很好地在GPU上运行。GF100的计算架构在设计时就将光线追踪考虑在内,其硬件上支持循环,L1和L2通过提升细粒度存储器访问性能大幅度地提升了光线追踪算法的效率。如下图,相比GT200而言,GF100的芯片规模是2倍左右,而执行“Pathtracing”算法的性能达到了4倍。
这样可以说我们不久之后就能用GF100架构的顶级显卡玩上光线追踪渲染的游戏或者光线追踪与光栅化混合使用的游戏了么?从我们自己体验光线追踪demo的感受来讲,尚需时日。
计算架构针对游戏的另一个改进方面是调度。G80与GT200均能够利用相对较慢的上下文切换来在同一时间执行大型kernel。由于HPC应用程序采用了大型数据集,对延迟不敏感,因此这一模型运行得相对较好。在游戏应用程序中,并不会执行单个占主导地位的kernel,而是执行各种较小的kernel(例如布料、流体、刚性体)。在GF100上,这些kernel能够并行地执行,从而最大限度地利用了诸多CUDA核心。
在利用计算的游戏当中,每一帧都会出现上下文切换,这一点使其性能对帧速率敏感的应用无法达到要求。GF100将上下文切换的时间缩短至约20微秒,使其能够在每帧多个kernel之间执行细粒度的上下文切换。例如,一款游戏可以使用DX11来渲染场景、切换至CUDA以实现选择性光线追踪、调用一个DirectCompute kernel来执行后期处理以及利用PhysX执行流体模拟。
###NextPage###
演示DEMO: Realistic Character Hair
Hair这个DEMO演示的是一个女孩的头发,我们可以用鼠标拖动人物模型左右或者上下移动,或者用鼠标滚轮来调节视线或者选择不同方向的用风来吹向人物模型。女孩的头发可以随着人物的移动或者风吹而飞舞,看起来非常的逼真。其实在这个模型上工程师只画了不到两百根头发,其他的头发都是靠Dynamic LOD(动态模型细节调节)来复制得来的。
▲风吹模型的头发效果
▲上下抖动模型的头发失重效果
在现实中,只有靠近视线的物体我们才能分辨的比较清楚,而在远处的物体即便是再太精细,我们也只能看到一个大概的轮廓,同理,在游戏中我们也可以这样做来减少GPU的负担。当我们用鼠标滚轮对这个模型推远或者拉近的时候,Tessellation将会自动均衡模型的细节:当模型靠近视角的时候,模型细节将会被显示最大程度的显示。当我们将模型推远时,模型将会自动减小LOD(模型细节),头发的数量将会减少。但是我们可以通过增加头发的宽度,依然可以让模型在远处看起来比较真实。
(图片可以点击放大)
▲减少头发数量增加头发宽度可以让运算量减少,但在远处的时候看起来依然比较真实。
以上两张图是笔者手动将LOD和头发宽度分别拉向了两个极端。我们可以看到,左边的图模型细节级别为最高,这样一来运算量会非常大,导致FPS不到100。但是模型在远处时,最高级别的细节也只是模糊成了一小块,对大场景的画面起不到任何作用。而右边的图则是将头发的模型细节调到最低,只是增加了头发的宽度,这样不会带来运算量上的增加,所以FPS高达500多,但是看起来也与左边的图基本上没有什么区别。也就是说这样以来我们可以通过基于动态LOD的Tessellation来减少不必要的细节处理,节省硬件资源、提高游戏速度。
###NextPage###
DEMO演示: Realistic Water&Terrain
Island则是演示Tesselation效果的一个DEMO,DEMO演示了一片群山和清澈见底的水域,我们可以手动调整Tesselation的级别来提高水面和山体的细节程度。以下图片均可以点击放大。
▲最低级别的Tesselation水面效果
▲最低级别Tesselation下生成的场景几何细节
▲中等级别的Tesselation水面效果
▲中等级别的Tesselation场景几何细节
▲高等级别的Tesselation水面效果
▲高等级别的Tesselation场景几何细节
###NextPage###
DEMO演示:RayTracing_DesignGarage:
RayTracing这款Demo同样针对NVIDIA的Fermi显卡而推出的测试软件。这款Demo主要展示了显卡的光线追踪技术。在上代显卡中,光线追踪技术很早就被使用,虽然画面效果也十分精细,但其光线反射效果并不是通过实时运算产生,因此在物体运动时期表面的光影无法根据周围环境而变化。而最新的光线追踪技术则与现实更为接近,可以使物体表面根据周围环境产生不同的光影反射效果。
▲初始画面
▲画面渲染中
▲画面渲染完成
###NextPage###
Geforce GTX 480外观赏析:
▲Geforce GTX 480正面图
Geforce GTX 480的长度为标准的10.5英寸(26.7厘米),尺寸上能够兼容大部分支持Full-ATX主板的机箱。
Geforce GTX 480依然使用的是全覆式的散热器,正面看去除了PCI-E的金手指和散热器外露的几根热管,其他地方都被包裹的严严实实。
▲Geforce GTX 480背面图
由于背面没有显存,所以显卡的背面并没有设计像Geforce GTX280、Geforce GTX260+那样的散热背板,至于保护PCB强度的方法,在后面的拆解部分我们会有详细的介绍。
###NextPage###
改良的散热设计:
▲Geforce GTX 480改良的散热设计(点击放大)
▲Geforce 9800X2和Geforce GTX295显卡的PCB镂空风扇位PCB设计(点击放大)
Geforce GTX 480显卡的风扇位经过了精心的设计:正面与前几代的单芯高端显卡类似:风扇和风扇位周围要比其他地方略低一些,这种设计的好处就是组建双路SLI或3路SLI时,即便两块显卡紧紧埃在一块,离心风扇的进气口也能够较容易的吸入空气,让散热器良好的运作。另外在之前只有双PCB显卡才用过的PCB镂空技术设计也用到了单PCB的Geforce GTX 480上面,这样一来离心风扇便可以双面进气,可以在不增加风扇转速和噪音的情况下提高散热效率。
Geforce GTX 480的散热器与前几代高端卡的设计有所不同,单从外观上我们很容易误认为它只有四条热管。
▲Geforce GTX 480散热器外露的热管
透过散热器外壳的栅孔我们可以隐约看到第五根热管为了避让SLI金手指的缘故而做在了散热器外壳里面。
▲Geforce GTX 480的供电接口
迫于30亿饥饿的晶体管,Geforce GTX 480不得不用6+8PIN来提供显卡所需电力。
▲显卡提供了2个Dual link DVI接口和一个Mini HDMI接口,不过三屏需要两张显卡组SLI支持。
###NextPage###
散热器解析:
卸掉PCB背面和IO挡板附近的几个螺丝即可将散热器拆下,不过第一次拆这张卡的时候容易遇到一个因为经验带来的小麻烦。
▲Geforce GTX 480散热器和PCB
▲Geforce GTX 480的散热器
▲容易被“经验”而忽视的固定一体化散热加强版的螺丝
有拆装GT200核心显卡的朋友应该很熟悉,这次Geforce GTX 480核心背面的四个小螺丝和GT200核心的显卡有所不同。如果不将这几个螺丝其拆下则无法拿掉这个一体化加强板。按照以往的经验强行拆下的话只会将PCB搞的变形,轻者导致核心虚焊,重者弄折显卡的PCB!在拆卸的时候仍需要十分谨慎。首先要选好大小合适的螺丝刀,然后谨从“七分顶,三分拧”的原则,慢慢将其卸下。笔者开始就因指力不够而弄花了一个螺丝,以至于之后花了很长的时间研究如何将这颗被拧花的螺丝卸下- -!
▲与核心散热器分离的一体化的PCB加强版&MOS散热器
▲可单独拆卸下的核心散热器
台达BFB0712HF离心风扇,其中07表示直径7CM、 12表示1.2CM厚;直流12V供电,最大电流为1.8A,如果全速起来转速和噪音将会十分恐怖。
▲Geforce GTX 480完全分解图
▲日生产的散热器主体
此次Geforce GTX 480在散热器鳍片的正面上加装了一整块外露镀镍“铝锭”作为辅助散热使用,如果哪家厂商想在这个部位贴上自家的大贴纸的话那将是个很悲剧的事情。
▲Geforce GTX 480散热器的底座
核心散热器底座摒弃了传统的全铜底座转而采用了热管直触底座,5根6mm热管和底座均采用镀黑镍处理。从这张图中我们可以看到那条个子稍矮的第五条热管了。热管直触设计是一把双刃剑,相对带铜质均热底的设计,好处是减少了一层底座的热阻,有助于性能,缺点是丧失了底座对热管壁的保护作用,也少了铜底的蓄热容量,不容易使核心温度稳定,尤其是配合转速变化灵敏的PWM温控风扇的时候,容易导致风扇频繁调速,增加噪音。
▲鳍片和底座之间采用焊接工艺,鳍片与鳍片之间使用扣Fin工艺加强散热器强度。
▲散热器的热管与鳍片接触位置有回流焊的焊孔。
虽然鳍片与热管连接的部位有回流焊工艺采用的焊孔,但助焊剂的痕迹并不明显,不知道热管与鳍片接触是否紧密。
###NextPage###
Geforce GTX 480显卡设计解析:
这次Geforce GTX 480的公版设计代号为P1022,PCB采用10层板,12颗GDDR5显存统一摆放在正面,并没有G80与GT200所搭配的NVIO芯片。显存和供电的摆放都很紧凑,为PCB上的通风孔和散热器占位让出一大片空间。
硕大的GF100核心就隐藏在这个盖子底下,核心代号GF100-375,Revision A3,TSMC制造。
显存是三星K4G10325FE-HC04 0.4ns GDDR5显存,单颗容量128MB、位宽32bit,默认工作频率1250MHz(5000MHz等效频率)。NVIDIA只让它运行在不到4000MHz等效频率下,更多可能是为了功耗做考虑。毕竟GDDR5显存功耗也不低,还有12颗。
输出DVI接插件没有屏蔽罩,晶振使用2腿封装的无源晶振,显得不够档次
Geforce GTX 480的核心供电和显存供电全部摆放在显卡尾端,全部采用分立元件的方案,没有使用封装紧凑的DrMOS或者Volterra数字PWM,看似YY度不够,不过在瘦身方面也不逊色。核心供电相数为6相,每相配备1上2下三颗MOSFET,显存供电为2相,每相配1上1下2颗MOSFET。核心供电的输入滤波电容为香港万裕X-CON ULR系列直插式固态电容,这种料件之前也出现在ATI的公版卡上,输出滤波电容包括了正面6颗Chemi-con PXF系列固态电容(2.5V/390uF/2000h/ESR=10mOhm@100kHz)、背面6颗330uF片式固态电容和正反面一些MLCC。
凑近可以看到核心供电MOSFET使用了安森美的SO-8FL封装低内阻MOSFET(上桥: NTMFS.2mO 下桥: NTMFSV 3.2mOhm)。每相使用的SMD电感感值为120nH,货真价实的铁氧体电感,损耗较小。每相的MOSFET Driver是CHiL CHL8510。
显存供电的输出滤波电容换成了Chemi-con的PSK系列直插式固态电容(2.5V/560uF/5000h/ESR=7mOhm),MOSFET也来自安森美(上桥: NTMFSmOhm, 下桥: NTMFS4935N),SMD电感感值为330nH,采用损耗稍高的铁粉芯一体式电感。
▲Geforce GTX 480核心供电和显存供电的PWM控制器
核心6相供电采用了来自CHiL的数字PWM控制器CHL8266(找不到这个器件的资料),显存供电则由uPI的uP6210 2相PWM控制器负责。有趣的是PCB背面还留有一个QFN-40封装芯片的空焊位,疑似预留给另一颗PWM控制器。这种数字PWM+分立式Driver/MOSFET的设计其实不是第一次在显卡上出现,早在Geforce 8800的时代我们就已经见识过了:
当年Geforce 9800 GTX使用的P392公版供电,每相三个LFPAK封装的MOSFET,PWM控制器是来自Primarion的PX3544,输出侧电容使用了POSCAP+MLCC。G80的P355公版采用相同的供电方案。
Geforce GTX 285的P891公版,与Geforce GTX 480 P1022公版供电方案相近,却使用了Intersil ISL6327模拟PWM控制器。看来PWM控制是否数字化并不是NVIDIA关心的重点,疗效是关键。总的说来,Geforce GTX 480公版的供电配置和料件水平并不差,只是看到250W的整卡功耗,就会觉得这样的供电配置和用料水准是在有意的降成本。
###NextPage###
Geforce GTX 470赏析:
得益于相对低的功耗,Gefore GTX 470的卡身缩短到9.5英寸(24.1cm),与Full-ATX主板宽度几乎相等,外接供电规格减为双6pin,仍然配备双SLI接口。全覆式散热器不再有露出外壳的热管和金属区域,但风扇正下方的PCB保留了开窗通风的设计。
Geforce GTX 480完全拆解
###NextPage###
散热器拆解:
Geforce GTX 470的散热器(点击放大)
相比Geforce GTX 480,Geforce GTX 470的散热器的固定方式又向传统的“一体式散热器”回归了一步,核心散热器先固定在底部框架上,再整个框架固定到PCB上。
▲散热器底部框架,既起到加固PCB的作用也为MOSFET和显存等发热元件提供散热。
Geforce GTX 470散热器仍然配备5条6mm热管,在散热器底部采用热管直触设计,鳍片和底部都没有镀镍。5条热管当中有4条从鳍片上方穿过,靠近出风口的1条打扁后埋在鳍片底部。所有热管都采用焊接工艺连接到鳍片以及铝质底座。
▲热管到鳍片的接触细节(点击放大)
###NextPage###
Geforce GTX 470显卡设计解析:
拿掉散热器露出了Geforce GTX 470的真身。Geforce GTX 470采用P1025公版8层PCB设计,显存减为10颗以对应削减后的320bit显存位宽,PCB背面没有留显存位置。
▲公版代号:P1025,PCB层数为8层
▲Geforce GTX 470核心代号为GF100-275,Revision为A3
▲显存从Geforce GTX 480的0.4ns GDDR5降为了0.5ns GDDR5,仍然来自三星。
Geforce GTX 470接口沿用2DL-DVI+HDMI,2腿晶振、不带屏蔽罩的DVI接插件也和GTX 480公版如出一辙。
Geforce GTX 470的核心与显存供电减少到4相+1相,核心供电挪到散热器开口下方从而缩短了PCB长度,假如不采用PCB开窗设计还可能进一步缩减PCB尺寸。非常令人囧的是公版卡输入和输出侧所有电解电容都是台系立隆(Lelon)的OCRZ系列直插固态电容,VRM输入扼流圈也被一排纤小的片式电感取代,这个待遇……
▲Geforce GTX 470核心供电和显存供电(点击放大)
核心供电和显存供电继续沿用安森美SO-8FL封装的低内阻MOSFET,下桥沿用NTMFS4945N,上桥由4941N换成了4939N,同系列内阻更低但开关速度更慢,说明Geforce GTX 470供电电路的开关频率也要低于Geforce GTX 480的。核心供电每相使用300nH的铁粉芯SMD电感,显存供电则是470nH的。因为显存供电减为单相,显存供电的MOSFET相应增强为1上2下配置保证最大输出电流。
▲Geforce GTX 470核心供电和显存供电的PWM控制器
核心与显存供电都采用模拟PWM控制器,核心4相供电是符合Intel VR10/11规格的安森美NCP5388,显存单相供电是茂达APW7165A。
与功耗同为200多W的Geforce GTX 280以及Geforce GTX285公版比起来,Geforce GTX 470的公版从任何角度看都是节约成本的表现。
###NextPage###
测试平台介绍:
需要特别说明的是,为了使对比几方都能发挥出最佳性能,我们为两款N卡准备了Forceware 197.17版本驱动,而为两款A卡准备了最新的Catalyst 10.3 Preview驱动(截止到出稿为止,AMD已经发布了更新的Catalyst 10.3 WHQL版驱动)。由于Geforce GTX 480和Geforce GTX 470显卡尚未正式发布,因此197.17版本的驱动可能不会发挥出其最佳性能。但无论如何,这种测试方式仍可以反映出双方实力的真实写照。
另外,HD 5870和HD 5850显卡都运行在驱动的默认设置下,这意味着OverDrive选项打开,两款AMD显卡可以在测试中提升频率,从而可以取得更好的测试成绩。这在一定程度上可以视为AMD的投机取巧行为。但是考虑到大多数用户仍然会使用默认的驱动设置,因此我们并没有关闭OverDrive选项。
###NextPage###
基准性能测试:
3Dmark Vantage:
3Dmark Vantage是业界第一套专门基于微软DX10
API打造的综合性基准测试工具,并能全面发挥多路显卡、多核心处理器的优势,能在当前和未来一段时间内满足PC系统游戏性能测试需求。和3DMark05的DX9专用性质类似,3DMark
Vantage是专门为DX10显卡量身打造的,而且只能运行在Windows Vista
SP1操作系统下。它包括两个图形测试项目、两个处理器测试项目、六个特性测试项目。在游戏显卡性能的测试中只需运行两个图形测试项目和两个处理器测试项目即可得到分数,同一平台下GPU的得分参考性较强。
测试方法:关闭PhysX选项,运行Extreme和High两个测试。
从测试图中我们可以看到,在CPU权重较小的Extreme和High模式中,Geforce GTX 480和Geforce GTX 480分别以微弱的优势领先于各自的对手Radeon HD 5870和Radeon HD 5850。
###NextPage###
Unigine Heaven Benchmark:
近日,Unigine放出了其DX11性能测试程序Unigine Heaven的2.0版本,Unigine Heaven
2.0支持DX9、10、11,并新增对OpenGL的支持,并进一步加重了tessellation负担,游戏支持高级SSAO技术,并能精确物理模拟D的容积云和带有光线散射的动态天空。我们实际分别运行了Unigine Heaven的1.0和2.0版本,以考量Geforce GTX 480和Geforce GTX 460显卡处理DX11特效的能力。
软件设置:如图所示,软件使用分辨率和DirectX 11 API,Shaders质量设为高,开启Tessellation特效(Heaven 2.0版设置为extreme),并使用4XAA和16XAF的设置。
测试方法:运行软件的自带Benchmark即可得到分数。
在Heaven 1.0版benchmark中,我们可以看到能够处理复杂Tessellation特效的Geforce GTX 480和Gefoce GTX 460显卡测试成绩均领先于对手。
到了能够提供多种Tessellation选项的Heaven 2.0中,Geforce GTX 480和Geforce GTX 460显卡的优势更为明显。
###NextPage###
写在游戏测试的前面:
在传统的游戏测试中,我们最常用的方法就是用对不同显卡用benchmark或者fraps来测试某个游戏同一段固定场景的平均值的大小来判定显卡性能的高低,有时也会去测试并标明一款显卡在某个游戏设置下的最低帧,虽然这是一种比较稳健的做法,但是这并不能完整的表现出用户在游戏中的体验效果:用户真正在意的是显卡能否提供流畅的游戏体验——而平均值无法反映这种反差。而采用最小值的方法仍然不够准确,偶尔的硬盘读写或者其他进程的响应都可能使得游戏中瞬间FPS值暴降,但并不会很大程度上影响到用户在游戏中的整体体验。
因此我们在本次测试中除了给出平均值和最小值,仍然给出了实际运行过程中的帧率图。用户可以点击这些图片查看显卡在运行游戏时的帧率变化曲线。并且我们在每个帧率图中给出了所有参测显卡在运行游戏时FPS低于30帧的百分比时间,以更好的帮助用户参考测试数据。
另外需要特别说明的是,在或者更高分辨率、高画质下运行DX10以上级别的游戏时往往会因为显存容量不足导致测试成绩暴降。因此我们对每一款显卡、每一个游戏场景都进行了反复测试,以获取这款显卡在不爆显存时的正常测试结果。
###NextPage###
DX11游戏测试:Metro 2033
游戏简介:《Metro 2033》(地铁2033)改编自俄国作家Dmitry Glukhovsky的畅销小说「Metro
2033」,故事描述近未来爆发了核战,整个世界都笼罩在辐射之下,人类几乎死尽。仅存的人类躲藏在莫斯科的地铁站里(注)挣扎求生,布满辐射尘的地表已为各种变种生物所占据,地底的列车站台成了人们最后的聚集地。故事的主角Artyom是核爆后出生的生存者,他的兴趣是收集战前的风景明信片,梦想地表的模样;某日,一起突如其来的事件迫使主人公Artyom踏上旅途,前往其他的站台求援,以拯救自己居住的地铁站以及最后人类的命运。
测试设置:
测试中选择DX11模式,特效选择最高,开启DX11的DOF和tessellation特效,统一关闭物理特效。
测试方法:测试游戏中的一个非手动场景,从主人公坐在人力手摇轨道车上开始,到背后有异形追来、可手动操作时的场景,共四分15秒左右,用Fraps截取FPS制作折线图和柱状图。
▲折线图可点击放大
▲折线图可点击放大
《Metro 2033》似乎有引领新一届显卡危机的趋势,以至于我们不得不在下测试来获得可玩的游戏帧数,Geforce GTX 480和Geforce GTX 470以绝对优势大胜对手Radeon HD 5870和Radeon HD 5850,最高领先幅度超过了50%。
###NextPage###
▲折线图可点击放大
▲折线图可点击放大
分辨率提升到后,Geforce GTX 480和Geforce GTX 470较对手的优势依然明显,不过此时的FPS已经不能流畅运行游戏,意义不大。
###NextPage###
DX11游戏测试:Battlefield:Bad Comany 2
游戏简介:
《 Battlefield: Bad Company 2 》(战地:叛逆连队2)是EA
DICE研发的第9款“战地”系列作品。它是2008年上市的同系列的游戏战地:叛逆连队的续作。两在单人游戏剧情上亦有很多交叉点。游戏仍然沿用前作的寒霜引擎,并有所改进。除了完善了代码的优化,本作在破坏效果上也有所加强,可破坏的物件由92%上升到99%。前作里不能破坏的小物件以及建筑物框架,在本作中也可以被破坏。
测试设置:
如截图所示,由于游戏子选项比较复杂,所以游戏提供了一个OVERALL QUALITY设置,只需将此项调为ADVANCED即可达到最高的画质设置,当然分辨率和AA、AF是可以自己选的,垂直同步设为关闭。
测试方法:使用fraps截取从进入新游戏画面后一直到游戏的主人公上岸之前的不可手动控制部分,将人工干预降到最低,整个过程大约3多分钟。
▲折线图可点击放大
▲折线图可点击放大
在寒霜引擎的《 Battlefield: Bad Company 2 》游戏中,新架构的Geforce GTX 400系列的两张显卡都没有多少作为,相对于Geforce GTX 285提升微弱,结果就是两款显卡均惨败于对手。
###NextPage###
▲折线图可点击放大
▲折线图可点击放大
到了分辨率的两个设置下,差距缩小了一些,但是依然不敌Radeon HD 。
###NextPage###
DX11游戏测试:Colin Mcrae: DiRT 2
游戏简介:
《Colin Mcrae: DiRT 2》(科林麦克雷:尘埃2)是有Codemasters公司推出的赛车类游戏,是科林麦克雷拉力赛的正统续作。成熟的引擎、完美的画面和适中的难度让《Colin Mcrae: DiRT 2》成为电脑游戏玩家最为热衷的竞速作品竞速作品之一。《Colin Mcrae: DiRT 2》采用第一代使用的系统,但在赛车的各种视觉表现上,更注重沙尘和赛车的表现效果,无论是飘沙的设计,或是在车道上留下的车痕。另外,本次系列作针对车辆内的操作人员动作也做了强化,让玩家亲身体验赛车的刺激。
《Colin Mcrae: DiRT 2》使用的EGO引擎将整体部署DirectX
11技术,支持图形多线程、硬件Tessellation以及SM5.0等新特性。
游戏设置:
由于游戏画质选项太多,游戏也类似于《 Battlefield: Bad Company 2》一样提供了一个一键画质全高的菜单,不过由于Geforce GTX 480、470无法在DEMO中开启POST PROCESS的HIGH选项,公平起见,游戏中统一设为了MEDIUM。
测试方法:使用Fraps记录游戏自带的Benchmark全程场景FPS,通过FRAPS的截获数据来制作折线图和柱状图,整个过程接近四分钟,不过有趣的是,Benchmark中的驾驶车辆都是电脑随机操控的,每一次的路线并不完全相同,主人公驾驶的车辆也会出现撞车、滑出赛道甚至翻车的现象,不过从测试结果来看,这对一个有着较长测试时间的测试的FPS折线图的大趋势没有太大影响,但如果细细的看起来,就会显得不太和谐。
▲折线图可点击放大
▲折线图可点击放大
在的4AA和8AA两个设置的测试中,Geforce GTX 480的成绩大幅领先Radeon HD 5870,Geforce GTX 470也小胜Radeon HD 5850,甚至几乎赶上了HD 5870。
###NextPage###
▲折线图可点击放大
▲折线图可点击放大
在2560分辨率的4AA和8AA测试中,Geforce GTX 480和Geforce GTX 460的优势较1920分辨率有所下降,但依然能在对抗中胜出。
###NextPage###
DX11游戏测试:S.T.A.L.K.E.R: Call of Pripyat
游戏简介:
故事展开在潜行者:切尔诺贝利的阴影结束后的不久,俄国政府决定举行大规模号称“航道”的军事行动,探索通往变异区中心的大路,旨在将CNPP控制于股掌之中。 根据行动计划,第一个小队将被派遣对整个变异区进行空中侦察,标绘出各变异点位置的详细布局。此后再利用此地图,把大部队开进到里面。 尽管准充分备,行动还是失败了。打头阵的大多数直升机都已坠毁。为了收集行动失败的内幕资料,乌克兰的安全部门将特工派到变异区中心。从这时起,一切都由玩家做主了。
《S.T.A.L.K.E.R: Call of Pripyat》采用GSC的X-Ray图形引擎开发,并且支持DirectX 11。
测试设置:
如Benchmark中所示,开启DX11的Ultra画质,SSAO Mode开启HDAO,SSAO Qulity使用Ultra,并开启DX10.1、tesselation和 Contact hardening shadows 特效。
测试方法:使用Fraps截取游戏自带Benchmark中第一场景的FPS值并制作折线图和柱状图。
▲折线图可点击放大
▲折线图可点击放大
在的0AA和4AA两个设置的测试中,Geforce GTX 480与Radeon HD 5870,Geforce GTX 470与Radeon HD 5850的成绩无论从折线图还是柱状图中看都像两对孪生兄弟,非常的相近。
###NextPage###
▲折线图可点击放大
▲折线图可点击放大
开启2560分辨率后,四张显卡的FPS均有大幅下降,下降的幅度也比较平均。在1920分辨率下的两对“孪生兄弟”,到了2560分辨率下依然团结一致。在开启4AA设置后,即便是成绩稍高的Geforce GTX 480的FPS也绝大部分都在30FPS以下,此时的成绩已经没有太多参考意义,看来想要征服这个游戏仍需时日。
###NextPage###
DX10.1游戏测试:Tom Clancy's H.A.W.X
游戏简介:
《Tom Clancy's H.A.W.X》由Ubisoft的Bucharest
Studio负责开发,玩家可以在游戏中驾驶超过50种飞机进行空战.游戏的背景时间设定在2012年,那时的世界正越来越依赖于私人的军火公司(PMCs)。随着PMCs逐渐强大,世界正走向全球冲突的悬崖。这听起来好像是个足够充分的理由让玩家跳进自己的战斗机去干掉那些坏蛋。HAWX提供了名为“强化真实系统”(ERS)的特性,该系统甚至能够让一般的飞行员感觉像是Iceman。ERS包括雷达,来袭导弹探测,防坠毁系统,损害控制系统,战术地图,信息中继,武器弹道控制和允许玩家控制AI中队的指令。开启所有的辅助模式后,ERS将为飞行员提供最大限度的安全保障。想象一下好比在赛车游戏中开启所有辅助模式后的效果吧。虽然关闭辅助模式后玩家可以在控制上获得更多的自由,但没有了ERS的全部保障措施也相应的提高了风险。幸运的是,玩家不需要孤军奋战。HAWX支持4人连线协同作战。此外也提供Vs模式支持16人连线对战争夺经验点和游戏币,用于解锁新武器。
游戏提供了高质量阴影贴图、屏幕空间环境光遮蔽(SSAO)、阳光散热(God Rays)、软粒子云雾等等,并支持DX10.1。
测试设置:
▲测试设置点击放大
画质选项全部选择可选的MAX设置,由于Geforce GTX285不支持DX10.1,所以只能用DX10模式运行。
测试方法:使用Fraps截取游戏自带Benchmark场景中的FPS值并制作折线图和柱状图。
▲折线图可点击放大
###NextPage###
▲折线图可点击放大
▲折线图可点击放大
HAWX这款DX10.1游戏对于硬件的要求并不高,Geforce GTX 480和Geforce GTX 460均以小幅优势击败各自的对手。而第一次参赛的Geforce GTX 285成绩惨不忍睹。
###NextPage###
DX10游戏测试:Crysis Warhead
游戏简介:《Crysis Warhead》是由德国Crytek
Studios开发,美国艺电(EA)发行的一部孤岛危机正统续作。玩家将在游戏中继续借助Nanosuit与外星种族展开最后的生死搏斗,与众多新增角色一同进行惊心动魄的冒险之旅。此作将全面强化Nanosuit作战服的崭新能力与操作体验,新加入的“Advanced
AI”技术将把游戏互动体验提升到一个史无前列的巅峰高度。作为Crysis的后续之作,Crysis
Warhead在游戏引擎上做了不少优化,游戏FPS相对提高了一些,但对于目前的主流硬件配置来说依然是一个噩梦。
测试设置:
如上图所示,使用FBWHTool Benchmark设定DX10的ENTHUSIAST画质。
测试方法:用FBWHTool Benchmark运行2循环即可得到测试结果。由于此Benchmark的测试方法为跑取固定的总帧数,所以用每张卡和不同的设置下用Fraps截取当前时间FPS来制作出的折线图会长短不一,曲线也不吻合,所以在此项游戏里我们没有制作折线图。
这款发布于2008年的“显卡危机”游戏已经连续击败了两代显卡。而新一代的Geforce GTX 480和HD 5870这种级别的显卡也只能在 DX10/E 4AA下勉强流畅运行,看来显卡危机还要继续危机下去。
###NextPage###
2560分辨率下的成绩都跌的很惨。值得一提的是,在4AA的设置下,Nvidia Geforce GTX 480和Geforce GTX 460的两款显卡帧数损失并不算太大,而HD 5870和HD 5850显卡的成绩则大幅下降。
###NextPage###
DX10游戏测试:Far Cry 2
《Far Cry 2》(孤岛惊魂2)是拥有超高自由度的游戏系统,整个游戏世界面积达到50平方公里,玩家可以自由在其中驰骋,而游戏的结局也是开放的。游戏背景设定在现代的非洲原野上,游戏环境可以动态变化,玩家可以在其中体验到枯木逢春和野火烧不尽,春风吹又生等等四季变化。游戏中玩家要在两大势力集团之间游走,谁是敌谁是友都要看玩家选择的任务和自己言行的不同。
游戏设置:
选取Benchmark Tool中的DX10模式下的Ultra High模式。
测试方法:运行Far cry 2 Benchmark Tool软件,测试场景设置3次循环,并在第三次循环中使用Fraps截取FPS值并制作折线图和柱状图。
▲折线图可点击放大
###NextPage###
▲折线图可点击放大
▲折线图可点击放大
在DX10游戏FarCry 2中出现了一边倒的结果,Geforce GTX 480和Geforce GTX 470均领先其对手约40%左右。HD 5870显卡虽然在AA下平均帧数35帧,但却有2/3的时间运行在30帧以下,已经难说流畅。
###NextPage###
DX10游戏测试:World in Confilict
游戏简介:
《World in
Conflict》(冲突世界)以发生于21世纪的虚拟全球战争为背景是一款重点在于单位策略、行动、团队合作和毁灭上的后冷战时期的即时战略游戏。它采用了自行研发的MassTech引擎,支持多种当前的主流显示特效,如容积云,景深效果,软阴影等,光照系统也表现出色,尤其是半透明的容积云特效营造出了十分逼真的户外场景,物理加速结合体积光照渲染出了最逼真的爆炸效果。
游戏设置:
游戏自带的画质BASIC菜单中的VeryHigh选项并不能让所有设置达到最高,我们要手动在画质选项的ADVANCED菜单中将所有设置选为最高。
测试方法:使用Fraps截取游戏自带Benchmark场景中的FPS值并制作折线图和柱状图。
▲折线图可点击放大
▲折线图可点击放大
分辨率的两个设置下,随着AA AF设置的提高Geforce GTX 480的优势更加明显,Geforce GTX 470和Radeon HD 5870的数据几乎一致;行就将木的Geforce GTX 285勉强赢过HD 5850一个回合。
###NextPage###
▲折线图可点击放大
▲折线图可点击放大
2560分辨率下Geforce GTX 480的优势更加明显,Geforce GTX 470的成绩则比较接近于HD 5870。
###NextPage###
DX10+PhysX游戏测试:Cryostasis:Sleep of Reason
游戏简介:
FPS新作《Cryostasis》(雪域危机)是由1C Company代理发行的冒险射击游戏,Action
Forms公司开发的。《Cryostasis》是一款变种的室内风格的射击游戏,游戏中玩家的活动场所将是黑暗神秘的室内环境,玩家需要利用自己的智慧和本能生存下去。
游戏发生在一艘被冻在北极的核动力破冰船北风号上。玩家扮演一名名叫Alexander
Nesterov的气象学家。Alexander被困在这艘被冰冻在北极点上的船上,而船外面只有死一般的寂静与寒冷。然而玩家并不孤单,因为穿上还有一种凶残的实验变异生物。现在,玩家不得不逃离船舱。
测试游戏中的一个最重要技术就是基于光滑粒子的动力学(SPH)。与普通的粒子引擎相比,SPH技术能根据水的黏性计算其视觉流动效果,还能反映水面和周围环境的互相映射效果,当然也是严格符合重力学特性的。开发人员称,DEMO中有大约三万个粒子在互动。
测试设置:
如图所示,只需在Demo设置中将Quality Presets设为High即可让所有特效开胃最高,Physics模式设为 Use hardware,分辨率为。
测试方法:和Crysis Warhead一样,Benchmark的测试方法为跑固定的总帧数,用Fraps截取当前时间FPS来制作出的折线图会长短不一,曲线也不吻合,所以我们只用自带Demo测试平均FPS和最低FPS。
对于Physx游戏来说,不支持物理加速的Radeon HD 5800系列的显卡大家可以自动忽略掉,不过Geforce GTX 480和Geforce GTX 470对于Geforce GTX 285的性能提升还是非常明显的。
###NextPage###
温度测试:
测试方法:
测试方法:我们以待机10分钟和运行过的Furmark 1.7.0
十分钟的方法,用GPU-Z和Furmark自带的记录曲线来读取核心稳定的最低和最高稳定值,测试气温 19℃。
▲Geforce GTX 470待机温度
若不是NVIDIA在测试测尾声阶段提供了可识别Geforce GTX 400的GPU-Z,或许笔者到文章发表后也不会知道,Geforce GTX 400系列的两片显卡的待机频率是如此的低:核心仅有50MHz,而显存和Shader也分别只有67.5MHz和101MHz。但显卡的待机风扇转速并不低,为1470转/分左右。
▲Geforce GTX 470高负载温度
Geforce GTX 470的满载温度为93度,满载时风扇转速约为2400RPM,噪音清晰可闻,但并不算很吵。
▲Geforce GTX 480待机载温度
Geforce GTX 480的待机频率和Geforce GTX 470完全一样,但待机风扇转速已经达到了1600转RPM以上,不能算做安静。
▲Geforce GTX 480高负载温度
Geforce GTX 480和Geforce GTX 470的散热器风扇疑似采用的是恒温点控制策略,运行高负载程序后,核心温度一路飙升,直到过了94度后风扇才开始迅速提速,GPU温度则小幅回落到93度之后保持稳定,两张显卡的风扇转速依次保持在2394转/分(Geforce GTX 470)和3532转/分(Geforce GTX 480)
###NextPage###
风扇噪音测试:
测试方法:将噪音测试仪放置到距离显卡50CM的等高平面上,并关闭CPU散热器风扇来减少干扰,分别记录显卡auto转速的2D待机10分钟和3D高负载(Furmark)10分钟的稳定最高噪音,由于没有隔音室,我们尽量选取了深夜安静的时间段来测试,环境噪声约为35分贝。
▲噪音测试图
在上一节中我们已经得知Geforce GTX 480和Geforce GTX 470的待机转速仅为1470转左右,待机噪音清晰可闻但并不吵。在此噪音值下,我们手头测试的仪器上显示的数字并不能精确的反应出正常的噪音感受,所以我们只测试了两张显卡高负载下的噪音。
经过测试,Geforce GTX 480/Geforce GTX 470在高负载下噪音对比测试数据如下图:
Geforce GTX 480和Geforce GTX 470高负载下的风扇满载噪音分别为50.4和45.6分贝,主观听起来要明显高于Radeon HD 5800系列。
###NextPage###
功耗测试:
显卡功耗测试:
在许多的测试中,都是用平台的电源输入功耗来比较显卡功耗的大小,但是这样平台的功耗会因为其他配件的不同而不同,为了精确的测量显卡的实际功耗,我们在研究了显卡的供电构成之后,决定用卡钳和电压表来直接量取显卡各个部分的供电电流和电压,可以根据每路得供电电压和电流的乘积相加得到的结果来较精确的求出显卡的单独功耗:
显卡外接供电的电压和电流我们可以直接用万用表直接读取和用卡钳在6PIN、8PIN的导线上方便的测出,但是对于PCI-E插槽上的电压和电流我们需要进行一些MOD才能进行测量。
x16接口供电的针脚定义,我们用PCI-E转接卡引出了+12V和+3.3V供电的导线,用直流钳表来测量导线上的电流。
▲将转接卡PCI-E供电线路导线引出来以便测量电流
▲PCI-E 3.3V和12V和外接供电的12V电压则可以用万用表直接测出
▲PCI-E 3.3V和12V和外接供电的12V电流则可以用直流钳表测出
经过测试得到Geforce GTX 480/Geforce GTX 470单卡功耗数据如下:
▲Geforce GTX 480功耗数据
虽然Geforce GTX 480的待机频率很低,但其待机功耗仍然接近50W。这可能是Nvidia在引入40nm制程时由于漏电流过高所引起的。
Geforce GTX 480的满载功耗已经接近280W,而Geforce GTX 470的满载功耗也接近220W。如果你想购入Geforce GTX 480、Geforce GTX 460,切记要选购一款好电源,不要亏待了它们。
###NextPage###
测试总结:
前言←关于Fermi/GF100/GTX 400系列←GF100图形架构←DX11重要特性:实时Tessellation←GF100的几何硬件并行化架构←GF100层次组织结构上的改变←支持FMA与半速双精度计算,新一代流处理器←纹理单元的更新←大幅更新的ROP←新的缓存架构对游戏的帮助←其它(光线追踪、PhysX)←演示DEMO:Realistic Character Hair←DEMO演示: Realistic Water&Terrain←DEMO演示:RayTracing_DesignGarage←显卡实物解析Geforce GTX 480外观←改良的散热设计←散热器解析←Geforce GTX 480设计、供电详解←Geforce GTX 470外观赏析←Geforce GTX 470散热器详解←Geforce GTX 470设计、供电详解←测试平台介绍←3Dmark Vantage←Unigine Heaven Benchmark←写在游戏测试前面的话←DX11游戏测试:Metro 50←DX11游戏测试:Metro 00←DX11游戏测试:Battlefield:Bad Comany 2 ←DX11游戏测试:Battlefield:Bad Comany 2 ←DX11游戏测试:Colin Mcrae: DiRT ←DX11游戏测试:Colin Mcrae: DiRT 2 ←DX11游戏测试:S.T.A.L.K.E.R: Call of Pripyat ←DX11游戏测试:S.T.A.L.K.E.R: Call of Pripyat ←DX10.1游戏测试:Tom Clancy's H.A.W.X ←DX10.1游戏测试:Tom Clancy's H.A.W.X ←DX10游戏测试:Crysis Warhead ←DX10游戏测试:Crysis Warhead
←DX10游戏测试:Far Cry 2 ←DX10游戏测试:Far Cry 2 ←DX10游戏测试:World in Confilict ←DX10游戏测试:World in Confilict←DX10+PhysX游戏测试:Cryostasis:Sleep of Reason←温度、风扇转速测试←风扇噪音测试←单卡功耗对比测试←测试总结

我要回帖

更多关于 小霸王游戏合集 的文章

 

随机推荐