不可不看!真正专业显卡技术分析评测
转自:http://www.enet.com.cn/article/2005/0617/A20050617425464.shtml
近年来图形卡产品有了爆炸式的增长,专业图形卡产品和娱乐图形卡产品的界限越来越模糊。许多DIYer通过RivaTuner等工具轻易的修改 Geforce为Quadro、修改Radeon为FireGL。但是这样的修改并没有使得专业图形卡的价格有所下降,专业图形卡的价格依然几倍于娱乐图形卡。即便是Quadro和Geforce有如此亲近的血缘关系,两者的价格依然是天渊之别。
有DIYer认为将Geforce通过各种软件修改为Quadro就能得到一张专业的图形卡,这张修改来的图形卡在OpenGL方面的表现的确有了明显的提升。但这就是专用图形卡的全部吗?答案绝对是否定的。要弄清楚专业图形卡和娱乐图形卡的区别,我们首先需要了解专业图形卡究竟能干些什么事情。
还有人认为如果拥有一片专业图形卡,那在运行3ds Max、Maya、Softimage XSI等DCC类软件时的速度将会大大提升、最终渲染时间也将极大缩短。但是当他们花了几万元买来一片专业图形卡的时候,他们会发现这些软件的最终渲染时间并没有减少。事实上现阶段专业图形卡最大的作用依然是加快DCC类软件的创作速度——无论是Quadro还是Wildcat,他们都着重于加速 Maya、Softimage XSI等软件在建模、贴图、光照时候的视口工作区(Viewport)预览速度。面对复杂的场景时,往往拖动一下鼠标、画一条直线都需要系统耗费大量时间来重新绘制预览工作区,这样整个创作过程就会变得极端低效。一旦你有了这些专业图形卡,再次打开复杂的场景进行编辑修改时他们将会以实时的速度给你提供预览,而不必冗长的等待。
既然专业图形卡能加速DCC类软件的预览速度,为啥他们面对最终渲染时表现却那么强差人意呢?这个问题的答案正在不断变化。2001年时,几乎所有的好莱坞特效/3D制作室都认为对最终渲染进行硬件加速的结果将是灾难性的。这是因为当时的专业图形卡的可编程能力非常弱,渲染出来的结果往往和预计有着明显的差异。而到了今天,在新一轮统计中众多的好莱坞工作室越来越多的在某些场景中使用硬件加速渲染。这几年来随着GPU可编程能力的不断提升, GPU终于也能渲染出和CPU软件渲染媲美的最终效果了,而前者的速度却是后者的几百倍甚至上万倍。
根据标准卫星数据绘制的可视化模拟地图
除了GPU可编程性能的提升外,各类3D软件对于硬件的支持也越来越成熟。其中低端的3ds max在6.0内已经引入了DX9 Shader加速预览Plug-in,到了3ds max7则将这个功能彻底加强。中端市场的Maya从5.0开始加入了对硬件加速预览的支持,到了Maya 6.0时更是能够提供多种硬件加速预览、加速最终渲染的配置和方案。至于电影级3D软件的王者Softimage XSI在3.0的时候对于硬件的支持已经非常领先了,在进化到4.0之后用硬件加速最终渲染的结果已经能和CPU Scanline软件渲染相提并论。一旦OpenGL 2.0得到全面的应用,这些软件对于硬件的支持将会更进一步。
GPU在进步、软件在进步,但专业图形卡在DCC类软件中依然有着不可逾越的界限。熟悉3D DCC类软件的朋友应该知道新版本的3D DCC软件往往包含3种渲染技术,他们分别是最为古老的Scanline算法(扫描线算法)、Global Illumination(全局照明,包含Ray Trace,光线追踪算法、Radiosity,光能传递或者叫做辐射度算法)和最新引入的硬件渲染。事实上硬件渲染也是基于Scanline的。(下页将会有关于这些名词的解析)
然而,在日常应用中GI的优势已经越来越明显,许多设计师也更倾向于使用GI类渲染器来完成他们的工作。由于Ray Trace算法和Radiosity算法包含大量的有限元分析计算和迭代,传统的GPU对此毫无办法,更遑论加速了。直到现在,用GPU加速GI类计算依然处于实验室阶段。在今年的SIGGRAPH 05中德国Sarrland大学展示了能够实时加速GI类计算的硬件SaarCOR的可运行版本。其相关论文在2002年SIGGRAPH会议上已经发表,由此可见开发难度。
由4个FPGA组成的SaarCOR系统(图中尚有2个FPGA空位)
由SaarCOR进行实时渲染的Quake3光线追踪版引擎绘制的画面(注意看水壶上的光线反射场景)
不要以为专业图形卡就只能画画3D图形,事实上他们的用处远远超过你的想象。现代科学研究中根本无法离开专业图形卡的帮助,专业图形卡能够对可视化计算进行加速、能够绘制卫星地图、能够绘制3D热源分布图甚至是进行模拟装配和流体力学计算。通过一定的算法,专业图形卡甚至还能加速声音的可视化处理(这也是General Purpose GPU项目的研究目标)。我们熟悉的美军M1A1坦克、F22战斗机上就装配有NVIDIA Quadro图形芯片,配合Wind River实时操作系统进行卫星地图的绘制和目标锁定识别瞄准。
Quantum3D和美军合作开发的地形匹配锁定瞄准系统
Global Illumination / Ray Tracing / Radiosity
在前面介绍专业显卡时,提到了Global Illumination、Ray Tracing等专业名词,下面就对它们的含义作一些简单的解释。
什么是Global Illumination?
采用全局照明渲染器绘制的3D图片(请注意本文所有示例图片都为直接渲染而成)
Global Illumination(全局照明)是一个和Local Illumination(局部照明)相对的概念。绝大部分简单的3D软件都能提供Local Illumination的支持。但是Local Illumination在应用上有极大的局限。Local Illumination只考虑光源对目标物体的改变,而不去考虑该光源对其他对象的影响。而在Global Illumination中光线对于目标对象以外的影响将会被同时计算。现代的全局照明往往同时包含了光线追踪渲染和辐射度渲染,渲染器用辐射度计算出全局与视图无关的照明方案,然后Ray tracing使用这个方案渲染跟视图相关的图像并增加镜像高光和反射。现阶段应用最广泛的Mental Ray、Final Render等渲染器都提供了对GI的支持。
什么是Ray Tracing?
我们将光源分成众多的射线,然后再沿着视点和象素连线射出一条光线,之后根据材质的属性计算出这些光线被物体吸收、折射、反射后最终回到视点中的数值变化,从而获得一个正确光照场景。OpenGL ARB在2005年1月31日宣布,已经有研究组织成功的在Geforce6800 GT GPU上通过Cg和OpenGL API实现硬件光线追踪计算。
用OpenGL API在Geforce6800 GT上实现硬件Raytrace
2002年Graphics Hardware会议上北卡罗莱纳大学发表的光线追踪GPU构想
什么是Radiosity?
LightWave 8中Radiosity渲染器所渲染出的图片
Radiosity (辐射度渲染或光能传递) 算法其本质就是将光看作是一种物理辐射,然后计算辐射的传导就能获得加之于每个对象物体上的光照强度,从而获得正确的渲染结果。辐射度渲染通过制定在场景中光线的来源并且根据物体的位置和反射情况来计算从观察者到光源的整个路径上的光影效果。在这条线路上,光线受到不同物体的相互影响,如:反射、吸收、折射等情况都被计算在内。和其他渲染方法相比,Radiosity更接近于光的自然传播原理,因而受到广泛的欢迎。
单纯采用Radiosity算法进行的场景渲染
10年前专业图形卡市场被几家公司牢牢占据——3Dlabs、Evans & Sutherland、Quantum3D、Diamond。时过境迁,众所周知Diamond已经在几年前倒闭,旗下的FireGL图形卡开发小组被卖给了ATi。3Dlabs被创新收购后一蹶不振,直到Wildcat Realizm系列图形卡才挽回颜面。Evans & Sutherland、Quantum3D两家则彻底退出专业图形卡市场转向可视化模拟领域,Evans & Sutherland美国军方开发了MCT系统对飞行员进行可视化模拟培训,Quantum3D则和NVIDIA合作为美国军方开发了America Amry可视化模拟训练系统。除了美国军方之外,这两家可视化模拟器产品也被众多公司、机构所采用,两家的产品几乎垄断了整个高端可视化模拟器市场。
Quantum3D的IDX2000可视化模拟器
在让我们看看3Dlabs。作为OpenGL的起草人之一,3Dlabs和SGI合力搭建了整个3D世界的基石。因此在很长一段时间内, 3Dlabs的专业图形卡有着极高的市场份额。与此同时3Dlabs的“半专业”图形卡Premeida2在民用图形卡市场获得了不小的成功。可惜这次的成功使得3Dlabs开始狂妄了起来,Premedia3迟迟无法完成研发,周围的对手却在虎视耽耽,准备瓜分专业图形卡市场。
E&S的飞行培训可视化模拟器
NVIDIA Geforce256的诞生绝对是计算机图形史划时代的进步。T&L的引入一下子拉近了专业卡和民用卡之间的距离。以往专业卡上昂贵的独立几何处理单元被集成进了GPU内部,这样民用图形卡首次有了和专业图形卡相提并论的机会。NVIDIA随后伙同了ELSA共同推出了内核逻辑设计几乎和 Geforce256完全相同的Quadro256 GPU。NVIDIA Quadro的成功和曾经辉煌的ELSA密不可分。在Quadro以前ELSA已经在专业市场上占据大量的份额,基于3Dlabs图形芯片的ELSA GLoria系列图形卡成为当时众多DCC工作者梦寐以求的东西。
Quantum3D/NVIDIA和美国军方联手开发的战地士兵训练系统(也就是America Army游戏的专业版)
在Quadro之前,NVIDIA和ELSA试探性的推出基于RIVA TNT2的专业卡ELSA Synergy II图形卡,该卡上市后成为当时性价比最高的产品。也为日后Quadro的成功打下了基础。据称当年ELSA的工程师们单就修改TNT2原始驱动中所存在的Bugs就多达3000多个,更不用说接下来的PCB重新设计及针对软件的优化工作量了。NVIDIA推出Quadro大获成功后不久,为了彻底完善专业图形卡领域的驱动支持,将整个ELSA专业图形卡驱动研发队伍纳入旗下,而ELSA在失去这支精锐队伍之后开始一蹶不振。
第一片采用NVIDIA图形芯片的专业图形卡
当时还有另外一家公司于ELSA旗鼓相当,那就是Diamond。和ELSA不同,Diamond的专业图形卡从设计到驱动研发是由旗下一个独立的工作组完成的,该工作组就是FireGL。FireGL从SPEA公司转到Diamond旗下后,无论是产品的推出速度还是产品的竞争力上都有了惊人的提升。在这段时期内,FireGL小组推出了FireGL 1000、FireGL 2000、FireGL 3000、FireGL 4000共4片图形卡。有趣的是这4片图形卡的图形核心竟然来自于3家毫无关联的公司。FireGL 1000采用了3Dlabs Premedia NT+GLint Delta核心,而FireGL 2000的图形核心来自于AVANCE Logic。FireGL 3000同样使用Premedia Avance。最后的FireGL 4000竟然选择了三菱3D PRO 2MP图形内核。
随后因为台湾厂商的加入,板卡制造行业的利润急速下滑。Diamond和ELSA同时遇到经营危机,Diamond被S3收购后改名为 Sonic Blue,专门推出S3图形芯片的图形卡。而FireGL小组则采用IBM Rasterizer及RC1000+GT1000等图形核心陆续推出了FireGL 1~FireGL 4共4片专业图形卡和Quadro分庭抗礼。之后的事情相信大家也很清楚了,Sonic Blue再次完蛋,S3被VIA买下,FireGL则被出售给了ATi,拉开了ATi切入专业图形卡市场的序幕。
FireGL并入ATi近一年后,采用ATi Radeon8500 GPU推出了基于DirectX 8的FireGL 8800/8700。但是R200内核设计显然不适合用作专业用途,DirectX 8在专业领域面对OpenGL依然显得太嫩了,所以FireGL 8800/8700最终只能依靠低价占领市场。紧接着3ds max加入了D3D 9支持,而3ds max的D3D执行效率竟然超过OpenGL。ATi的Radeon 9700系列也通过DX9扬眉吐气。基于R300内核的FireGL X1自然也趁势出击给予了Quadro强力的阻击。
在经历了近10年的发展之后,专业图形卡已经非常成熟。在我们以往测试过的所有专业图形卡中都展示了许多一致的特性。对于新一代专业图形卡我们认为它们必须具备以下特性,才能满足我们不断提升的需求。
- 基于PCI Express Graphic(X16)接口
尽管使用PCI Express Graphic(X16,以下简称PEG)接口的娱乐用图形卡对比相同型号的AGP图形卡在性能上的优势微弱,但这并不代表PEG接口所提供的性能仅稍好于AGP 8X。在绝大部分游戏应用中所需要调用的纹理容量基本很少超过256MB。而在专业应用中,所需要的纹理却经常突破1GB。要高效的对这些纹理进行操作,显然需要1GB以上的显存,可惜的是如此大量显存的显卡价格将会惊人的昂贵。于是将纹理存储在系统内存中会是一个折中的办法,要高效的调用系统内存中的纹理,显然需要高速的接口,此时PEG接口的性能表现绝对超乎你的想象。
Dual DVI-I接口是专业图形卡必然的选择。DVI-I接口的好处是你可以根据需要使用转换头而将他们轻易的变成D-Sub输出,但是如果你仅仅只有1个 DVI-I和1个D-sub输出,在连接DVI设备时将会遇到极大的限制。与此同时,图形卡所能提供的最大输出分辨率也需要特别注意。许多设计师喜欢使用 22寸甚至更大的显示器,这些显示器的分辨率有1920x1200甚至更高,图形卡能否在如此高分辨率情况下提供清晰稳定的输出和所需刷新率也需要特别关注。
除了视频输出外,集群多屏渲染用户还需要GenLock接口和FrameLock接口以保证所有系统刷新率上同步,从而保证渲染、演示结果的正确。而要求更高的用户恐怕还需要SDI接口直接输出未压缩的SD/HD视频信号和立体眼镜接口。在选购专业图形卡时,我们必须要清楚的了解所需端口。
小知识:
什么GenLock、FrameLock?
Genlock(Generator Lock)其实就是提供该显卡刷新率信号的端口。在多个显卡/系统连接进行共同输出时(如视频墙、超高清晰度卫星地图显示)多个系统会因为行刷新率的不同导致画面出现闪烁或者条纹。GenLock接口则能够将显卡的内部刷新率型号告知其他系统的显卡,在共同进行连续视频输出时保持行刷新同步,避免这些情况的发生。
在进行集群渲染和可视化模拟时,每个显示系统所分到的任务量并不是一致的,复杂度的不同渲染时间自然也就不同,他们在进行共同输出时就会导致最终画面错误或者破碎。所以我们需要通过FrameLock接口来传输数据缓存同步信号和行刷新信号,以保证整个集群中所有系统最终显示速率的一致和渲染结果的正确。
什么是SDI?
QuadroFX 4000 SDI上的HD/SD通用10bit SDI接口
SDI(Serial Digital Interface,串行数字接口)是一种被广泛应用在专业视频编辑广播领域的接口。该接口的速度为270Mb/s,能够传输10bit精度,未经任何压缩的数字视频信号。是传输质量最高的数字视频接口之一。常用于连接非线性视频编辑系统和线性视频编辑系统,也有用SDI接口进行直接视频输出和录像。随着高清晰电视的来临, SDI接口也发展出了HD-SDI格式。
DirectX是娱乐显卡所必须遵循的规范,而专业图形卡所必须遵循的规范显然就是OpenGL了。OpenGL 1.0尽管已经发表了近十年,但灵活的扩展性和开放性使得OpenGL依然成为最强悍的图形API。事实上,所有关于图形学的研究都涉及OpenGL,所有的专业2D、3D程序都构建在OpenGL之上。专业图形卡只有提供对OpenGL完善的支持,才能正确的运行所有应用。
随着OpenGL 2.0的发布,各专业图形卡制造商也纷纷推出了支持OpenGL 2.0的驱动程序。3Dlabs作为OpenGL的缔造者之一,表现当然是惊人的迅速。而NVIDIA的OpenGL 2.0驱动也紧随其后。至于ATI则步伐相对慢了一点。
在几百个小时的工作即将完成时,系统的突然崩溃!这样一次崩溃往往会对用户造成极大的损失。专业工作站基本都是7x24不间断工作的,这样的工作环境对于硬件来说绝对是个挑战。因此所有的专业图形卡都不惜工本的采用最为顶级的元件和较为保守的设计。所以即便是做工远超同系列游戏卡的专业图形卡,其核心/显存频率较之依然有所降低。
在驱动方面,专业图形卡为了保证渲染结果和精度往往也会牺牲一定的速度。与此同时,为了获得对相应软件的完美支持,各大图形卡制造商还与软件生产商进行相互的合作,甚至有专门对应某软件的驱动版本以便获得速度和稳定性的提升。在厂商认证方面,无论是NVIDIA还是3Dlabs抑或ATi都做的相当好,几乎所有找得到的DCC、CAD等软件都有相应的通过厂商认证的驱动。
几乎所有的3D工作者都会遇到这样的情况:在3D软件中建模完成之后,发现有些圆弧部分、人体的关节部分有明显闪烁的黑点,或者是直接破裂。这样的情况就是专业图形卡的精度不足导致的。早期ATi的专业图形卡如FireGL X1只有4bit的子象素精度,同时Z-Buffer的精度也较为底下,在渲染大部分圆弧过渡的对象时都会产生破裂和黑点。而3Dlabs和NVIDIA 则很早就将子象素精度提高到了12bit甚至是16bit,彻底杜绝了该问题的产生。在我们本次的测试中,所有显卡都没有发生因为子象素精度不足导致的画面错误。
这次测试的产品包括NVIDIA的QuadroFX 1400、ATi的FireGL V7100以及3Dlabs的Wildcat Realizm 800共三块专业显卡,测试平台方面,我们选择了两颗AMD Opteron 875双核心处理器、4条Corsair DDR400内存(带ECC检验),而主板则选择了泰安S2895,采用nForce Professional芯片组。
众所周知,nVIDIA是现在全球显卡领域的龙头大哥,不但在个人电脑游戏显卡独树一帜,而且在专业绘图显卡也拥有雄厚的技术实力。特别是 Quadro FX系列,更适用于CAD和科研应用的性能最高的图形处理解决方案,今天我们IT评测室就为大家带来Quadro FX1400的实物介绍。
初看到该款丽台Quadro FX1400专业绘图显卡外观,和我们现在的游戏显卡区别并不大。然而它却拥有业界唯一真正的128位浮点运算的3D图形渲染管线,能够在一个宽广的动态范围内,提供给图形成千上万种色彩,同时还提供令人惊讶的视觉冲击以及最高的精度,远远满足复杂的3D效果图需要的众多高准确度的数据运算要求。
另外就专业显卡来说,想必大家平时也很少接触和了解到,专业绘图显卡与高端 3D 游戏卡之间的要求和差别简单来说就是:专业绘图显卡是用来建立游戏中使用的模型/环境,而游戏卡则只是为了玩游戏。游戏主要要求在一个窗口获得高帧幅率。专业绘图显卡需要解决的问题在于,使用极其先进而复杂的应用程序,同时在轮廓线和深浅模式中运行,且同时开启或关闭多个窗口及菜单,专业绘图显卡的设计也要能够处理百万多边形的较大文件。
这就是Quadro FX 1400的核心所在
显存方面,该款显卡采用的是HY颗粒,采用128 MB 256 bit DDR SDRAM内存规格
ATi和nVIDIA一样,都在专业显卡领域逐渐获得了相当程度的认可,不过和NVIDIA不同,ATI在专业领域的进步并不一帆风顺,一方面是ATI自身在技术方面与NVIDIA并不完全兼容,而NVIDIA则在行业里处于规范制订者行列,与“行业规范制订者”不同必然会产生一些负面影响,另一方面 ATI在专业领域的宣传并不是很花精力,与NVIDIA不遗余力地力推其高端专业产品相比,ATI的操作略显保守。
这款是来自ATI FireGL PCI-Express系列中最高规格的FireGL V7100,或者可以说就是ATi Radeon X800XT的专业版本。
FireGL V7100从硬件规格看其实和X800XT一模一样,外观上的差异也仅仅只在于显卡所提供的显示输出接口或是多几个电容、电阻,并没有什么太突出的地方。这点和NVIDIA同出一脉,都采用使用软件识别的方式区分专业和非专业显卡,从而实现降低研发成本的目的。
显卡使用的显存为2ns规格,默认频率1GHz。我们注意到在每颗显存的边上都有一个空焊位,而这块样卡是256MB规格,也就是说未来会提供 512MB显存规格的产品,从而实现更加强大的性能。256MB显存在目前顶级专业显卡领域中不具有竞争优势,想必ATI也是非常清楚的。
FireGL V7100的核心和普通的X800XT没有什么区别,只是名称换成了FireGL。事实上,目前虽然我们没有更详细对这款显卡进行测试,但它的硬件规格、软件配套都还不能让我们为之动心,希望在未来的评测中能看到优秀的性能表现,但也必须指出一点,要指望它在整个评测中获得最好的表现从我的角度来看未免难度太大。
如果你是一个显卡发烧友,如果你在为你的PCI-E显卡而自豪,如果你还在为双显卡SLI技术而垂涎欲滴,如果你还在为256bit显存位宽而感到沾沾自喜,如果你还在渴望能有512MB的显存来玩转DOOM3,那么我奉劝你一定要来看看这款显卡——3Dlabs的Wildcat Realizm 800。
随着NVIDIA和ATI在专业显卡领域的不断突飞猛进,很多人开始逐渐遗忘一个曾经在业内呼风唤雨的专业显卡产品设计与制造的老大级人物 ——3Dlabs。专业显卡的评测在业内并不多,而家用游戏显卡则不断受到大众媒体的追捧,随着家用游戏显卡在3D技术方面的不断进步,NVIDIA和 ATI不断得到媒体的曝光,专业显卡方面也乘机获得了大量的造势宣传帮助,相反3Dlabs即便拥有强悍的产品却苦于“报效无门”,无处宣传。
我在北京有一个朋友专门经营面向专业用户的产品,平时我所需要得到的一些专业技术方面的帮助也主要来自于他,他对于我们近期发布的《强到极限概念工作站级平台独家赏析》非常感兴趣,更对我们计划制作专业的工作站平台评测极为支持。其实原本在我们的计划中并没有考虑增加3Dlabs方面的产品评测,因为毕竟对我们绝大多数人来说,它的显卡实在超出了我们所需要的范围,不过他的诚恳与热情还是打动了我们,并且,更多的专业显卡显然能更加帮助我们的专业评测获得更多数据,并具有更强的说服力,因此来自3Dlabs的顶级民用专业工作站显卡Wildcat Realizm 800来到了我们的评测室。
朴素的显卡包装盒内装着的配件屈指可数,一块显卡(其实或者应该说是一块砖头),一本说明书,一张驱动光盘,一小盒DVI转VGA接口(两个)和一根用于将4PIN电源通用线缆转为显卡上专用的6PIN接口使用的转接线。其实我从来没有指望过在我上次收藏了一块Voodoo5 5500之后还会有更加夸张的超大显卡摆在我的面前,这次这款Realizm 800摆在我的面前时我着实想了好久怎样才能把它锁进抽屉——因为它的长度已经超过抽屉。什么?您问我如何把它装进机箱?嗯……说实话,其实这件事我压根没考虑过,专业工作站应该会有它能匹配的机箱使用吧,家用机箱要想用这块显卡的话,估计得在机箱前面板打上一个大洞才有可能。
任何一个发烧友都会很想看到这款专业顶级工作站显卡惊人巨大的散热器之下的各种芯片(组),不过我们在经过详细考虑之后还是决定暂时不拆,除了考虑到是否会产生损坏等问题,另一个重要的问题是拆完这些散热器之后如何装好,并保证散热能力实在是一件非常考验我们的事。为了保证在测试过程中不会损坏,我们决定将这个操作步骤留到评测结束之后。
本文的开始,我们提到了关于显卡的规格,事实上这款显卡的规格的确足以让所有人为之倾倒。该款显卡采用的是新规格的PCI-Ex16接口,接口默认速率为上下行共8GB/s的数据传输率。在基本处理器配置方面,它拥有两颗VPU和一颗独立的VSU。所谓的独立VSU全称是 Vertex/Scalability Unit,直译为顶点数据平衡处理单元,它的用途是用于平衡两颗VPU处理器的运算负荷。Realizm 800使用的两颗VPU运行频率无法判断,3Dlabs暂时也没有公开宣布,它的另一款Realizm 200使用的是1颗VPU,在过去的测试中反应出的结果是Realizm 800略微领先Realizm 200大概20%。
在处理核心方面的优势在于,3Dlabs保证这款显卡在多VPU负荷方面采用硬件级别(VSU)的内置平衡系统,不会出现兼容性问题的同时还保证了性能的提升,相反而言,NVIDIA目前提出的SLI技术,在实现过程中可能受到种种限制,目前在游戏方面的限制就需要软件的支持,在专业软件方面还有更多未知因素等待。那么,如果NVIDIA推出类似GIGABYTE的3D1式专业显卡是否能解决这个问题呢?恐怕很难,3Dlabs通过VSU来实现硬件的多VPU任务平衡,而SLI是软件型的支持,并且是通过一定的程序识别后激活SLI支持,属于一种软件式的任务平衡,与Realizm 800的多VPU技术还是有一定的差距。
在显存方面,Realizm 800使用了20颗显存,容量规格高达640MB,其中512MB为通用显存,另外128MB为直联突发显存。通用显存的内存位宽高达512bit,而 128MB突发显存位宽则为128bit。不过其中512MB通用显存根据我们的判断为两颗VPU各拥有256MB/256bit,在3Dlabs方面则将其等效为512bit来进行宣传。
无论如何,3Dlabs这款Wildcat Realizm 800给我们提供的性能感受都会是惊人的。
测试结果与分析:SPEC Viewpref 8.01
在整个测试中,我们采用了SPEC组织提供的VIewperf 8和SPECapc测试套件。SPEC(Standard Performance Evaluation Corporation)是由IBM、Intel、SGI、ATi、NVIDIA等几十个业界领导企业于1988年共同组成的计算机性能评估小组。时至今日,SPEC已经有上百个会员,他们几乎囊括了我们所熟知的所有硬件制造商。与此同时,SPEC的组织结构也有了较大的发展,SPEC旗下分为3个小组,分别是着重于系统图形运算性能评估的The Graphics Performance Characterization Group (GPC)、着重于对超级计算机和高性能计算机进行性能评估的The High-Performance Group (HPG)和着重于对普通工作站、服务器性能进行评估的The Open Systems Group (OSG)。
SPEC在高端性能评估方面有着绝对的领导力——所有的测试都基于真实脚本、所有的测试都对会员提供源代码。几乎所有的研究机构都用SPEC套件来衡量系统的运行速度,世界超级计算机500强(Top500)也采用了SPEC测试套件来进行性能模拟。
SPEC Viewpref 8.01
在本次测试中,我们首先使用了合成类的SPEC Viewpref 8.01进行测试。SPEC Viewpref 8.01包含7个真实测试脚本,分别基于入门3D软件3ds max 3.1、工程设计软件CATIA V5R12、科学可视化模拟软件CEI EnSight、室内建模软件Lightscape Visualization System、中端3D设计软件Maya 5.0、工程虚拟设计装配软件PTC Pro/Engineer 2001、Solidworks 2004 k、Unigraphics V17。
在Viewpref 8.01的测试中,拥有2个VPU和1个VSU加上512MB显存的3dlabs Wildcat Realizm 800以压倒性的优势超过了ATi FireGL V7100和NVIDIA QuadroFX 1400及QuadroFX 1400 SLI。在OpenGL应用中3Dlabs彻底可编程的流水线、额外存放指令的128MB存储器、单独的几何(Vertex Shader)及负载平衡VSU体现出了应有的价值。这样的性能优势,即便是面对同级别的Quadro FX 4400也能毫无惧色。
经过几年的耕耘,ATi FireGL也迎来了他们的收获。与之前的产品相比,ATi FireGL V7100表现的性能已经有了长足的进步。但ATi R300/R420 GPU的体系结构在运行OpenGL应用时的效率较为底下的问题似乎依然困扰着FireGL。在绝大部分应用中,拥有16条流水线的FireGL V7100性能甚至不敌档次更低的QuadroFX 1400。也许ATi是时候重写OpenGL引擎代码了。
QuadroFX 1400是我们所测试最具性价比的专业图形卡产品、QuadroFX 1400的价格仅有上面2款产品的一半,甚至更低。但是QuadroFX 1400所能提供的性能却不仅仅是50%。得益于NV4x体系结构,NVIDIA QuadroFX 1400在较小晶体管规模上实现较高的专业性能。需要指出的是,NVIDIA在专业图形卡方面的软件开发力度相当大,不仅提供了完善的Forceware 驱动,还额外提供了为加速AutoCAD预览的PowerDraf、加速3ds max Viewport预览的Maxtreme7等软件。近期NVIDIA推出的NVIDIA Gelato离限渲染器更是实现了完整硬件加速的最终渲染。
随后我们采用了SPECapc For Maya 6和SPECapc For 3ds max 7两个套件对图形卡的实际性能进行考察。SPECapc和上面的Viewpref 8.01不同,SPECapc需要完整版本的Maya 6和3ds max 7,同时SPEC仅仅提供相应的脚本设置和最终加权得分计算方法。这些测试都将在各个软件内部完成。
SPECapc For maya 6测试由3个场景共30项测试组成,其中27项测试将会循环运行3次。其中鱿鱼、蚂蚁两个场景由NVIDIA提交,SPEC全体成员审核通过。在 SPECapc for Maya测试中图形子系统性能将会占总成绩的70%,而CPU性能占20%、I/O子系统(包含内存速度和硬盘速度)性能占10%。在这个测试中,得分为 1的参考系统为Pentium 4 1.5GHz、1GB PC800 ECC RDRAM和NVIDIA Quadro2 Pro图形卡、20GB ATA/100硬盘。如果目标系统的得分为2,则可以表明在日常使用中完成相同工作量,目标系统只需要耗费参考系统50%的时间。
在本次测试中NVIDIA QuadroFX 1400 SLI取得了最高图形性能得分,QuadroFX 1400紧随其次。QuadroFX 1400的全面胜利,源于NVIDIA驱动能够完整的提供Maya Hardware Rendering的硬件加速支持。3dlabs Wildcat Realizm 800由于驱动程序缺乏相应的支持,导致成绩垫底。而FireGL V7100同样因为对Maya硬件渲染和实时预览的支持问题导致成绩偏低。
测试结果与分析:SPECapc for 3ds max 7
SPECapc for 3ds max7包含众多的测试场景,场景选择覆盖了简单的三角形到复杂建模和大型场景。由于在3ds max7中DirectX加速和OpenGL加速都已经相当完善,而DirectX加速甚至效率更高,因此SPECapc for 3ds max7测试中包含了OpenGL和DX 2种执行路径。该测试的参考平台为Intel Xeon 2.4GHz、1GB PC800 RDRAM、Quadro XGL700图形卡和40GB ATA/100硬盘。
在3ds max7测试中3dlabs Wildcat Realizm 800占据了头把交易,而QuadroFX 1400 SLI紧随其后,FireGL V7100位居第三。QuadroFX 1400垫底。这样的性能结果几乎和他们各自的售价成正比。但是Wildcat Realizm 800由于缺少对3ds max 7 Viewport的实时加速工具,导致性能成绩偏低,未能彻底释放Realizm 800的性能。
在我们完成了所有专业图形卡测试之后,我们发现单论性能,专业图形卡发展的速度极其迅猛。3dlabs依靠Wildcat Reailzm 800再次向世人展示了他的力量,而NVIDIA的QuadroFX 1400则刷新了专业图形卡性能价格比的标准。至于ATi FireGL V7100则依然缺乏强大的竞争力。如果你的工作包含极端复杂的3D模型和海量的纹理,那3dlabs Wildcat Realizm 800将有助你显著提升工作效率。对于预算有限的SOHO设计师和初学者来说QuadroFX 1400将会是他们最佳选择。
在整个测试中,对专业图形卡的功能和加速范围上我们依然有所期待。现在市场上所有专业图形卡在最终渲染方面都无能为力,在Mental Ray、Final Render等渲染器大行其道的今天,显然最终渲染耗费了大量的时间。要加速GI渲染,我们需要的更像是IBM Cell处理器那样的MIMD处理能力,而不是游戏卡上极端的填充率和几何设置能力。在经历了游戏和专业的融合之后,也许今天游戏图形卡和专业图形卡应该再次分道扬镳、各自发展了?