Submit News Tips | I4U Gadget Flyer | RSS Feed
I4U Shopping : Cool Gadgets and Consumer Electronics Store
 
HOT TOPICS: Nintendo Wii | Sony PS3 | Xbox 360 | Gadget Models

I4U Latest News

使命的召唤 NV36和NV38架构技术介绍

Topic: 技术前沿         ★★★★★

作者:Rowan    文章来源:本站原创    点击数:    更新时间:2007-6-16

编者按:2003年底,NVIDIA和ATI都发布了新一代高端显卡。我很荣幸的写了个专题来介绍这些新的技术。这篇文章就是“新一代显卡专题”中的一篇文章。这篇文章成文于2003年10月27日,发表在《大众硬件》杂志上。


使命的召唤 GeForce FX 5700 Ultra 和 GeForce FX 5950 Ultra介绍

3D图形的两位元老NVIDIA与ATI之间的竞争在最近一段时期内是愈演愈烈了。这场斗争的结果是使今年成为了继3Dfx被收购之后最有趣的一年。爆炸性的消息层出不穷,为我们新闻工作者提供了很多素材。NVIDIA的日子却并不好过,一朵朵阴暗的乌云笼罩在NVIDIA的头顶,雨一直下个不停。GeForceFX系列显卡在DirectX9中的拙劣性能表现,被指控在应用测试软件中作弊,老对手的产品频频在各大评测中夺魁……ATI却一直在微笑,或者看着NVIDIA的PR们设法为自己的窘境开脱。

尽管如此,NVIDIA还是在延续着它的足迹。让NVIDIA值得庆幸的是半条命2的源代码惨遭泄漏,即使是现在肯为ATI最为昂贵的XT系列显示卡大掏腰包的发烧玩家也无法体验到纯粹的DirectX9游戏。要想真正玩到这款游戏起码也要等到2004年第二个季度了,半条命2很可能在明年4月发布。起码这会给NVIDIA一个喘息的机会。PCI Express的主板普及也是茫茫无期,NV40上在研发,此时的NVIDIA手中也没有拳头产品来应对ATI的XT系列。他们只好将FX5950加装硕大的散热风扇狠超一把,暂时稳住高端产品线;再在FX5700中加入高端产品所独有的处理核心,以巩固中低端市场。就是在这样的仓促之际10月23日NVIDIA发布了两款新的产品——GeForce FX 5700 Ultra 和 5950 Ultra。下面就请大家随我来领略一下NVIDIA力挽狂澜之作。

市场定位

GeForce FX 5700 Ultra 是面向于中高市场阶层,他的研发代号为NV36。他会成为下一代200美元范畴以内的DirectX9显卡产品。另一个是GeForce FX 5950 Ultra,它的研发代号为NV38。这两款产品的处理能力都要稍微优于他们的前辈。并且最大的差别应该是核心的生产工艺,芯片和显存的工作频率和新的散热解决方案。

GeForce FX 5700 Ultra 和 5950 Ultra在今年都是绝对的中高端的产品,也许到了明年中期,他们才会成为市场的主流产品。这也再次证明了,在这个用象素构建的虚拟世界中,图形芯片制造商会不断更新他们的产品线。图形芯片的量产进程也越来越快了。再也不会有哪一种产品会在头年发布,直到第二年才在市场上慢慢普及。对于像这样的中高端产品,我们大约会在发布会后的3~4周之内就能在中关村的货价上看到他们的身影。


IBM制造NV36

NVIDIA最近几年的日子是越来越不好过了。芯片结构设计的缺陷也许还能重新弥补,而芯片制造的代工厂问题才是最让NVIDIA头痛的。要知道虽然它是世界第一大图形芯片公司,但是它并没有真正属于自己的芯片生产基地。所有的NV芯片都是由第三方工厂代工生产的。然而目前全球有实例为GeForce FX这样高集成度的芯片代工生产的厂商仅有寥寥4家。他们分别是我国台湾省的台积电(TSMC)和联电(UMC),新家坡的特许半导体制造(CSMF)以及美国的IBM。其中最具生产规模和技术含量的当属台积电。几乎NVIDIA和ATI的所有显示芯片都来自这里。

由于NV3x架构所表现出来的游戏性能一直难以超越老对手,NVIDIA一直想通过更先进的芯片制造工艺和更高的核心工作频率来弥补自己架构上的缺陷。因此大幅度的提升频率就成为NVIDIA最为迫切的需要。那么NVIDIA就更看重芯片代工厂的技术实力。记得NV30延期发布的一个重要的原因就是由于台积电的130纳米工艺制造技术的不成熟所致。正是由于种种复杂的原因,NVIDIA不得不去寻找其他代工厂。在全球最大的4家代工厂中,IBM的技术实力算是最为过硬的了。早在2000年初IBM就发布了130纳米的铜布线制造工艺和采用Dow Chemical的SiLK low-k低电介质芯片制造技术。受到全球经济的影响IBM这几年的日子也苦不堪言,在忍痛变卖了自己的硬盘生产部之后,IBM也急于找到新的增长点。由此两对饥渴的目光交会在一起,IBM也就成为了NVIDIA在美国本土的芯片制造工厂。


NV36、NV38的规格

IBM先进的130纳米制造工艺可以使NV36和NV38的核心频率稳定在475MHz上。但是为了区分高端产品与低端产品,他们的显存位宽与流水线数量都有不小的区别。无论是FX5700还是FX5700 ULTRA都沿用了FX5600的128bit显存位宽。强大的NV38则使用256bit位宽的显存。每秒30.4GB的显存吞吐能力叫人叹为观止。在进行复杂场景的全屏抗锯齿或各项异性过滤时,相信NV38会占尽优势。但NVIDIA这两款新品的流水线管道数量却叫人非常失望。NV38的Vertex Shader处理管道为3组并行12x SIMD FD仍然略逊于R9800系列的4组并行16x SIMD FD。Pixel Shader方面NV38还是那可怜的4条, R9800系列是NV38的一倍。由此看来FX5950 ULTRA仅仅是FX5900 ULTRA的超频版本,在整体架构方面并没有很大革新。

 

FX5950 ULTRA

FX5900 ULTRA

FX5700 ULTRA

FX5600 ULTRA

Radeon  9800XT

Radeon 9800PRO

Radeon 9600XT

Radeon 9600PRO

研发代号

NV38

NV35

NV36

NV31

R360

R350

RV360

RV350

制造工艺

130nm

TSMC/IBM

130nm

TSMC

130nm

IBM

130nm

TSMC

150nm

TSMC

150nm TSMC

130nm

TSMC

130nm

TSMC

晶体管数

130M

130M

820M

800M

107M

107M

75M

75M

内部总线

256bit

256bit

256bit

256bit

256bit

256bit

256bit

256bit

Vertex Shader管道数量

3组并行

12x SIMD FD

3组并行

12x SIMD FD

1组并行

4x SIMD FD

1组并行

4x SIMD FD

4组并行

16x SIMD FD

4组并行

16x SIMD FD

2组并行

8x SIMD FD

2组并行

8x SIMD FD

Pixel Shader管道数量

4

4

4

4

8

8

4

4

核心频率[MHz]

475

450

475

400

412

380

500

400

象素填充率[MP/s]

1900

1800

1900

1600

3300

3040

2000

1600

材质填充率[MT/s]

3800

3600

1900

1600

3300

3040

2000

1600

显存总线位宽

256bit

256bit

128bit

128bit

256bit

256bit

128bit

128bit

显存频率[MHz]

950

850

900

800

730

680

600

600

显存带宽[GB/s]

30.4

27.2

14.4

12.8

23.4

21.76

9.6

9.6

显存类型

DDR

DDR

DDR/ DDRII

DDR

DDR

DDR/ DDRII

DDR

DDR

显存容量[MB]

256

256

128

128

256

128/256

128

128

RAMDAC

两组 400MHz 每通道 10bit

两组 400MHz 每通道 10bit

两组 400MHz 每通道 10bit

两组 400MHz 每通道 10bit

两组 400MHz 每通道 10bit

两组 400MHz 每通道 10bit

两组 400MHz 每通道 10bit

两组 400MHz 每通道 10bit

NVIDIA与ATI主流芯片参数对照表格

NV36采用CineFX 2.0

NV36与前辈NV31、NV34系列一样同样是面向于广大普通的消费者,但是在NV36身上我们能够看到很多高端产品所独到的特性。作为NV36最大一项突破就是采用了v2.0版本的CineFX引擎。GeForce FX 5600和5600 Ultra都是使用的v1.0版本的CineFX引擎,虽然他们采用了先进的FCBGA封装形式和400/800的核心/显存频率,但是他们处理3D游戏的性能仍然与使用CineFX 2.0引擎的GeForce FX 5900相差甚远。相比而言ATI的RADEON 9500/9600这个档次的产品在DX9架构和Shader上都要明显优于NVIDIA的产品。为了弥补性能上的缺陷,这次NVIDIA终于在NV36中加入了CineFX 2.0引擎。

借助 CineFX 2.0引擎和称为阴影处理器的专用图形程序,开发人员可以方便地将其独特的风格应用于3D游戏之中,从而生成实时的电影级别的画质效果。在  CineFX 2.0引擎的支持下,GeForce FX 将焦点从简单的像素填充率转向复杂的像素阴影处理。NV36 通过支持长程序指令来获得最精美的效果,并且通过支持条件性分支功能来获得更高的运算效率,从而摆脱了以前架构与像素阴影处理器相关的一些编程障碍。

在Vertex Shaders的处理方面,利用 CineFX 2.0引擎,顶点处理功能得到了极大的扩展,而编程的复杂性却大大的降低。游戏开发人员能够实现任何可以想象到的效果。一般化的循环与分支语句可由数据进行控制。因此,同以前的架构相比,CineFX 2.0引擎的编程方法简单多了。在编写阴影处理器时可以在一个阴影处理器中包含所有的贴图方法和操作。而且由于阴影处理器可以按每个顶点进行分支预测结果。正是由于具备上述优势,CineFX 2.0引擎才彻底摆脱了以前顶点阴影处理的种种限制。

在Pixel Shaders的处理方面,CineFX 1.0引擎的高级功能包括支持在单条渲染通道上采用 1024 条指令,从而生成在其它任何架构中都无法生成的复杂效果。例如,烟雾、皮毛、烟火以及草地等凹凸贴图与置换贴图效果都可以给场景增添很强的深度感与真实感,但每个贴图都需要很多指令才能实现。NV36的CineFX 2.0引擎中的Combiner象素合成器中现在加入了一个mini FP32处理核心,它可以执行FP32像素算术操作。(如图1,CineFX引擎的v1.0与v2.0在象素处理方面的流程图)这样CineFX 2.0仅仅在一条渲染通道上就能完成这些海量的处理任务。

UltraShadow技术

NV36、NV38也同样继承了NV35的UltraShadow技术。在作阴影计算时,它首先会对要处理的场景或物体设定边缘的Z值,但在此之前不会进行任何相关计算。这种方法将会节约实时计算阴影的任务量和时间,从而提升显示芯片对于阴影的处理效能。这也是CineFX 2.0引擎的标志性特性。

在现实世界中,物体在一个光源下就会产生一个阴影。而目前不少游戏设计师为了让游戏的效果越来越逼真,除了注重明亮绚丽的光照效果外,也开始在增强阴影效果的方面下功夫。但是要在电脑里以实时的方式来实现逼真的阴影效果并不是一件简单的事情。精确的阴影表现效果是创造真实场景的关键因素,多光源与数量众多的对象以及角色之间的互动需要多次循环编程,而且更为复杂的方面还在于每一帧中的每一个光源都必须根据每个对象进行计算。UltraShadow技术则可以简化这个过程,它可以允许程序员定义场景中的一个区域,用来约束光源照射在物体上留下的阴影程度,并且给定一个深度的范围,区域内的阴影计算都要参考这个数值。从而加速阴影的计算速度。如果游戏开发人员采用了UltraShadow来对阴影进行生成与设定的话,那么在实际的游戏中对多个阴影进行生成与修改只需要执行一次帧缓存写操作便能完成。(如图2)

IntelliSample HCT

在NV30推出时,有一项值得称道的功能叫做IntelliSample(色彩压缩)。这个压缩功能主要是应用在启用全屏抗锯齿的情况下。举例来说,当使用4倍采样的全屏抗锯齿时,显示芯片会计算每个像素中周围的4个临近像素,然后算出平均值作为最后的色彩值。如果所有4个临近像素都位于多边形内部而非边沿,那么便可以达到最佳的4:1理想压缩值。然而实际能够压缩的像素数目,与场景或物体表面所使用的材质有很大的关系。在NV36和NV38中使用了更为高效的IntelliSample HCT技术(高性能压缩)。新的压缩算法技术将性能提升了将近50%。为了保证画面的质量,压缩比还是维持在4:1,但现在能够达到最佳压缩比的像素数目则是大为提高了。(如图3)


板卡欣赏

这是一块以GeForce FX 5700为核心的工程样板。元件的布局看上去同GeForce 4 Ti4600非常类似。(如图4)

它搭配128MB三星GDDR2显存,显存总线为128bit,运行频率为900MHz。峰值内存总线带宽为14.4GB/s。(如图5)

它采用了NVIDIA新设计的P190 PCB,比之前的P140 PCB能提供更强劲的供电,满足NV36核心和GDDR-2的供电与布线要求。但是我们仍然能够看到右边醒目的外接供电插槽,它是用来弥补AGP插槽供电不足的问题。(如图6)

虽然外接电源不失为一种过渡性方案,但是这并不是长久之计。看来无论是150纳米工艺还是130纳米工艺都不能从根本上彻底解决图形芯片的功耗问题。希望各大图形芯片厂商逐步过渡到0.09微米工艺之后,这种情况能得以缓解。

显卡背面的显存也加装了散热片,看来GeForce FX 5700芯片的发热量不能小视。(如图7)

GeForce FX 5700的核心由IBM位于East Fishkill的300mm晶元厂以0.13微米铜制程进行生产,采用FCBGA封装,看上去与AMD的Athlon有些相似,但是NV36的引脚要比Athlon多得多。在它的表面也林立着更多的电容和电阻。(如图8)

GeForce FX 5950 Ultra给人的第一印象就是板卡的设计非常类似于Matrox的Parhelia-512布局。(如图9)

它有一个硕大的散热片。看上去设计的结构似乎相当复杂。这块NV38要是放在理发店也许顾客真会错把它当作吹风机:) (如图10)它的透明塑料封罩有些类似于当初GeForce FX 5800 Ultra的FlowFX散热器,但在正面的显存上并没有加装散热鳍片。

这个硕大的散热系统也需要占据旁边的一个PCI插槽,但如此的巧妙设计真是让人叫绝。整个散热系统都采用封闭结构,更有助于空气的对流和增加换热的效率。(如图11)

板卡上自然也少不了外部供电插槽。(如图12)

CRT/VGA 、TV-out、DVI-I三种输出端子一个也不能少。(如图13)

ForceWare革新介绍
在10月末,NVIDIA还给我们带来了另外一些有趣的东西,一套崭新的ForecWare驱动程序。(如图14)

GeForceFX系列显卡在DirectX9中的拙劣性能表现是NVIDIA永远不能忘怀的伤痛,此款驱动就是针对DirectX9所推出的。同时,新驱动也明显改善了游戏中的图像质量,NVIDIA也保证显卡的驱动程序不会再出现非法的优化(以降低游戏中的图像质量为代价,提升显卡在测试软件中的得分)。尽管显卡的性能表现与所要处理的数据量成反比,但是适当优化还是可以被广大的用户所接受的。

ForecWare的出现也标志着雷管系列驱动的终结,此后的NV显卡驱动从v52.XX版本起都将属于ForecWare。当然ForecWare的范畴也并不仅仅包括显卡驱动程序。它会涵盖几乎NVIDIA所有的软件产品。NVIDIA把这个概念升华到了统一软件应用环境(U.S.E.),将会囊括GPU、芯片组、补丁、系统工具、媒体播放程序等等NVIDIA的自有软件。这与ATI新版本的催化剂似乎有共通的意义,都是要将硬件产品的相关软件统一成一个平台。

总结

GeForce FX 5700 Ultra 和 5950 Ultra这两块显卡都是基于NV3x的一代产品。因此可以说在DirectX9下的Shader性能表现仍然比较低下。这应该不属于显卡自身设计的缺陷,只能说整个NV3x的架构更接近于DirectX9最早期的API。在DirectX9初具成形之后微软又对它做了不小的改善。虽然当时那个年代看NV3x算是比较超前的设计,但是对于现在的竞争对手而言,它在DirectX9中会吃亏很多。在最近几个星期NVIDIA发布的多个版本的雷管驱动中包括了新的实时Shader编译器,它可以增进DirectX9中那些海量的Vertex和Pixel Shader 计算时的效能。当然我们也应该注意到,这些不足以改善NV3x架构在DirectX9中的全部性能。微软也会在不久发布新版本的DirectX9,主要是针对NV3x架构作的许多优化。希望到那个时候NV3x系列会有更好的表现。

 

发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口

  • 上一篇文章:
  • 下一篇文章:
  • 起居室变摄影棚 DIY摄影背景幕布
    mod地带:恶龙传说MOD主题机箱改造
     
    姓 名:

    评 分: 1分 2分 3分 4分 5分

    评 论: