新一代nVidia剖析
|
|
新一代nVidia剖析朱云2000.3(独家授权于《LOVE! PC》) 百折不挠的历史nVidia终于在技术和市场两方面,全面战胜了主流3D显示市场的开拓者3dfx,成为名副其实的3D显示芯片霸主。回首往事,nVidia公司作为小小的一间只从事设计工作、而将生产业务交由专业的IC代工厂家完成的IP(知识产权)公司,发展至如今的规模和地位,这一路上并非一帆风顺;但nVidia的成功正标志着信息产业的逐步成型,更重要的是让大家真实地看到知识和技术的力量如何远远超过工厂和机器。 nVidia的成名作是五年前的NV1,它集成了2D/3D显示功能和波表合成的声卡部分,但由于同Rendition的Verite1000/2000系列一样2D性能太差,显示和声卡部分又因为争夺带宽而互相限制,终究没有成为成功的产品(至今nVidia也没有再推出过声卡产品);97年底、98年初,代号为NV2的Riva 128终于有了一流的2D性能,并且是当时少数专门为微软并不成熟的开放式3D API——Direct3D设计的3D芯片之一,又搭上了Pentium II开始配备AGP显示卡的便车,一时间价廉物美的Riva 128取代3dfx如日中天的Voodoo芯片组成了3D速度的象征(尽管图形质量最为Voodoo迷们诟病);3dfx很快又搞出了有两块纹理芯片的Voodoo 2芯片组(实际从技术角度相当于双Voodoo的合并加优化),为了在技术上迎头赶上,nVidia宣布了代号为NV4的Riva TNT计划,尽管集成双纹理引擎的Riva TNT到98年秋天才上市,速度也因为发热量太大难以提升工作频率而赶不上SLI的双Voodoo 2,但nVidia终于给了3D发烧友们一个不同于3dfx的选择;在3dfx正忙于把两块纹理芯片同像素芯片集成在一起制造出只支持16位渲染的Voodoo 3(只不过是双纹理引擎的高频Banshee罢了)时,nVidia开始了半年一次的升级循环,第一个例子就是为32位真彩3D优化的TNT2(代号NV5),工作频率也随着0.25微米工艺(现在的主流TNT2 Pro用的是0.22微米工艺)的采用提高到同Voodoo 3不相上下的水平,nVidia开始在技术和市场两方面积累优势;去年底、今年初,nVidia领导主流3D硬件市场的发展,率先推出了集成几何光照引擎、4条渲染流水线的NV10——GeForce 256及其专业版NV10GL——Quadro,nVidia不但稳坐3D芯片厂商的王位,而且正大举向专业领域进军,还大有抢夺CPU饭碗的“企图”。 现在我们要谈的NV11、NV15以及神秘的NV20就是nVidia未来一年中nVidia的两代新产品,nVidia在这一已经取代CPU成为业界最高速的增长点的市场上将会有什么新作为、甚至“大手笔”呢?就请听我一一道来。 引人注目的NV11/15NV11与NV15相对于GeForce 256和Quadro,并不是非常重大的革新,而仅仅是技术上的完善以及增强,正如去年在Riva TNT的基础上,nVidia稍稍完善了功能、改进了生产工艺就推出了主频更高的TNT2。GeForce 256的最大问题是过多的晶体管数量造成0.22微米工艺的产品发热量过大,从而核心频率提不高(GeForce 256只有120MHz,Quadro也只有135MHz,比上一代相同工艺的TNT2 Pro的143 MHz还要低),后果是3dfx总是嘲笑nVidia的产品像素填充率太低。nVidia当然明白现有主流3D芯片的致命弱点就在于核心频率和显存带宽限制了高分辨率、高帧速度下的性能,所以率先采用了DDR(双倍数据率)SDRAM作为显示内存,又积极在下一代产品NV11和NV15中采用了0.18微米生产工艺。 NV11和NV15当然不会少了nVidia的看家本领——几何转换和光源照射的硬件加速(T&L引擎),都使用0.18微米工艺生产(使用基于Milkyway的Apollo –II排版及布线工作站上的STAR-RCXT软件,重新提取、编译了GeForce 256的内核,大大减小了硅片面积、提高了速度、降低了成本),还均能使用普通SDRAM/SGRAM和高速DDR SDRAM作为显存,核心频率均可达到160MHz或更高。NV15和GeForce 256一样拥有4条渲染流水线,内部也是256位结构,性能达到GeForce 256的3倍,因为先进的生产工艺发热只有GeForce 256的一半;NV11是NV15的简化版,只有2条渲染流水线,内部是128位结构,性能也将达到GeForce 256的1.5倍,仅仅3W的耗电量使它很合适被用在笔记本电脑中——显然这两种芯片都很容易被超频(想想0.18微米的Coppermine能超频到多少?尽管这种类比并不完全对等)。 NV11和NV15的主要改进是在渲染流水线上。GeForce 256的4条渲染流水线在每个时钟周期内,均能独立渲染完成一个16点取样各向异性过滤的像素,尽管运算量同单周期双纹理渲染相当,但仍不能完成单周期双纹理渲染操作(S3的Savage 2000系列就有4条单周期双纹理的渲染流水线);这次NV11/15当然不能错过这一重要的3D功能,在16点取样各向异性过滤的基础上增添了单周期双纹理,因此理论上的图素填充率将达到6.4亿/秒和12.8亿/秒(直逼昂贵的3dfx Voodoo5 6000的13.3亿/秒)——注意这里的图素不等同于像素,一个双纹理像素相当于两个图素。尽管对NV11/15支持的新3D特性知之甚少,我们至少可以从最新的5.08版非官方雷管驱动程序支持S3TC纹理压缩(不仅是Direct3D中的DXTC,还包括OpenGL中的S3TC)和Direct3D、OpenGL的全景抗锯齿功能,就可以看出NV11/15将支持包括这两者在内的更多新3D特性(很有可能包括环境凹凸贴图)。 NV11和NV15支持的显示内存大小有:8M、16M、32M、48M、64M、96M和128M,特别是48M和96M这种特殊的显存容量更具灵活性。当然特殊显存容量并不必然意味着专业应用,我个人认为NV15肯定会有另一个专业版本的NV15GL出现。NV11/15使用350MHz或者更高频率的RAMDAC、支持平板液晶显示器,另外NV11还具有同Matrox产品类似的双头显示功能。 nVidia将在三、四月间公布NV11和NV15,生产出显示卡估计要在年中左右。届时nVidia当然会给NV11/15起两个响亮的名字,估计NV15很可能称作Crush(这是出现在雷管驱动中的唯一一个还未公开的产品),NV11/15也可能叫做GeForce xxx ???(使用不同的数字和后缀)。 nVidia已经不仅仅是主流3D市场的霸主了,它已经在专业3D市场上投放了价廉物美的Quadro,还同ALI(Acer集团的芯片分公司——扬智)合作开发了Aladdin TNT2主板芯片组,又打算凭借NV11进军移动计算市场——新千年的开端正是nVidia大展宏图之际。作为一家公司nVidia再也不 “微型”了,尽管它并不愿收购某家显示卡制造厂、而宁可自己被收购,但其实力已足可以自成体系——我认为nVidia更可能兼并或参股一流的专业显示卡厂家ELSA,以加强在专业市场的地位,在主流市场很可能继续保持“中立”以赢得多数不拥有芯片生产能力的显示卡厂商们的支持。 不简单的对手对于NV11/15(特别是NV15)来说,能作为它们对手的3D显示芯片并不多见,少数的几种也都是业内的顶尖产品。 老对手3dfx的VSA-100只有两条渲染流水线,要到使用两块芯片的Voodoo5系列才能在渲染性能上同NV15比较,而且相应的单芯片T&L引擎至今还没有消息。 技术上能够紧跟nVidia的是S3,自从买下了Diamond Multimedia和Number Nine两家板卡生产厂之后,在同Intel之间的专利许可协议之外,又同nVidia和解达成了专利交换协议。S3的Savage 2000系列使用比GeForce 256更先进的0.18微米工艺,核心频率从125MHz一路提升到了近200MHz,只可惜至今还没有在驱动程序中正式开启T&L功能,S3TC的普及程度又不高,所以性能暂时仍落后于NV15。但S3下一代的ProjectX将是NV20在年底的劲敌。 尽管谣传Matrox的G400就已集成了T&L功能,但Matrox今年上半年的主打产品G450将只有几何变换部分、用软件实现光源照射部分,同GeForce 256都不是一个档次的产品,秋天的G800将完整集成T&L引擎,凭借较高的图形质量可能同NV15一拼,但生产工艺必须从G450的0.22微米提高到0.18微米。 ATI使用两块Rage 128作Multiple ASIC Technology并行连接制成了代号为Aurora的Rage Fury MAXX,虽然有4条像素流水线,但没有T&L功能;ATI最近公布的S1-370 TL北桥系统芯片同ALI的Aliddin 7一样集成了ArtX公司(刚被ATI高价收购)的图形核心,使用分块渲染和隐面去除原理、集成T&L引擎、还有虚拟AGP 8x接口,但第一次进军PC领域的ArtX芯片能否在ATI的强大OEM力量的支持下在芯片组市场站稳脚跟还很难说;ATI刚刚又宣布了代号为Rage 6的下一代芯片,使用据说业界最快的Charisma几何引擎和10亿图素/秒级的Pixel Tapestry渲染结构,一旦量产就会成为NV15甚至NV20的劲敌(当然还得看多早能上市)。 Videologic的PowerVR系列坚持采用与众不同的分块渲染和隐面去除原理,可以简化内核、减少带宽占用(尽管这种结构似乎始终有同标准方式不兼容之处)。Videologic从去年初就表示自己在开发T&L技术,但集成T&L功能和增强型分块渲染、隐面去除引擎的PowerVR S3系列本该同GeForce 256系列、Savage 2000系列几乎同时出现,可惜至今仍未上市。如果Videologic能够使用比较先进的工艺(对PowerVR类的内核,0.22微米生产工艺足矣)尽快生产出PowerVR S3,凭借2.5亿/秒的可见像素填充率,还是很有机会与NV15和Savage 2000竞争的。 小公司里最出风头的要属Bitboys, 其Glaze 3D集成512位9MB的嵌入式内存(称作XBA结构)和至少4条双纹理流水线,由Infenon(前Siemens半导体)生产的、0.20微米工艺的Glaze 3D要到今年第3季度才能上市,单片T&L引擎届时也该出现了。但即使0.20微米的嵌入式工艺也很难生产那么大的嵌入式内存和极其复杂的传统式内核,还有对Bitboys最艰难的推广问题,就让我们等着看Glaze 3D经过在这最后的冲刺后能否挑战NV15吧。 在去年COMDEX上很出风头的Giga Pixel设计了使用分块渲染、隐面去除技术的GP-1,这一IP方式的3D内核在不含T&L的情况下,样品竟可以同GeForce 256同台较技。新一代GP-2将具有T&L功能,现在还不知这种“稀有”的芯片能否成为NV15的对手。 nVidia和3D的未来3D图形技术的发展越来越快、新技术层出不穷,在这个令人眼花缭乱的领域,我们该如何把握nVidia未来的脉搏?3D技术发展大致可以分为两种类型:一类是在现有的技术体系内的扩展,基本上是技术化的工作;另一类是在现有的成就之上的创新,可归于艺术化的创作。 3D技术的扩展包括: 并行渲染 现在GeForce 256有4条像素流水线,NV15有4条双纹理像素流水线,年底将出现的集成2000万晶体管的NV20肯定会有更多。更高的分辨率、更复杂的场景、更高的帧速率,都需要更高的填充率,在芯片核心频率难以成倍提高的今天,成倍增加的渲染流水线是最合理的选择。 纹理压缩 是在更精细、漂亮的大型纹理和系统开销之间的一种权宜措施。现在TNT2、GeForce 256/Quadro,还有即将推出的NV11/15,以及未来的NV20,都很快将不仅支持S3TC。 抗锯齿(Anti-Aliasing) 主要指如今被VSA-100“炒”得尽人皆知的全景抗锯齿,一般先在高分辨率下进行渲染,再将图形转化为低分辨率来减少锯齿感,所以需要巨大的像素填充率。GeForce 256/Quadro、还有即将推出的NV11/15、未来的NV20,基本都将支持全景抗锯齿,这将为我们带来更加细腻、清晰的3D效果。 3D技术的创新包括: T&L(几何与光照) 是整个3D图形处理流程的前半段,以前一直是由CPU负责几何变换,由3D图形加速芯片进行三角形设置和纹理渲染,光源效果一般是使用光照纹理进行模拟。从去年的GeForce 256开始,nVidia的新芯片都集成了T&L硬件加速引擎。添加硬件T&L是主流3D显示体系自诞生以来最大的变革,显示卡终于可以不那么依赖于CPU的浮点能力(我认为现在GeForce 256/Quadro仍旧比较依赖CPU是因为驱动程序仍未发挥出芯片全部的潜力)。 嵌入式内存 是解决显示内存带宽不足的一种途径,因为显示芯片的外部带宽太低,限制了3D内核性能的发挥。如果要成倍提高带宽,通常只有两个办法:一是将接口改为256位,但会大大增加3D芯片的封装难度和成本;二是使用DDR(双倍数据传输率)SDRAM来使带宽加倍,从GeForce 256开始的nVidia芯片基本上都可以使用DDR显存(只是成本较高)。而且以上两个办法还很难继续提升带宽,因为512位的接口和4倍速RAM近期还不太可能实现,嵌入式内存就成了唯一可行的办法——在3D芯片的硅片上集成高接口位数(轻易就可以达到512位)的内存作为缓冲,不必多大容量就可以大幅度提高对外交换数据的效率,相信今后nVidia的产品也会走上使用嵌入式内存的道路。 让我们祝福nVidia更加发展壮大,因为它总是为我们带来性能更高、价格更低的产品。让我们祝福3D硬件的竞争更加激烈,因为正是竞争和开放的环境带来技术和市场的进步。最后让我们祝福3D发烧友们都能买到更新、更好、更便宜的显示卡。 |
|