Die wohl wichtigste Neuerung der 8800-Serie von Nvidia ist die UDA genannte Unified Shader Architektur, sowie die damit eng verknüpfte CUDA (Compute Unified Shader Architecture). Unified Shader bedeutet die Aufhebung der mit DirectX 8 (Shader Modell 1) eingeführten Trennung zwischen Vertex- und Pixelshader. Beide Funktionen sind nun in einer einzigen programmierbaren Einheit zusammengefasst, die nun Stream Prozessoren genannt werden. Die GF8800GTX besitzt 128 Stream Prozessoren, die mit 1.35GHz takten; die GF8800GTS besitzt 96 Stream Prozessoren auf 1.2GHz getaktet.
Die CUDA verteilt mitunter die Arbeit auf die Stream Prozessoren und verwaltet den Speicher. Der Vorteil dieser mit Direct3D10/Shader Model 4 eingeführten Architektur ist es, dass immer die maximal mögliche Anzahl Shader, im Fall der 8800GTX also 128, für alle anfallenden Operationen zur Verfügung stehen. Während früher z.B. die volle Auslastung der Pixel-Shader die maximale Leistung begrenzt hat, obwohl noch freie Vertex-Einheiten zur Verfügung standen, so wird nun die Arbeit auf alle Prozessoren gleichmäßig verteilt, um so das Maximum an Leistung ausschöpfen zu können.
Die G80 Architektur enthält insgesamt acht bilineare Textureinheiten. Pro Takt können so 64 bilineare gefilterte Texel berechnet werden, bei gleichzeitiger Adressierung von 32 Texel. Die restlichen TMUs können in der Zwischenzeit zusätzliche Daten sampeln und besitzen inzwischen eigene Adressierungseinheiten, damit so nicht die Streaming Processoren während der TMU-Latenzen blockiert werden.
In Sachen Kantenglättung kam mit Coverage Sampling Aliasing (CSAA) ein neuer Modus hinzu, mit den Kantenglättungsfaktoren 4x, 8x und 16x, wobei CSAA 16x lediglich so viel Performance kosten soll wie 8x Multisampling.
Die neuen ROPs können jetzt auch HDR Rendering mit MSAA kombinieren, gleichzeitiges High Dynamic Range Rendering (HDR) mit Kantenglättung ist mit dem G80 nun auch bei Nvidia möglich, bisher bot nur ATI diese Option an. Transparentes Anti Aliasing ist natürlich weiterhin enthalten. Ebenso ist die Videobeschleunigung "PureVideo" im Chip enthalten und bietet mitunter H.264 und WMA-HD Dekodierung, in voller HDTV-Auflösung (1080p). HDPC Unterstützung war auch schon bei den Vorgänger Chips dabei, wurden vielfach aber von den Kartenherstellern nicht umgesetzt, konkret unterstützten von der vorhergehenden Serie nur die 7x50-Modelle die Ausgaben von HDCP geschützten Videoinhalten, bei der neuen 8xxx Serie sollten alle Karten diese Unterstützung mitbringen. Die High-End Modelle verfügen über zwei SLI-Anschlüsse, damit will sich Nvidia offenbar die Möglichkeit offen halten, bei einem Verbund aus drei Karten, eine nur für Physikbeschleunigung einzusetzen. Dies wäre möglich, da die Streaming Prozessoren sich theoretisch auch für Physikberechnungen eignen, wenn auch erst einmal abzuwarten bleibt, wie effizient diese dabei wären.
Speziell auch noch die Speicheranbindung: Die sechs ROP Cluster können je über ein 64 Bit breites Speicherinterface mit dem 768 MB großen Speicher in Verbindung treten. Auf der 8800 GTS sind es „nur“ fünf dieser Cluster, weshalb dadurch mit 5 x 64 bit die etwas sonderbar anmutende Zahl von effektiven 320 Bit Speicheranbindung bei der 8800GTS zu Stande kommt.
Daten
In den Presseunterlagen gibt Nvidia eine Leistungsaufnahme (offenbar Mittelwert!) von 123,6W für die 8800GTX an und eine um Faktor 1.52 gesteigerte Effizienz (bezogen auf den Stromverbrauch) im Vergleich zur 7900GTX an.
(*klick* zum Vergrößern)
Die CUDA verteilt mitunter die Arbeit auf die Stream Prozessoren und verwaltet den Speicher. Der Vorteil dieser mit Direct3D10/Shader Model 4 eingeführten Architektur ist es, dass immer die maximal mögliche Anzahl Shader, im Fall der 8800GTX also 128, für alle anfallenden Operationen zur Verfügung stehen. Während früher z.B. die volle Auslastung der Pixel-Shader die maximale Leistung begrenzt hat, obwohl noch freie Vertex-Einheiten zur Verfügung standen, so wird nun die Arbeit auf alle Prozessoren gleichmäßig verteilt, um so das Maximum an Leistung ausschöpfen zu können.
(*klick* zum Vergrößern)
Die G80 Architektur enthält insgesamt acht bilineare Textureinheiten. Pro Takt können so 64 bilineare gefilterte Texel berechnet werden, bei gleichzeitiger Adressierung von 32 Texel. Die restlichen TMUs können in der Zwischenzeit zusätzliche Daten sampeln und besitzen inzwischen eigene Adressierungseinheiten, damit so nicht die Streaming Processoren während der TMU-Latenzen blockiert werden.
In Sachen Kantenglättung kam mit Coverage Sampling Aliasing (CSAA) ein neuer Modus hinzu, mit den Kantenglättungsfaktoren 4x, 8x und 16x, wobei CSAA 16x lediglich so viel Performance kosten soll wie 8x Multisampling.
(*klick* zum Vergrößern)
Die neuen ROPs können jetzt auch HDR Rendering mit MSAA kombinieren, gleichzeitiges High Dynamic Range Rendering (HDR) mit Kantenglättung ist mit dem G80 nun auch bei Nvidia möglich, bisher bot nur ATI diese Option an. Transparentes Anti Aliasing ist natürlich weiterhin enthalten. Ebenso ist die Videobeschleunigung "PureVideo" im Chip enthalten und bietet mitunter H.264 und WMA-HD Dekodierung, in voller HDTV-Auflösung (1080p). HDPC Unterstützung war auch schon bei den Vorgänger Chips dabei, wurden vielfach aber von den Kartenherstellern nicht umgesetzt, konkret unterstützten von der vorhergehenden Serie nur die 7x50-Modelle die Ausgaben von HDCP geschützten Videoinhalten, bei der neuen 8xxx Serie sollten alle Karten diese Unterstützung mitbringen. Die High-End Modelle verfügen über zwei SLI-Anschlüsse, damit will sich Nvidia offenbar die Möglichkeit offen halten, bei einem Verbund aus drei Karten, eine nur für Physikbeschleunigung einzusetzen. Dies wäre möglich, da die Streaming Prozessoren sich theoretisch auch für Physikberechnungen eignen, wenn auch erst einmal abzuwarten bleibt, wie effizient diese dabei wären.
Speziell auch noch die Speicheranbindung: Die sechs ROP Cluster können je über ein 64 Bit breites Speicherinterface mit dem 768 MB großen Speicher in Verbindung treten. Auf der 8800 GTS sind es „nur“ fünf dieser Cluster, weshalb dadurch mit 5 x 64 bit die etwas sonderbar anmutende Zahl von effektiven 320 Bit Speicheranbindung bei der 8800GTS zu Stande kommt.
Daten
![]() | ![]() | ![]() | |||
7950GX2 | 7900GTX | 8800 GTX | 8800GTS | unit | |
Codename | G71 | G71 | G80 | G80 | - |
Process | 90 | 90 | 90 | 90 | nm |
Transistors | 2x278 = 556 | 278 | 681 | 681 | millions |
Pixel pipes | 2x24 = 48 | 24 | - | - | - |
Pixel shader units | 48 | 24 | s. Stream Processors | s. Stream Processors | - |
Vertex shader units | 2x8 = 16 | 8 | s. Stream Processors | s. Stream Processors | - |
Stream Procesors | - | - | 128 | 96 | - |
Raster Operation units (ROPs) | 2x16 = 32 | 16 | 24 | 20 | - |
Core clock | 500 | 650 | 575 | 500 | MHz |
Vertex clock | 500 | 700 | s. Shader Clock | s. Shader Clock | MHz |
Shader clock | s. Vertex Clock | s. Vertex Clock | 1350 | 1200 | MHz |
Pixel Fill Rate | 2x 8000 | 10400 | 13800 | 10000 | MPix/s |
Texel Fill Rate | 2x 13680 | 15600 | 36800 | 24000 | MTex/s |
Memory interface | 256 | 256 | 384 | 320 | bit |
Memory clock | 600 | 800 | 900 | 800 | MHz x2 (DDR) |
Memory bandwith | 76800 | 51200 | 86400 | 64000 | MB/s |
SLI / CF support | - | ||||
SLI / CF connection | int. | int. | int. | int. | - |
Master card required | no | no | no | no | - |
In den Presseunterlagen gibt Nvidia eine Leistungsaufnahme (offenbar Mittelwert!) von 123,6W für die 8800GTX an und eine um Faktor 1.52 gesteigerte Effizienz (bezogen auf den Stromverbrauch) im Vergleich zur 7900GTX an.
(*klick* zum Vergrößern)