ZOTAC GeForce GTX 1080 AMP! Extreme

Big, Bigger, AMP!

Seite 3: NVIDIAs neue GPU-Architektur Pascal [2]

Polymorph-Engine 4.0 – Simultaneous Multi-Projection bringt Vorteile für VR, Multi- und Curved-Displays


Eine sehr interessante Neuerung in Pascal ist Simultaneous Multi-Projection (SMP) als Teil der überarbeiteten Polymorph-Engine 4.0. NVIDIA steigert mit SMP die Effizienz von Geometrie-Berechnungen und erreicht damit mehr Performance sowie realistische „Blickwinkel“ für VR, Curved-Displays und Multi-Display-Setups.

Indem mehrere Perspektiven aus einer einzigen Berechnung der Geometrie abgeleitet werden, ermöglicht es SMP hier Geometrie-Leistung beim Rendern einzusparen. NVIDIAs Pascal Architektur unterstützt hier 16 simultane Viewports. Auch Maxwell unterstützt offiziell neun Viewports, allerdings ist noch kein Verfahren für die Vorgängergeneration verfügbar. Damit SMP beim Berechnen der Geometrie Ressourcen einsparen kann, müssen alle Viewports denselben Ausgangspunkt beim Rendern haben. Weiter können sich die Viewports auf insgesamt zwei unterschiedliche Ausgangspunkte beziehen, die allerdings entlang derselben X-Achse liegen müssen. Entlang dieser beziehungsweise einer Achse können die Blickrichtungen dann beliebig rotiert werden.

SMP muss allerdings von Entwicklern per SDK (Software Development Kit) in die Software integriert werden. Als Nutzen verspricht die Technologie vor allem die Geometrie-Last von Spielen beziehungsweise Software zu senken. Gibt es viel Geometrie im jeweiligen Titel, soll SMP einen hohen Leistungsschub bringen können. Ist nur wenig Geometrie vorhanden, ist der Vorteil entsprechend geringer. Theoretisch kann die Berechnung der Geometrie mit NVIDIAs SMP bis zum Faktor 32 beschleunigt werden.


NVIDIA selbst hat mit einer Techdemo die Leistung laut eigenen Angaben um etwa 22 Prozent steigern könnten, gegenüber einer regulären Geometrie-Berechnung, bei Virtual Reality Titeln soll es sogar möglich sein die Spieleleistung im Vergleich zu Maxwell zu verdoppeln. Aber auch andere Einsatzgebiete wie zum Beispiel NVIDIA Surround mit mehreren Monitoren ziehen Vorteile aus der Technologie. Aktuelle Titel betrachten ein solches Setup derzeit als einen sehr breiten Monitor und rendern von nur einem Sichtpunkt aus. Da die beiden äußeren Displays in der Regel aber schräg aufgestellt werden, stimmen allerdings die Winkel zwischen den Monitoren nicht mehr überein und nach außen hin wirkt das Bild verzerrt. Mit SMP kann NVIDIAs Pascal nun für diesen Fall drei Viewports erstellen, das Bild für die beiden äußeren Monitore neigen und das Bild entsprechend nach außen hin entzerren. Auch für Cuved-Displays bringt das Vorteile, um das Bild homogener darstellen zu können. Über einen Menüpunkt im Treiber soll eine Konfiguration der entsprechenden Winkel möglich werden.

Zu guter Letzt profitiert Virtual Reality durch „Lens Matched Shading“. Bei VR-Brillen sieht der Spieler nicht direkt auf die Displays sondern durch gebogene Linsen. GPUs rendern allerdings klassisch ein planes Bild, mit zusätzlichen Informationen am Bildrand und neigen dieses dann, bis es korrekt auf die Linsen passt. Dabei werden allerdings auch Bildbereiche gerendert, die der Spieler später nicht zu sehen bekommt, was im Endeffekt mehr Last verursacht. Da SMP hier mehrere Viewports bietet, können Entwickler das tatsächlich gerenderte Bild näherungsweise an die Linsenform anpassen. NVIDIA spricht hier von einer Verringerung von 2,1 Megapixel pro Auge auf 1,4 Megapixel! Weiter bietet SMP hier Entwicklern durch Anpassung der Samplingrate eine Stellschraube um die Performance zu erhöhen oder Bildqualität zu steigern.

Speicherkomprimierung


Neben GDDR5X hat sich NVIDIA bei Pascal auch der Speicherkompression weiter angenommen. Diese liegt nun in Version 4 vor und man hat alte Kompressions-Technologien verbessert und auch neue hinzugefügt, welche die Performance nochmals steigern sollen. Dabei wurde unter anderem die bereits bekannte Delta 2:1 Color-Kompression verbessert und um eine 4:1 sowie 8:1 Kompression ergänzt. Zur Erklärung, bei diesem Verfahren wird ein Basispixelwert gespeichert und für die umliegenden Pixel in einer 8x8 Matrix nur noch der Unterschied (Delta) gespeichert. Da das Delta ein deutlich kleinerer Wert ist, kann dieser schneller bei geringerem Speicherverbrauch gespeichert werden. Laut NVIDIA steigert man damit die effektiv vorhandene Speicherbandbreite bei Pascal im Durchschnitt gegenüber Maxwell um 20 Prozent.

Asynchronus Compute



Mit Low-Level-APIs wie DirectX 12 oder Vulkan wird das simultane Ausführen von Rendering- und Compute-Befehlen wichtiger. Während hier AMD mit der GCN-Architektur bereits gut umgehen konnte, hatte Maxwell hier seine Probleme. Mit Pascal soll sich das laut NVIDIA nun geändert haben, indem das dynamische Load-Balancing angepasst wurde. Die Rendering- und Compute-Befehle können jetzt ohne Verzögerung in die Pipeline geschoben werden.


Weiter ist es mit Pascal nun möglich, bereits begonnene Berechnungen abzubrechen, die bis dahin erzielten Ergebnisse im Speicher vorzuhalten und die Berechnung zu einem späteren Zeitpunkt zu beenden. Diese Operation nennt sich „Pre Emption“ und ist im Grunde nichts Neues und wird von AMDs GCN-Architektur unterstützt, kann im Fall von Pascal auch auf der Graphics-Pipeline durchgeführt werden (Pixel Pre Emption). Im nächsten DirectX 12 Update soll dieses Feature auch Einzug in Microsofts Grafik API halten. Für Vulkan gibt es noch keinen Termin.

Fast Sync


NVIDIA führt mit Pascal auch die neue VSync-Technologie Fast Sync ein. Fast Sync richtet sich dabei an Spieler, die gerne mit sehr hohen Frameraten spielen die teilweise deutlich oberhalb der eigentlichen Bildwiederholfrequenz des verwendeten Monitors liegen. Die neue Technologie entkoppelt erstmals die Render- von der Display-Pipeline, was zur Folge hat, dass das Spiel immer neue Frames anfordert und die GPU durchweg neue Frames rendert. Im Vergleich zu VSync findet dabei aber dennoch eine Synchronisation statt.


Fast Sync legt mehrere Bilder im Grafikkartenspeicher ab. Hat der Monitor seinen Refreshzyklus abgeschlossen, wird das letzte fertig gerenderte Bild ausgegeben. Nehmen wir an die Bildwiederholfrequenz des Monitors beträgt 60 Hz, dann sind das hier 60 Bilder pro Sekunde die von der GPU dargestellt werden können. Einfach formuliert ist Fast Sync damit eine Kombination aus „VSync aus“ vor der Ausgabe auf dem Monitor und „VSync an“ bei der Ausgabe auf dem Monitor und vereint damit beide „Welten“.

Dabei soll sich Fast Sync mit G-Sync bestens ergänzen. Während G-Sync sich vor allem auch für Spiele eignet, die mit weniger FPS als die eigentliche Bildwiederholfrequenz des Monitors arbeiten, richtet sich Fast Sync eben an diejenigen Titel, die mit deutlich mehr FPS gerendet werden können. Ein prominentes Beispiel ist hier „Counter Strike: Global Offensive“, das vielfach gerne mit der FPS_MAX 300 Einstellung betrieben wird und auf leistungsstarken GPUs leicht mit durchgehend 200+ FPS gerendert wird.
Derzeit ist die Technologie exklusiv für NVIDIAs Pascal Grafikkarten freigeschaltet, zu einem späteren Zeitpunkt soll aber auch Maxwell von der neuen Technologie profitieren können.

GPU Boost 3.0


Mit Pascal führt NVIDIA auch ein Update der Turbo-Funktion GPU Boost durch, das vor allem für Übertakter sehr interessant sein dürfte. In der Version 3.0 lassen sich nun Taktraten für spezifische Spannungen festlegen. Das war bisher nicht möglich, denn bei Maxwell-GPUs wurde ein GPU-Clock-Offset über alle Spannungsstufen hinweg angesetzt. Dies hat zur Folge das insbesondere bei niedrigeren Spannungen Taktpotential verloren gegangen ist, denn hier wurde nicht der Sweetspot der GPU beachtet.


Um diesen Bereich effizienter abdecken zu können, führt NVIDIA mit GPU Boost 3.0 das „Per Voltage Frequency Offset“ ein. Vereinfacht gesagt lässt sich über diese Stellschraube für jede Spannungsstufe der GPU das Takt-Offset individuell festlegen. Damit wird es möglich das die Taktrate des Grafikprozessors bei jeder Spannungsstufe immer möglichst nahe am erreichbaren Maximum liegt. Mit Tools wie EVGAs Precision X werden diese Einstellmöglichkeiten und damit hohes Optimierungspotential für NVIDIA Pascal Grafikkarten bieten.

Das „klassische Übertakten“ mittels GPU-Clock-Offset über alle Spannungsstufen hinweg wird aber weiterhin erhalten bleiben. Ergänzt werden beide Modi zudem durch einen linearen Modus, bei dem der Benutzer einen Offset für niedrige und hohe Spannungen angibt und daraus eine lineare Kurve abgeleitet wird. Enthusiasten können hier natürlich komplett manuell Hand anlegen.

HDR und co.


Die Video-Engine des GP104 hat ebenfalls Änderungen spendiert bekommen. So kann Pascal 4K-Videos mit 60 FPS (H.265) decodieren, die mit einer Farbtiefe von zehn oder zwölf Bit (High Dynamic Range) vorliegen. Weiter ist es auch möglich entsprechend zu codieren, hier bietet der GP104 die Möglichkeit mit zehn Bit HDR-Aufnahmen beziehungsweise Streaming zu encodieren. Zudem unterstützt die Display-Engine „PlayReady 3.0“, was zur Wiedergabe von 4K-Streaming Inhalten notwendig ist. Hier sind beispielsweise Dienste wie Netflix und Amazon Prime zu nennen.

Für die Ausgabe von HDR-Material stellt NVIDIA der GeForce GTX 1080 HDMI 2.0B und DisplayPort 1.4 Schnittstellen zur Seite. Via DisplayPort können Monitore mit bis zu 7.680 x 4.320 Pixeln mit HDR bei 60 Hz angesteuert werden. Interessant, besonders für kommende Displays ist auch die Möglichkeit 4K-Displays (3.840 x 2.160 Pixel) mit bis zu 120 Hz und HDR ansteuern zu können. HDMI 2.0b unterstützt den kommenden 4K-Kopierschutz HDCP 2.2.
Nächste Seite: Die ZOTAC GeForce GTX 1080 AMP! Extreme im Überblick