AMD präsentiert Details der Bulldozer Archtitektur auf der Hot-Chips 23

Auf der diesjährigen Hot Chips in Kalifornien hat AMD detaillierte Informationen zur Architektur der kommenden Bulldozer Prozessoren gezeigt. Währenddessen ist auf der Gamescom 2011 ein System mit FX CPU in Betrieb zu sehen.

AMD zeigt die Architektur am Beispiel eines Zambezi Samples mit Modellnummer FX-8150. Der Prozessor besteht aus vier Bulldozer Modulen, welche jeweils zwei Integer Cores und ein Floating Point Core beinhalten. Der Floating Point Core kann dabei wahlweise als eine 256 Bit Einheit arbeiten, oder aber zwei 128 Bit Befehle bearbeiten, der Bulldozer unterstützt somit also die neuen AVX Befehle. Jedem Modul steht dabei 2MB L2-Cache und 32KB L1-Cache zur Verfügung. Im FX-8150 werden vier solcher Module über die Northbridge mit samt 8MB L3-Cache verbunden und sind mit zwei 72 Bit Kanälen an den Speicher angebunden. Die 72 Bit kommen durch 64 Bit Datenleitungen und 8 Bit Fehlerkorrektur zusammen.

   


Die beiden Integer Cores teilen sich all diejenigen Funktionen, welche nicht zwingend für jeden Core einzeln vorhanden sein müssen. Als Beispiel wäre hier der L1 Daten Cache oder auch die gesamte Integer Pipeline zu nennen. Teilen können sie sich dagegen die kompletten Floating Point Einheiten und den L2-Cache. Die Floating Point Einheit kann somit besser ausgelastet werden und, sofern keine 256 bittigen AVX Befehle anliegen, doppelt so viele Befehle bearbeiten.

Gefüttert werden die Funktionseinheiten von vier x86 Decodern, welche x86 Befehle in RISC ähnliche, pipelinefähige Befehle fester Länge "übersetzen". Das Frontend enthält zudem ein Sprungzielbuffer mit zwei Hierarchien. Weiter beherrscht die neue AMD Architektur ähnlich wie Intels letzte CPU Generationen die Fusion mehrerer Operationen zu einer, hierdurch können bestimmte Abfolgen an Befehlen in einem einzigen Befehl ausgeführt werden, also Rechenleistung "gespart" werden. Beiden Cores steht im gemeinsamen Frontend noch ein 64KB Instruction Cache zur Verfügung.

Beide Integer Kerne können in jedem Zyklus zwei 128 Bit Blöcke aus dem Speicher laden und einen 128 Bit Block in den Speicher zurück schreiben, das ganze komplett unabhängig von der richtigen Befehlsabfolge. Jeder Kern hat außerdem seinen eigenen Scheduler, sowie eine eigene Retire-Unit, welche bei der Out-of-Order Pipeline für die richtige Reihenfolge der Ergebnisse, auch der Fließkomma Befehle, sorgt.

Der Fließkomma Kern an sich ist organisiert wie ein Co-Prozessor, denkbar wäre an dieser Stelle in Zukunft eine Einbindung eines Grafikkerns. Wie auch bei der kommenden Southern-Islands-Architektur ist eine gewisse Annäherung zwischen CPU und GPU zu Erkennen.

Über die Länge der gesamten Pipeline, sowie der Instruktionen pro Zyklus (Umgangssprachlich die Pro-MHz-Performance) macht AMD keine Angaben und ließ sich auch im persönlichen Gespräch nichts entlocken. Die integrierte Northbridge verfügt über zwei Memory-Controller, von denen jeder selbst für die Cache-Kohärenz in "seinem" Adressraum sorgt, dies soll einer gute Skalierbarkeit für CPUs mit mehreren Dies oder Systemen mit mehreren Prozessoren dienen. Die Memory-Controller unterstützen beide bis zu DDR3-1866.

An Befehlen lernt der Bulldozer neben AVX die von den letzten Intel Generationen bereits bekannten AES-NI, welche die Verschlüsselung mit AES extrem beschleunigt. Exklusiv hat AMD in Sachen AVX die Unterstützung von Fused-Multiply-Add (FMA) Befehlen mit vier Operanden.

   


Auch in Sachen Stromsparmechanismen und Turbo-Core hat sich einiges getan. Kann der Hexa-Core Phenom bisher nur die Hälfte aller Kerne hochtakten sofern nur drei Kerne ausgelastet werden, kann der Bulldozer in Abhängigkeit der Temperatur und dem noch verbleibenden "TDP-Puffer" auch alle Kerne um eine Stufe hochtakten. Sind weniger als vier Kerne ausgelastet, können diese um zwei Stufen übertaktet werden. Beim Bulldozer erhält Turbo-Core also wesentlich mehr Intelligenz als noch bei den Phenom X6 Prozessoren. Bei den C-States kommen zwei neue Zustände C6 und CC6 hinzu. Im C6 Zustand wird mittels Power-Gating ein einzelner Kern innerhalb eines Moduls abgeschaltet, sofern dieser nicht zu tun hat. In den CC6 Zustand wird gewechselt, sobald alle Kerne eines Moduls "Idlen". Im CC6 Zustand werden die Caches und Register des kompletten Moduls gesichert und das ganze Modul abgeschaltet. Hier kann der Scheduler des Betriebssystems deutlich negativ in die Stromsparmechanismen eingreifen, denn sofern auf allen vier Modulen nur ein Prozess aktiv ist lässt sich deutlich weniger Logik abschalten und somit wohl auch weniger Verbrauch einsparen. Werden die Prozesse dagegen nur auf zwei Module aufgeteilt, lassen sich die zwei anderen komplett vom Strom nehmen.

  


Über die Performance lässt sich anhand dieser Informationen allerdings noch nicht urteilen, hier wird erst ein zukünftiger Test mehr Einblick gewähren. Anhand der bereits bekannten Preise lässt sich allerdings in etwa abschätzen, dass die Zambezi Prozessoren nicht mit dem Topmodell der kommenden Sandy-Bridge-EX Modelle von Intel konkurrieren können. Gerüchten zufolge soll die Pro-MHz-Performance sogar noch unter der der aktuellen Phenom CPUs liegen. Der Fokus liegt somit eindeutig bei Multi-Threading und dem Servermarkt. Die "nahe Zukunft", wie uns AMD verriet wird also zeigen, inwiefern der Bulldozer überrascht oder gar enttäuscht.

Zu sehen war die neue CPU von AMD auf der diesjährigen Gamescom in Betrieb. Allerdings war nur der Taskmanager während Dirt 3 sowie das offene Gehäuse und die Retailverpackung sichtbar.
Veröffentlicht:

Kategorie: CPUs
Kommentare: 0
Tags