AMD FX: Bulldozer Architektur im Test

Regression!?

Seite 1: AMDs Bulldozer Architektur im Detail

Am 12. Oktober war es soweit und AMD brachte neue Prozessoren auf Basis der neu entwickelten Architektur mit Codenamen Bulldozer auf den Markt. Mit dem Namen "FX" möchte man an alte Zeiten erinnern, als der erste Prozessor mit der "Hammer" Architektur als "Athlon 64 FX" debütierte und seinerzeit für einige Furore sorgte. Die neuen CPUs mit Codenamen Zambezi sollen nun den gleichen Weg einschlagen und genauso erfolgreich werden. Wir haben uns alle Modelle, FX-4100, FX-6100, FX-8120 und FX-8150, in die Redaktion geholt und überprüfen inwieweit sie sich von den Vorgängern absetzen und zur Konkurrenz aufschließen konnten.

Lesezeichen:


Gleich vorweg möchten wir uns für den späten Test entschuldigen, AMD lieferte uns trotz mehrfacher Versprechungen kein Sample, so dass wir alle Modelle im Handel erwerben mussten. Lediglich ein Modell der optional erhältlichen Wasserkühlung erreichte die Redaktion, was man ohne CPU damit anfangen soll wusste AMD allerdings auch nicht so recht.

amd fx bulldozer die shot
Schon früh gab es erste Gerüchte über die neue Architektur von AMD, welche die inzwischen mehrfach verbesserte aber doch angestaubte K8 Architektur ablösen sollte. Von Features ähnlich Hyper-Threading wurde gesprochen, genauer gesagt von CMT. CMT bedeutet Cluster-based Multi-threading und soll einige Vorteile gegenüber Technologien wie Hyper-Threading haben. Im Endeffekt führte dies dazu dass man jetzt von Modulen statt Kernen spricht und doch wieder irgendwie von Kernen in den Modulen.
Zusätzlich zu der neuen Architektur führt AMD mit der Bulldozer Architektur eine Strukturverkleinerung auf 32nm ein. Dies ist mitverantwortlich für mehrere Verschiebungen des Produktstarts, da Globalfoundries Probleme mit dem noch neuen Fertigungsprozesses hat.
Auch einen neuen Sockel führt man mit der neuen Architektur ein. Um den AM3+ getauften Sockel und dessen Kompatibilität zu den Prozessoren der Phenom II und Athlon II Reihen rankten sich lange viele Gerüchte. Letztenendes lassen sich auf dem AM3+ Sockel aber auch die älteren CPUs einsetzen. Da der Sockel mechanisch keinerlei Unterschiede zum Vorgänger aufweist ist der AM3+ Sockel zur besseren Unterscheidung auf den Mainboards schwarz eingefärbt.

Architektur

AMD verfolgt mit der Bulldozer Architektur, wie schon geschrieben, das Konzept des Cluster-based Multi-threading. CMT ist ebenso wie Simultaneous Multi-threading (SMT) eine Methode, um die Ausführungseinheiten besser auszulasten. Bei SMT werden für die besser Auslastung die Steuereinheiten verdoppelt, so dass die Ausführungseinheiten von zwei Threads "gefüttert" werden können. Hierdurch eine Lücke, zum Beispiel durch einen Befehl, welcher mehrere Takte braucht, durch Instruktionen des anderen Threads aufgefüllt werden – die Auslastung steigt. Ein Vetreter des SMT ist Intels Hyper-Threading.
AMD geht nun mit CMT einen Schritt weiter und verdoppelt nicht nur die Steuereinheiten, sondern auch die Integer-Einheiten für Ganzzahl-Arithmetik, da in normalen Programmabläufen Integer-Instruktion dominieren. Die Fließkomma-Einheiten müssen sich dagegen die beiden "Integer-Kerne" teilen. Statt nur der Logik zum Verwalten der Threads werden also auch die Einheiten für die häufigsten Instruktionen "dupliziert". Somit kann durch einen kleineren Zuwachs an Fläche die Leistung proportional stärker gesteigert werden.
Einen besonderen Marketing-Namen für die CMT-Technik führt AMD nicht ein und vermarktet Prozessoren stattdessen mit der Anzahl der Integer-Kerne, welche in Modulen organisiert sind – so AMDs Sprechweise.

Der Prozessor besteht also aus vier Bulldozer Modulen, welche jeweils zwei Integer Cores und ein Floating Point Core beinhalten. Der Floating Point Core kann dabei wahlweise als eine 256 Bit Einheit arbeiten, oder aber zwei 128 Bit Befehle bearbeiten, der Bulldozer unterstützt somit die neuen AVX Befehle. Jedem Modul steht dabei 2 MiB L2-Cache und 32 KiB L1-Cache zur Verfügung. Im FX-8150 werden vier solcher Module über die Northbridge mit samt 8 MiB L3-Cache verbunden und sind mit zwei 72 Bit Kanälen an den Speicher angebunden. Die 72 Bit kommen durch 64 Bit Datenleitungen und 8 Bit Fehlerkorrektur zusammen.


Die beiden Integer Cores teilen sich all diejenigen Funktionen, welche nicht zwingend für jeden Core einzeln vorhanden sein müssen. Als Beispiel wäre hier der L1 Daten Cache oder auch die gesamte Integer Pipeline zu nennen. Teilen können sie sich dagegen die kompletten Floating Point Einheiten und den L2-Cache. Die Floating Point Einheit kann somit besser ausgelastet werden und, sofern keine 256 bittigen AVX Befehle anliegen, doppelt so viele Befehle bearbeiten.

Gefüttert werden die Funktionseinheiten von vier x86 Decodern, welche x86 Befehle in RISC ähnliche, pipelinefähige Befehle fester Länge "übersetzen". Das Frontend enthält zudem ein Sprungzielbuffer mit zwei Hierarchien. Weiter beherrscht die neue AMD Architektur ähnlich wie Intels letzte CPU Generationen die Fusion mehrerer Operationen zu einer, hierdurch können bestimmte Abfolgen an Befehlen in einem einzigen Befehl ausgeführt werden, also Rechenleistung "gespart" werden. Beiden Cores steht im gemeinsamen Frontend noch ein 64KB Instruction Cache zur Verfügung.

Beide Integer Kerne können in jedem Zyklus zwei 128 Bit Blöcke aus dem Speicher laden und einen 128 Bit Block in den Speicher zurück schreiben, das ganze komplett unabhängig von der richtigen Befehlsabfolge. Jeder Kern hat außerdem seinen eigenen Scheduler, sowie eine eigene Retire-Unit, welche bei der Out-of-Order Pipeline für die richtige Reihenfolge der Ergebnisse, auch der Fließkomma Befehle, sorgt.

Der Fließkomma Kern an sich ist organisiert wie ein Co-Prozessor, denkbar wäre an dieser Stelle in Zukunft eine Einbindung eines Grafikkerns. Wie auch bei der kommenden Southern-Islands-Architektur ist eine gewisse Annäherung zwischen CPU und GPU zu Erkennen.

Über die Länge der gesamten Pipeline, sowie der Instruktionen pro Zyklus (IPC, Umgangssprachlich die Pro-MHz-Performance) macht AMD keine Angaben und ließ sich auch im persönlichen Gespräch nichts entlocken. Die integrierte Northbridge verfügt über zwei Memory-Controller, von denen jeder selbst für die Cache-Kohärenz in "seinem" Adressraum sorgt, dies soll einer gute Skalierbarkeit für CPUs mit mehreren Dies oder Systemen mit mehreren Prozessoren dienen. Die Memory-Controller unterstützen beide bis zu DDR3-1866.

An Befehlen lernt der Bulldozer neben AVX die von den letzten Intel Generationen bereits bekannten AES-NI, welche die Verschlüsselung mit AES extrem beschleunigt. Exklusiv hat AMD in Sachen AVX die Unterstützung von Fused-Multiply-Add (FMA) Befehlen mit vier Operanden.


Auch in Sachen Stromsparmechanismen und Turbo-Core hat sich einiges getan. Konnte der Hexa-Core Phenom bisher nur die Hälfte aller Kerne hochtakten und das nur, wenn drei Kerne nichts zu tun hatten, kann der Bulldozer in Abhängigkeit der Temperatur und dem noch verbleibenden "TDP-Puffer" auch alle Kerne um eine Stufe hochtakten. Sind weniger als vier Kerne ausgelastet, können diese um zwei Stufen übertaktet werden. Beim Bulldozer erhält Turbo-Core also mehr Intelligenz als noch bei den Phenom X6 Prozessoren. Bei den C-States kommen zwei neue Zustände C6 und CC6 hinzu. Im C6 Zustand wird mittels Power-Gating ein einzelner Kern innerhalb eines Moduls abgeschaltet, sofern dieser nichts zu tun hat. In den CC6 Zustand wird gewechselt, sobald alle Kerne eines Moduls "Idlen". Im CC6 Zustand werden die Caches und Register des kompletten Moduls gesichert und das ganze Modul abgeschaltet. Hier kann der Scheduler des Betriebssystems deutlich negativ in die Stromsparmechanismen eingreifen, denn sofern auf allen vier Modulen nur ein Prozess aktiv ist lässt sich deutlich weniger Logik abschalten und somit wohl auch weniger Verbrauch einsparen. Werden die Prozesse dagegen nur auf zwei Module aufgeteilt, lassen sich die zwei anderen komplett vom Strom nehmen. AMD hat an dieser Stelle bereits von Performance-Steigerung von bis zu 10% unter Windows 8 gesprochen, da dessen Scheduler die Bauweise der Bulldozer-Architektur besser versteht und die Prozesse intelligenter verteilen kann. Die Leistungssteigerung im Vergleich zu Windows 7 kommt hier durch den dann greifenden Turbo zustande.


Im Zuge der Vorstellung der neuen FX-Prozessoren hat AMD auch einen kleinen Ausblick auf die zukünftige Entwicklung der Architektur gegeben. Angestrebt wird eine Leistungssteigerung von 10-15% pro Jahr. Den Start sollen nächstes Jahr die "Pildedriver" Prozessoren machen, bei denen es sowohl Verbesserungen im Bereich der IPC, als auch beim Stromverbrauch geben wird – soweit der Plan. Auch die neuen APUs auf Basis der Bulldozer Architektur mit Codenamen "Trinity" sollen dann debütieren. Inwiefern "Trinity" und "Piledriver" in einem zeitlichen Zusammenhang stehen ist nicht klar, vermtulich werden die Trinity-APUs früher erscheinen.
Nächste Seite: Modelle / Chipsätze