Was sind Chiplets und warum sind sie so wichtig für die Zukunft der Prozessoren?

Obwohl Chiplets schon seit Jahrzehnten im Einsatz sind, werden sie nur sparsam und für ganz bestimmte Zwecke eingesetzt. Mittlerweile sind sie auf dem neuesten Stand der Technik und werden von Millionen Menschen auf der ganzen Welt in Desktop-PCs, Workstations und Servern genutzt.

Ein Branchenführer nutzte kürzlich Chiplets, um seine Position an der Spitze der Innovation zurückzugewinnen, und es ist klar, dass es nicht mehr lange dauern wird, bis Chiplets zum Standard in der Computerwelt werden. Lehnen Sie sich also zurück und erfahren Sie mehr über Chiplets und warum sie so wichtig sind.

Chiplets sind segmentierte Prozessoren. Anstatt jedes Teil in einem einzigen Chip zusammenzufassen (bekannt als monolithischer Ansatz), werden bestimmte Abschnitte als separate Chips hergestellt. Diese einzelnen Chips werden dann mithilfe eines komplexen Verbindungssystems zu einem einzigen Gehäuse zusammengefügt.

Durch diese Anordnung können die Teile, die von den neuesten Fertigungsmethoden profitieren können, verkleinert werden, wodurch die Effizienz des Prozesses verbessert wird und sie in mehr Komponenten passen.

Die Teile des Chips, die nicht wesentlich reduziert werden können oder nicht reduziert werden müssen, können mit älteren und wirtschaftlicheren Methoden hergestellt werden.

Obwohl der Herstellungsprozess solcher Prozessoren komplex ist, sind die Gesamtkosten in der Regel niedriger. Darüber hinaus bietet es Verarbeitungsunternehmen eine einfachere Möglichkeit, ihre Produktpalette zu erweitern.

Um vollständig zu verstehen, warum Prozessorhersteller auf Chiplets umgestiegen sind, müssen wir uns zunächst mit der Herstellung dieser Geräte befassen. CPUs und GPUs beginnen ihr Leben als große Scheiben aus hochreinem Silizium, typischerweise etwas weniger als 12 Zoll (300 mm) im Durchmesser und 0,04 Zoll (1 mm) dick.

Dieser Siliziumwafer durchläuft eine Reihe komplizierter Schritte, wodurch mehrere Schichten aus unterschiedlichen Materialien entstehen – Isolatoren, Dielektrika und Metalle. Die Muster dieser Schichten werden durch einen Prozess namens Photolithographie erzeugt, bei dem ultraviolettes Licht durch eine vergrößerte Version des Musters (eine Maske) gestrahlt und anschließend mithilfe von Linsen auf die erforderliche Größe verkleinert wird.

Das Muster wiederholt sich in festgelegten Abständen auf der Oberfläche des Wafers und jedes dieser Muster wird letztendlich zu einem Prozessor. Da Chips rechteckig und Wafer kreisförmig sind, müssen die Muster den Umfang der Scheibe überlappen. Diese überlappenden Teile werden letztendlich verworfen, da sie nicht funktionsfähig sind.

Nach der Fertigstellung wird der Wafer mithilfe einer an jedem Chip angebrachten Sonde getestet. Die Ergebnisse der elektrischen Prüfung informieren Ingenieure über die Qualität des Prozessors anhand einer langen Liste von Kriterien. Diese als Chip-Binning bezeichnete Anfangsphase hilft dabei, die „Klasse“ des Prozessors zu bestimmen.

Wenn der Chip beispielsweise eine CPU sein soll, sollte jedes Teil ordnungsgemäß funktionieren und innerhalb eines festgelegten Taktfrequenzbereichs bei einer bestimmten Spannung arbeiten. Anschließend wird jeder Waferabschnitt anhand dieser Testergebnisse kategorisiert.

Nach der Fertigstellung wird der Wafer in einzelne Stücke oder „Matrizen“ geschnitten, die zur Verwendung geeignet sind. Diese Chips werden dann auf einem Substrat montiert, ähnlich einem speziellen Motherboard. Der Prozessor wird einer weiteren Verpackung unterzogen (z. B. mit einem Wärmeverteiler), bevor er für den Versand bereit ist.

Die gesamte Herstellungssequenz kann mehrere Wochen in Anspruch nehmen und Unternehmen wie TSMC und Samsung verlangen hohe Gebühren für jeden Wafer, die je nach verwendetem Prozessknoten zwischen 3.000 und 20.000 US-Dollar liegen.

Als „Prozessknoten“ wird das gesamte Fertigungssystem bezeichnet. Historisch gesehen wurden sie nach der Gate-Länge des Transistors benannt. Da sich die Herstellungstechnologie jedoch verbesserte und immer kleinere Komponenten ermöglichte, orientierte sich die Nomenklatur nicht mehr an einem physischen Aspekt der Matrize und ist nun lediglich ein Marketinginstrument.

Dennoch bringt jeder neue Prozessknoten Vorteile gegenüber seinem Vorgänger. Es könnte günstiger in der Herstellung sein, bei gleicher Taktrate weniger Strom verbrauchen (oder umgekehrt) oder eine höhere Dichte aufweisen. Die letztgenannte Metrik misst, wie viele Komponenten in einen bestimmten Chipbereich passen. In der folgenden Grafik können Sie sehen, wie sich dies im Laufe der Jahre für GPUs (die größten und komplexesten Chips, die Sie in einem PC finden) entwickelt hat ...

Die Verbesserungen an Prozessknoten bieten Ingenieuren die Möglichkeit, die Fähigkeiten und Leistung ihrer Produkte zu steigern, ohne große und kostspielige Chips verwenden zu müssen. Die obige Grafik erzählt jedoch nur einen Teil der Geschichte, da nicht jeder Aspekt eines Prozessors von diesen Fortschritten profitieren kann.

Schaltkreise innerhalb von Chips können einer der folgenden großen Kategorien zugeordnet werden:

Während die Logikschaltungen mit jedem großen Fortschritt in der Prozessknotentechnologie immer kleiner werden, haben sich die analogen Schaltungen leider kaum verändert und auch SRAM stößt langsam an seine Grenzen.

Während die Logik immer noch den größten Teil des Chips ausmacht, ist die Menge an SRAM in heutigen CPUs und GPUs in den letzten Jahren deutlich gestiegen. Beispielsweise verfügt der Vega 20-Chip von AMD, der in der Radeon VII-Grafikkarte verwendet wird, über insgesamt 5 MB L1- und L2-Cache. Nur zwei GPU-Generationen später verfügt das Navi 21 über mehr als 130 MB Cache – bemerkenswerte 25-mal mehr als das Vega 20.

Wir können davon ausgehen, dass diese Werte mit der Entwicklung neuer Prozessorgenerationen weiter steigen werden. Da jedoch der Speicher und die Logik nicht so stark verkleinert werden, wird es immer weniger kosteneffektiv, alle Schaltkreise auf demselben Prozessknoten herzustellen.

In einer idealen Welt würde man einen Chip entwerfen, bei dem analoge Abschnitte auf dem größten und günstigsten Knoten hergestellt werden, SRAM-Teile auf einem viel kleineren und die Logik der absoluten Spitzentechnologie vorbehalten ist. Leider ist dies praktisch nicht realisierbar. Es gibt jedoch einen alternativen Ansatz.

Bereits 1995 brachte Intel mit dem Pentium II einen Nachfolger seines ursprünglichen P5-Prozessors auf den Markt. Was ihn von der damals üblichen Kost unterschied, war, dass sich unter der Kunststoffabdeckung eine Platine befand, auf der zwei Chips untergebracht waren: der Hauptchip, der die gesamte Verarbeitungslogik und die analogen Systeme enthielt, und ein oder zwei separate SRAM-Module, die als Level 2 dienten Zwischenspeicher.

Intel stellte den Hauptchip her, der Cache wurde jedoch von anderen Firmen bezogen. Dies sollte Mitte bis Ende der 1990er Jahre bei Desktop-PCs zum Standard werden, bis sich die Halbleiterfertigungstechniken so weit verbesserten, dass Logik, Speicher und Analogsignale alle in demselben Chip integriert werden konnten.

Intels Pentium II – CPU in der Mitte, Cache-Chips rechts. Quelle: Wikimedia

Während Intel sich weiterhin mit mehreren Chips im selben Gehäuse beschäftigte, blieb es bei Prozessoren weitgehend beim sogenannten monolithischen Ansatz – also einem Chip für alles. Für die meisten Prozessoren war nicht mehr als ein Chip erforderlich, da die Herstellungstechniken effizient (und erschwinglich) genug waren, um eine einfache Handhabung zu ermöglichen.

Andere Unternehmen waren jedoch eher an einem Multi-Chip-Ansatz interessiert, allen voran IBM. Im Jahr 2004 war es möglich, eine 8-Chip-Version der POWER4-Server-CPU zu erwerben, die aus vier Prozessoren und vier Cache-Modulen bestand, die alle im selben Gehäuse montiert waren (bekannt als Multi-Chip-Modul oder MCM-Ansatz).

Etwa zu dieser Zeit tauchte der Begriff „heterogene Integration“ (HI) auf, teilweise aufgrund der Forschungsarbeit der DARPA (Defense Advanced Research Project Agency). HI zielt darauf ab, die verschiedenen Abschnitte eines Verarbeitungssystems zu trennen, sie einzeln auf den jeweils am besten geeigneten Knoten zu erstellen und sie dann in demselben Paket zu kombinieren.

Heute ist dies besser bekannt als System-in-Package (SiP) und war von Anfang an die Standardmethode, um Smartwatches mit Chips auszustatten. Beispielsweise beherbergt die Apple Watch der Serie 1 eine CPU, etwas DRAM und NAND-Flash, mehrere Controller und andere Komponenten in einer einzigen Struktur.

Eine Röntgenaufnahme von Apples S1 SiP. Quelle: iFixit

Ein ähnlicher Aufbau kann erreicht werden, indem verschiedene Systeme alle auf einem einzigen Chip untergebracht werden (bekannt als System-on-Chip oder SoC). Allerdings ermöglicht dieser Ansatz nicht die Ausnutzung unterschiedlicher Knotenpreise, noch kann jede Komponente auf diese Weise hergestellt werden.

Für einen Technologieanbieter ist die Verwendung heterogener Integration für ein Nischenprodukt eine Sache, sie jedoch für den Großteil seines Portfolios einzusetzen, eine andere. Genau das hat AMD mit seiner Prozessorpalette getan. Im Jahr 2017 veröffentlichte der Halbleiterriese seine Zen-Architektur in Form der Single-Die-Desktop-CPU Ryzen. Einige Monate später kamen zwei Multi-Chip-Produktlinien auf den Markt, Threadripper und EPYC, wobei letztere über bis zu vier Dies verfügte.

Mit der Einführung von Zen 2 zwei Jahre später hat AMD HI, MCM, SiP – nennen Sie es wie Sie wollen – vollständig übernommen. Sie verlagerten den Großteil der analogen Systeme aus dem Prozessor und platzierten sie in einem separaten Chip. Diese wurden auf einem einfacheren, günstigeren Prozessknoten hergestellt, während für die restliche Logik und den Cache ein fortschrittlicherer verwendet wurde.

Und so wurden Chiplets zum Schlagwort der Wahl.

Um genau zu verstehen, warum AMD diese Richtung gewählt hat, schauen wir uns das Bild unten an. Es zeigt zwei CPUs der Ryzen 5-Serie – links den 2600 mit der sogenannten Zen+-Architektur und rechts den 3600 mit Zen 2-Antrieb.

Bei beiden Modellen wurden die Wärmeverteiler entfernt und die Fotos wurden mit einer Infrarotkamera aufgenommen. Der einzelne Chip des 2600 beherbergt acht Kerne, obwohl zwei davon bei diesem speziellen Modell deaktiviert sind.

Quelle: Fritzchen Fritz

Dies ist auch beim 3600 der Fall, aber hier können wir sehen, dass das Paket zwei Chips enthält – den Core Complex Die (CCD) oben, der die Kerne und den Cache beherbergt, und den Input/Output Die (IOD) unten Die Unterseite enthält alle Controller (für Speicher, PCI Express, USB usw.) und physische Schnittstellen.

Da beide Ryzen-CPUs in den gleichen Mainboard-Sockel passen, sind die beiden Bilder grundsätzlich maßstabsgetreu. Oberflächlich betrachtet könnte es so aussehen, als hätten die beiden Chips im 3600 zusammen eine größere Fläche als der einzelne Chip im 2600, aber der Schein kann trügen.

Wenn wir die Chips, die die Kerne enthalten, direkt vergleichen, wird deutlich, wie viel Platz im älteren Modell von analogen Schaltkreisen eingenommen wird – es sind all die blaugrünen Farben, die die goldfarbenen Kerne und den Cache umgeben. Allerdings ist beim Zen 2 CCD nur sehr wenig Chipfläche für analoge Systeme reserviert; Es besteht fast ausschließlich aus Logik und SRAM.

Der Zen+-Chip hat eine Fläche von 213 mm² und wurde von GlobalFoundries mit seinem 12-nm-Prozessknoten hergestellt. Für Zen 2 behielt AMD die Dienste von GlobalFoundries für den 125-mm²-IOD bei, nutzte jedoch den überlegenen N7-Knoten von TSMC für den 73-mm²-CCD.

Zen+ (oben) vs. Zen 2 CCD (unten)

Die Gesamtfläche der Chips im neueren Modell ist kleiner und verfügt außerdem über doppelt so viel L3-Cache, was schnelleren Speicher und PCI Express unterstützt. Das Beste am Chiplet-Ansatz war jedoch, dass die kompakte Größe des CCD es AMD ermöglichte, einen weiteren in das Gehäuse einzubauen. Aus dieser Entwicklung entstand die Ryzen 9-Serie, die 12- und 16-Core-Modelle für Desktop-PCs bietet.

Noch besser: Durch die Verwendung von zwei kleineren Chips anstelle eines großen Chips kann jeder Wafer möglicherweise mehr Chips ergeben. Beim Zen 2 CCD kann ein einzelner 12-Zoll-Wafer (300 mm) bis zu 85 % mehr Chips produzieren als beim Zen+-Modell.

Je kleiner die Scheibe, die man aus einem Wafer herausnimmt, desto unwahrscheinlicher ist es, dass man Herstellungsfehler findet (da diese dazu neigen, zufällig über die Scheibe verteilt zu sein). Wenn man all dies berücksichtigt, hat der Chiplet-Ansatz AMD nicht nur die Chance gegeben Die Möglichkeit, sein Portfolio zu erweitern, war bisher weitaus kostengünstiger – die gleichen CCDs können in mehreren Modellen verwendet werden und jeder Wafer produziert Hunderte davon!

Je kleiner das aus einem Wafer entnommene Stück ist, desto geringer ist die Wahrscheinlichkeit, dass Herstellungsfehler auftreten (da diese dazu neigen, zufällig über die Scheibe verteilt zu sein). Wenn man all dies berücksichtigt, ermöglichte der Chiplet-Ansatz AMD nicht nur die Erweiterung seines Portfolios, sondern war auch wesentlich kostengünstiger. Dieselben CCDs können in mehreren Modellen verwendet werden, und jeder Wafer produziert Hunderte davon!

Aber wenn diese Designwahl so vorteilhaft ist, warum tut Intel sie dann nicht? Warum sehen wir nicht, dass es in anderen Prozessoren wie GPUs verwendet wird?

Um die erste Frage zu beantworten: Intel geht tatsächlich den vollständigen Chiplet-Weg und ist mit seiner nächsten Consumer-CPU-Architektur namens Meteor Lake auf dem besten Weg, dies zu tun. Natürlich ist der Ansatz von Intel in gewisser Weise einzigartig. Lassen Sie uns also untersuchen, wie er sich vom Ansatz von AMD unterscheidet.

Unter Verwendung des Begriffs „Kacheln“ anstelle von „Chiplets“ wird diese Prozessorgeneration das bisher monolithische Design in vier separate Chips aufteilen:

Zwischen dem SOC und den anderen drei Kacheln bestehen Hochgeschwindigkeitsverbindungen mit geringer Latenz, und alle sind mit einem anderen Chip, einem sogenannten Interposer, verbunden. Dieser Interposer versorgt jeden Chip mit Strom und enthält die Leiterbahnen zwischen ihnen. Der Interposer und die vier Kacheln werden dann auf einer zusätzlichen Platine montiert, damit die gesamte Baugruppe verpackt werden kann.

Im Gegensatz zu Intel verwendet AMD keinen speziellen Montagechip, sondern verfügt über ein eigenes, einzigartiges Verbindungssystem, bekannt als Infinity Fabric, zur Abwicklung von Chiplet-Datentransaktionen. Die Stromversorgung erfolgt über ein ziemlich standardisiertes Paket und AMD verwendet auch weniger Chiplets. Warum also ist Intels Design so?

Eine Herausforderung bei AMDs Ansatz besteht darin, dass er für den ultramobilen Bereich mit geringem Stromverbrauch nicht sehr geeignet ist. Aus diesem Grund verwendet AMD in diesem Segment immer noch monolithische CPUs. Das Design von Intel ermöglicht es ihnen, verschiedene Kacheln entsprechend einem bestimmten Bedarf zu kombinieren. Budgetmodelle für erschwingliche Laptops können beispielsweise überall viel kleinere Kacheln verwenden, während AMD für jeden Zweck nur einen Chiplet in einer Größe bereithält.

Der Nachteil von Intels System besteht darin, dass es komplex und teuer in der Herstellung ist, obwohl es noch zu früh ist, vorherzusagen, wie sich dies auf die Einzelhandelspreise auswirken wird. Beide CPU-Hersteller sind jedoch voll und ganz dem Chiplet-Konzept verpflichtet. Sobald jeder Teil der Fertigungskette darauf ausgerichtet ist, dürften die Kosten sinken.

GPUs enthalten im Vergleich zum Rest des Chips relativ wenig analoge Schaltkreise, aber die Menge an SRAM im Inneren nimmt stetig zu. Aus diesem Grund hat AMD sein Chiplet-Wissen auf seine neueste Radeon 7000-Serie angewendet, wobei die Radeon RX 7900-GPUs aus mehreren Chips bestehen – einem einzigen großen für die Kerne und den L2-Cache sowie fünf oder sechs winzigen Chips, die jeweils einen Teil des L3-Cache enthalten und einen Speichercontroller.

Durch die Verlagerung dieser Teile aus dem Hauptchip konnten die Ingenieure die Menge an Logik deutlich erhöhen, ohne die neuesten Prozessknoten verwenden zu müssen, um die Chipgrößen unter Kontrolle zu halten. Allerdings hat die Änderung die Breite des Grafikportfolios nicht gestärkt, obwohl sie wahrscheinlich dazu beigetragen hat, die Gesamtkosten zu senken.

Derzeit zeigen Intel und Nvidia keine Anzeichen dafür, dass sie mit ihren GPU-Designs dem Beispiel von AMD folgen werden. Beide Unternehmen nutzen TSMC für alle Fertigungsaufgaben und scheinen damit zufrieden zu sein, extrem große Chips zu produzieren und die Kosten auf die Verbraucher abzuwälzen.

Da die Umsätze im Grafiksektor jedoch stetig sinken, kann es sein, dass in den nächsten Jahren jeder GPU-Anbieter den gleichen Weg einschlägt.

Ganz gleich, wann diese Veränderungen eintreten, die grundlegende Wahrheit ist, dass sie eintreten müssen. Trotz der enormen technologischen Fortschritte in der Halbleiterfertigung gibt es eine eindeutige Grenze dafür, wie stark jede Komponente geschrumpft werden kann.

Um die Chipleistung weiter zu verbessern, haben Ingenieure im Wesentlichen zwei Möglichkeiten: Sie fügen mehr Logik mit dem erforderlichen Speicher hinzu, um sie zu unterstützen, und erhöhen die internen Taktraten. Was Letzteres betrifft, so hat sich die durchschnittliche CPU in dieser Hinsicht seit Jahren nicht wesentlich verändert. AMDs FX-9590-Prozessor aus dem Jahr 2013 könnte bei bestimmten Arbeitslasten 5 GHz erreichen, während die höchste Taktrate in seinen aktuellen Modellen bei 5,7 GHz liegt (mit dem Ryzen 9 7950X).

Intel hat kürzlich den Core i9-13900KS auf den Markt gebracht, der unter den richtigen Bedingungen 6 GHz erreichen kann, aber die meisten seiner Modelle haben ähnliche Taktraten wie AMD.

Was sich jedoch geändert hat, ist der Umfang der Schaltung und des SRAM. Der oben erwähnte FX-9590 hatte 8 Kerne (und 8 Threads) und 8 MB L3-Cache, während der 7950X3D über 16 Kerne, 32 Threads und 128 MB L3-Cache verfügt. Auch Intels CPUs haben hinsichtlich Kernen und SRAM zugelegt.

Nvidias erste Unified-Shader-GPU, die G80 aus dem Jahr 2006, bestand aus 681 Millionen Transistoren, 128 Kernen und 96 kB L2-Cache auf einem Chip mit einer Fläche von 484 mm2. Spulen wir vor ins Jahr 2022, als der AD102 auf den Markt kam und nun 76,3 Milliarden Transistoren, 18.432 Kerne und 98.304 kB L2-Cache auf 608 mm2 Chipfläche umfasst.

Im Jahr 1965 stellte Gordon Moore, Mitbegründer von Fairchild Semiconductor, fest, dass sich in den Anfangsjahren der Chipherstellung die Dichte der Komponenten in einem Chip jedes Jahr verdoppelte, und das zu festen Mindestproduktionskosten. Diese Beobachtung wurde als Moores Gesetz bekannt und später basierend auf Fertigungstrends so interpretiert, dass sich „die Anzahl der Transistoren in einem Chip alle zwei Jahre verdoppelt“.

Das Mooresche Gesetz ist seit fast sechs Jahrzehnten eine einigermaßen genaue Darstellung der Entwicklung der Halbleiterindustrie. Die enormen Zuwächse bei Logik und Speicher sowohl bei CPUs als auch bei GPUs wurden durch kontinuierliche Verbesserungen der Prozessknoten erreicht, wobei die Komponenten im Laufe der Jahre immer kleiner wurden.

Dieser Trend kann jedoch nicht ewig anhalten, unabhängig davon, welche neue Technologie entsteht.

Anstatt darauf zu warten, dass diese Grenze erreicht wird, haben sich Unternehmen wie AMD und Intel den Chiplets zugewandt und verschiedene Möglichkeiten erkundet, sie zu kombinieren, um die Entwicklung immer leistungsfähigerer Prozessoren voranzutreiben.

Jahrzehnte in der Zukunft wird ein durchschnittlicher PC vielleicht handtellergroße CPUs und GPUs beherbergen, aber wenn man den Wärmeverteiler abzieht, findet man eine Vielzahl winziger Chips – nicht drei oder vier, sondern Dutzende davon, alle genial gefliest und gestapelt.

Die Dominanz des Chiplets hat gerade erst begonnen.

Index