Apple ließ dich mehrere Macs zu einem KI-Cluster verbinden — und plötzlich kann eine Heimmaschine Modelle mit einer Billion Parametern laufen lassen
Mit RDMA in macOS kannst du mehrere Mac Studio zu einem KI-Cluster verbinden und enorme Modelle lokal laufen lassen. Wir erklären die Technik, DeepSeek V4 Pros 1,6 Billionen Parameter und wie viel Speicher tatsächlich nötig ist.
Robert Wallin
20 juni 2026
Das ist eine dieser Neuigkeiten, die für die meisten unter dem Radar liefen, die aber ziemlich verrückt ist, wenn man kurz innehält und darüber nachdenkt: Du kannst inzwischen ein paar ganz gewöhnliche Mac-Studio-Kisten mit einem Kabel verbinden und KI-Modelle lokal laufen lassen, die früher einen ganzen Serverraum mit Nvidia-Karten für Hunderttausende von Kronen erfordert hätten.
Der Schlüssel sind drei Buchstaben: RDMA.
Was Apple tatsächlich gemacht hat
In macOS Tahoe 26.2, das am 12. Dezember 2025 ausgerollt wurde, hat Apple Unterstützung für RDMA (Remote Direct Memory Access) über Thunderbolt 5 eingebaut. Kein großer Bühnenmoment auf einer Keynote – es kam in einem Punkt-Update – aber es ist genau das Puzzleteil, das gefehlt hat, damit lokale KI-Cluster sinnvoll werden.
RDMA bedeutet, etwas vereinfacht, dass ein Computer direkt aus dem Speicher eines anderen Computers lesen kann, ohne den Umweg über den Prozessor und den üblichen Netzwerk-Stack zu nehmen. Die Daten werden Speicher-zu-Speicher verschoben. Das Ergebnis: rund 80 Gbit/s Bandbreite zwischen den Maschinen und eine Latenz unter 10 Mikrosekunden.
Warum ist das wichtig? Weil die Maschinen, wenn du ein gigantisches Sprachmodell auf mehrere Computer aufteilst, ständig miteinander reden müssen – für jede Schicht im Modell. Die alte Thunderbolt-Brücke zwang all diesen Verkehr durch den Prozessor und wurde zu einem Flaschenhals, der alles abwürgte. Mit RDMA skaliert es stattdessen nach oben: Füge eine weitere Maschine hinzu, bekomme mehr Tempo. Das ist die ganze Sache.
Auf der Softwareseite passiert das über Apples offenes ML-Framework MLX, zusammen mit einer Kommunikationsbibliothek, die sie JACCL nennen und die RDMA nutzt und selbst herausfindet, wie die Maschinen am besten miteinander reden.
Der Beweis: vier Macs, 1,5 TB Speicher, ein Modell mit einer Billion Parametern
Der beste praktische Test kam vom YouTuber Jeff Geerling, der sich vier Mac Studio mit M3 Ultra von Apple leihen durfte. Zusammen hatten sie 1,5 TB gemeinsamen Speicher und das Preisschild landete knapp unter 40.000 Dollar.
Mit dem Open-Source-Framework EXO ließ er unter anderem Kimi K2 Thinking laufen – ein Modell mit einer Billion (1.000 Milliarden) Parametern – mit rund 28 Tokens pro Sekunde über die vier Knoten. DeepSeeks 671B-Modell lief mit gut 30 Tokens pro Sekunde. Nicht blitzschnell, aber durchaus brauchbar, und komplett lokal auf deiner eigenen Hardware.
Der spannende Teil: Wie groß ist „DeepSeek V4 Pro“ eigentlich?
Hier wird es interessant, denn viele unterschätzen, wie wahnsinnig groß die neuesten Open-Source-Modelle geworden sind.
DeepSeek V4 Pro, das am 24. April 2026 in einer Vorabversion erschien, hat nicht „ein paar hundert Milliarden“ Parameter. Es hat 1,6 Billionen (1,6T) Parameter – also 1.600 Milliarden. (Es ist vom MoE-Typ, sodass nur 49 Milliarden davon für jeden Token aktiv sind, aber das ist eine andere Sache – dazu gleich mehr.) Zum Vergleich: DeepSeek V3 hatte 671 Milliarden, und Kimi K2 lag bei rund einer Billion. V4 Pro ist also in einer ganz eigenen Gewichtsklasse.
Wie viel Speicher würde es also erfordern, um dieses Monster lokal laufen zu lassen? Die Rechnung ist eigentlich einfach: Anzahl der Parameter mal Anzahl der Bytes pro Parameter.
Volle Genauigkeit (FP16, 2 Byte/Parameter): 1,6T × 2 = 3.200 GB, also 3,2 TB allein für die Gewichte.
8-Bit (1 Byte): 1.600 GB.
4-Bit (~0,5 Byte): 800 GB.
Rechne 15–30 % für Nebenkosten (KV-Cache und Ähnliches) drauf, dann landest du, bei 4-Bit-Quantisierung, bei knapp 1 TB Speicher. Das bedeutet, dass Geerlings Vier-Mac-Cluster mit 1,5 TB tatsächlich ein Modell mit 1,6 Billionen Parametern gleichzeitig im Speicher halten könnte. Lass diesen Gedanken sacken: ein Modell, das größer ist, als OpenAI oder Google offiziell die Größe von irgendetwas bestätigt haben, betrieben in einem Wohnzimmer.
Ein wichtiges Detail, das die Leute oft übersehen: Auch wenn ein MoE-Modell nur einen Bruchteil der Parameter pro Token aktiviert, muss das gesamte Modell trotzdem im Speicher liegen. Du weißt nicht im Voraus, welche „Experten“ das nächste Wort braucht, also müssen alle verfügbar sein. Dass nur ein Teil aktiviert wird, spart Rechenleistung – nicht Speicher.
Aber kann ich nicht einfach einen normalen PC mit billigem RAM vollstopfen?
Das ist die Frage, von der ich weiß, dass sich viele sie nach dem Anschauen der YouTube-Clips stellen, und die Antwort ist interessanter, als man denkt.
Bei der KI-Inferenz ist es nicht die Menge an Speicher, die das Tempo bestimmt, sondern die Speicherbandbreite – wie schnell der Prozessor die Gewichte aus dem Speicher lesen kann, für jeden Token. Und hier kommt das Detail, das fast alle übersehen: Apples Geheimnis ist kein magischer Speicher, sondern ein riesig breiter Speicherbus.
Der M3 Ultra fährt nämlich ganz normalen LPDDR5-Speicher mit 6.400 MT/s – im Prinzip dieselbe Datenrate wie ein DDR5-6400 in einem Gaming-PC. Der einzige Unterschied ist, wie viele „Fahrspuren“ die Speicher-Autobahn hat:
Normaler Desktop (i5/i7/Ryzen): 2 Speicherkanäle, also ein 128 Bit breiter Bus. DDR4 ≈ 50 GB/s, DDR5 ≈ 100 GB/s.
Mac Studio M3 Ultra: 8 Kanäle (1.024 Bit breiter Bus) → rund 819 GB/s.
Die Antwort auf deine nächste Frage – hilft es, auf DDR5 umzusteigen? – lautet also: ein bisschen. DDR5 verdoppelt die Bandbreite gegenüber DDR4 ungefähr, aber du bist immer noch rund achtmal unter dem Mac. Die Art des Speichers spielt fast keine Rolle; die Anzahl der Kanäle ist alles.
Und ein alter i5 (sagen wir 10. Generation) ist tatsächlich doppelt bestraft: Die Plattform nimmt maximal 128 GB RAM – ein Riesenmodell passt nicht einmal hinein – und sie fährt nur 2 Kanäle. Mehrere solcher Maschinen über normales Gigabit-Ethernet (0,125 GB/s) zu einem Cluster zusammenzuschließen, macht es nur schlimmer: Dann wird das Netz zu einem noch engeren Flaschenhals als der Speicher.
Der billige Trick: ein gebrauchter Server-Kasten mit breitem Bus
Wenn man den Mac auf Budget nachahmen will, kauft man also keinen Desktop-PC – man kauft den Bus. Ein gebrauchter AMD-EPYC-Server (SP3-Sockel, Generation „Rome“ oder „Milan“) hat 8 Speicherkanäle und landet bei rund 200 GB/s – viermal so viel wie ein normaler PC, und im selben Bereich wie eine echte KI-Maschine. Mainboard plus Prozessor sind auf dem Gebrauchtmarkt für unter 10.000 kr zu bekommen, und den billigsten Serverspeicher (DDR4-2666 ECC) kauft man quasi eimerweise.
Die Leute machen genau das schon: Ein EPYC-Kasten mit 512 GB für rund 2.000 Dollar fährt DeepSeek 671B mit ungefähr 3,5–4 Tokens pro Sekunde auf reiner Prozessorleistung – ganz ohne Grafikkarte, unter Ubuntu mit llama.cpp. Nicht schnell, aber es funktioniert, und das gesamte Riesenmodell liegt in einer einzigen Kiste im RAM.
Zwei Fallen, wenn du es ausprobierst: Kauf einen EPYC mit vielen Chiplets (CCDs) – etwa einen 7702 oder 7642, nicht die billigsten mit wenigen Kernen, sonst halbiert sich die Bandbreite – und füll alle acht Kanäle, denn halb gefüllt gibt halbes Tempo.
Und das ist genau der Punkt: Ein einziger fetter Server schlägt ein Cluster aus schmalen Kisten. Innerhalb einer Kiste ist der Speicherbus selbst das „Netzwerk“ (~200 GB/s), während ein Cluster Daten zwischen den Maschinen über ein Netz schaufeln muss, das im besten Fall 10 GB/s und im schlimmsten Fall ein Hundertstel davon beträgt. Steckst du alles in eine Maschine, sparst du dir das langsamste Glied komplett. Apple hat dasselbe Problem mit Thunderbolt 5 und RDMA gelöst; auf der PC-Seite sind gebrauchte InfiniBand-Karten der billigste Weg, ein Äquivalent zu bekommen – aber am einfachsten von allem ist es, gar nicht erst zu clustern.
Die neue Abkürzung: eine kleine Kiste mit breitem Bus
Seit sich diese YouTube-Clips zu verbreiten begannen, ist ein Mittelding aufgetaucht, das eine Erwähnung wert ist – eine kleine, fertig gebaute Kiste mit genau diesem breiten Speicherbus, ohne dass du mit gebrauchten Serverteilen herumbasteln musst.
Das deutlichste Beispiel ist der GMKtec EVO-X3 (globaler Marktstart am 29. Juni 2026), gebaut um AMDs neue Flaggschiff-APU Ryzen AI Max+ 395 („Strix Halo“). Er hat 128 GB LPDDR5X, die zwischen Prozessor und Grafik geteilt werden – dasselbe „Unified Memory“-Prinzip, das Apple fährt. Der Bus ist 256 Bit breit und liefert in der Theorie 256 GB/s (in der Praxis etwas weniger). Weit entfernt von den 819 GB/s des Mac Studio, aber ungefähr 2,5-mal so viel wie ein normaler Desktop-PC – und alles in einer Kiste so groß wie eine PS4, ganz ohne Cluster. Eine noch stärkere Variante mit 192 GB Speicher (Ryzen AI Max+ PRO 495) ist zudem für später im Jahr 2026 angekündigt.
Auf der KI-Seite kannst du unter Windows bis zu 96 GB des Speichers als „Grafikspeicher“ abzweigen (unter Linux noch mehr). Das reicht, um ein dichtes 70-Milliarden-Modell in 4-Bit zu halten, oder quantisierte Modelle bis hin zu 128 Milliarden Parametern. MoE-Modelle – wie DeepSeeks kleinere Varianten – sind wie geschaffen für so eine Maschine: großes Modell auf der Festplatte, aber nur ein Bruchteil pro Token aktiv. Was du nicht erwarten solltest, ist, das ganze 1,6-Billionen-Monster hineinzustopfen; dafür reichen weder die 128 GB noch die Bandbreite.
Und der Preis ist der interessante Teil. GMKtec hat für den EVO-X3 noch kein offizielles Preisschild festgelegt, aber das Schwestermodell EVO-X2 – exakt derselbe Chip und 128 GB – liegt bei rund 2.000 Dollar. Stell das einem einzigen Mac Studio M3 Ultra gegenüber, der bei 3.999 Dollar beginnt (und Geerlings Vier-Mac-Cluster für 40.000 Dollar), dann siehst du den Punkt: Wenn du ein großes – wenn auch nicht gigantisches – Modell lokal laufen lassen willst, ist so eine kleine Kiste heute der billigste Weg, um sowohl viel Speicher als auch einen einigermaßen breiten Bus in einem Kauf zu bekommen.
Warum sollte man KI überhaupt lokal laufen lassen wollen?
Ein paar richtig gute Gründe, tatsächlich:
Privatsphäre und Datenschutz. Alle Daten bleiben auf deiner eigenen Maschine. Für schwedische Gesundheitsversorgung, Justiz und Wirtschaft – wo GDPR und bald der AI Act der EU (die Sanktionen treten laut aktuellem Zeitplan am 2. August 2026 in Kraft) harte Anforderungen stellen – ist das eine große Sache. Nimm noch den CLOUD Act hinzu, der US-Behörden das Recht auf Daten bei amerikanischen Cloud-Anbietern gibt, selbst wenn sie in der EU liegen, und es wird zu einem konkreten Argument, sensible Daten auf eigener Hardware zu halten.
Kein Abo. Sobald das Modell einmal heruntergeladen ist, ist jede Frage gratis. Keine Gebühren pro Token.
Funktioniert offline und hört nicht auf zu funktionieren, weil irgendein Anbieter die Bedingungen ändert oder den Preis hochzieht.
Und qualitativ ist die Lücke deutlich geschrumpft. DeepSeek V4 Pro liegt jetzt absolut an der Spitze unter den offenen Modellen und nähert sich den geschlossenen Spitzenmodellen von OpenAI und Anthropic – zu einem Bruchteil der Kosten. Für das allerschwierigste Denken führen Claude und GPT noch immer, aber für das meiste, was normale Leute tun, sind die offenen Modelle inzwischen mehr als tauglich.
Und hier wird es rechtlich richtig interessant: In der Theorie kann man dann eine KI nahezu der Spitzenklasse völlig legal auf eigener Hardware aufsetzen. Modelle wie DeepSeek V4 und Kimi K2 werden unter offenen Lizenzen (MIT beziehungsweise eine MIT-Variante) veröffentlicht, die auch die kommerzielle Nutzung erlauben, die Gewichte lädst du gratis herunter, und da keine Daten das Haus verlassen, sparst du dir sowohl das Cloud-Abo als auch die Frage nach amerikanischer Gesetzgebung über europäische personenbezogene Daten. Für eine schwedische Gesundheitszentrale, Anwaltskanzlei oder Buchhaltungskanzlei ist das kein kleines Detail.
Der ehrliche Vorbehalt
Bevor du das Auto verkaufst, um einen Mac-Cluster zu bauen: Das ist nach wie vor eine Nische für Enthusiasten und Profis, nicht für den Durchschnittsmenschen.
Der Durchsatz (25–32 Tokens pro Sekunde) ist nicht annähernd das, was ein echtes Nvidia-Rechenzentrum schafft, wenn es Tausende von Nutzern gleichzeitig bedienen soll. Der Mac-Cluster gewinnt bei Speicher, Preis und Stromverbrauch – nicht bei roher Geschwindigkeit. Und noch eine Sache: Apple hat die 512-GB-Konfiguration des Mac Studio im März 2026 wegen der globalen Speicherknappheit zurückgezogen, sodass die neue Maschine derzeit bei 256 GB endet. Wenn du einen ordentlichen Speicher-Cluster bauen willst, musst du gebraucht suchen oder warten.
Aber die Richtung ist zweifellos beeindruckend. Vor nur einem Jahr war „ein Modell mit einer Billion Parametern zu Hause laufen lassen“ reine Science-Fiction. Jetzt sind es ein Kabel, vier Kisten und ein Wochenendprojekt.
Lust, eine eigene KI-Maschine zu bauen, oder sitzt du auf Apple-Hardware, die du nicht mehr nutzt? Auf TechFlip kaufst und verkaufst du gebrauchte Mac-Computer und Komponenten direkt zwischen Privatpersonen – ohne Zwischenhändler.
– Robert Wallin
Dieser Artikel wurde mit KI-Unterstützung aus dem schwedischen Original übersetzt. Inhaltlich ist er gleichwertig – vereinzelte Übersetzungsfehler sind aber möglich.