Nyheter 8 min lasning

Apple lod dig binde flere Mac'er sammen til en AI-klynge — og pludselig kan en hjemmerig køre modeller på en billion parametre

Med RDMA i macOS kan du koble flere Mac Studio sammen til en AI-klynge og køre enorme modeller lokalt. Vi gennemgår teknologien, DeepSeek V4 Pro's 1,6 billioner parametre og hvor meget hukommelse der faktisk kræves.

Robert Wallin

20 juni 2026

16 visningar

AppleMacAIRDMADeepSeeklokal AIMLX

Det her er en af de der nyheder, der gik under radaren for de fleste, men som er ret vild, når man stopper op og tænker over den: du kan nu koble nogle helt almindelige Mac Studio-kasser sammen med et kabel og køre AI-modeller lokalt, som tidligere krævede et helt serverrum med Nvidia-kort til hundredtusindvis af kroner.

Nøglen er tre bogstaver: RDMA.

Hvad Apple faktisk gjorde

I macOS Tahoe 26.2, som blev rullet ud den 12. december 2025, lagde Apple understøttelse af RDMA (Remote Direct Memory Access) over Thunderbolt 5 ind. Ingen stor scenebegivenhed på en keynote — det kom i en punktopdatering — men det er præcis den brik, der har manglet, for at lokale AI-klynger giver mening.

RDMA betyder, lidt forenklet, at en computer kan læse direkte fra en anden computers hukommelse uden at gå omvejen via processoren og den almindelige netværksstak. Dataene flyttes hukommelse-til-hukommelse. Resultatet: omkring 80 Gbit/s båndbredde mellem maskinerne og en latens under 10 mikrosekunder.

Hvorfor betyder det noget? Fordi når du deler en gigantisk sprogmodel op over flere computere, er maskinerne nødt til at snakke sammen hele tiden — for hvert lag i modellen. Den gamle Thunderbolt-bro tvang al den trafik gennem processoren og blev en flaskehals, der kvalte det hele. Med RDMA skalerer det i stedet opad: tilføj en maskine mere, få mere fart. Det er hele pointen.

På softwaresiden sker det via Apples åbne ML-framework MLX, sammen med et kommunikationsbibliotek, de kalder JACCL, som udnytter RDMA og selv regner ud, hvordan maskinerne bedst snakker sammen.

Beviset: fire Mac'er, 1,5 TB hukommelse, en model på en billion parametre

Den bedste praktiske test kom fra YouTuberen Jeff Geerling, som fik låne fire Mac Studio med M3 Ultra af Apple. Tilsammen havde de 1,5 TB delt hukommelse, og prisskiltet landede lige under 40.000 dollars.

Med open source-frameworket EXO kørte han blandt andet Kimi K2 Thinking — en model på en billion (1.000 milliarder) parametre — i omkring 28 tokens per sekund over de fire noder. DeepSeeks 671B-model snurrede afsted i godt 30 tokens per sekund. Ikke lynhurtigt, men fuldt anvendeligt, og helt lokalt på din egen hardware.

Den sjove del: hvor stor er "DeepSeek V4 Pro" egentlig?

Her bliver det interessant, for mange undervurderer, hvor vanvittigt store de nyeste open source-modeller er blevet.

DeepSeek V4 Pro, som udkom i forhåndsversion den 24. april 2026, er ikke "et par hundrede milliarder" parametre. Den er 1,6 billioner (1,6T) parametre — altså 1.600 milliarder. (Den er af MoE-typen, så kun 49 milliarder af dem er aktive for hver token, men det er en anden sag — mere om det om lidt.) Til sammenligning: DeepSeek V3 var 671 milliarder, og Kimi K2 lå omkring en billion. V4 Pro er altså i sin helt egen vægtklasse.

Så hvor meget hukommelse ville der kræves for at køre det monster lokalt? Regnestykket er faktisk enkelt: antal parametre gange antal byte per parameter.

Fuld præcision (FP16, 2 byte/parameter): 1,6T × 2 = 3.200 GB, altså 3,2 TB bare til vægtene.
8-bit (1 byte): 1.600 GB.
4-bit (~0,5 byte): 800 GB.

Læg 15-30 % oven i til ekstraomkostninger (KV-cache og lignende), så lander du, i 4-bit kvantisering, på knap 1 TB hukommelse. Det betyder, at Geerlings klynge af fire Mac'er på 1,5 TB faktisk ville kunne holde en model på 1,6 billioner parametre i hukommelsen samtidig. Lad lige den tanke synke ind: en model, der er større end noget, OpenAI eller Google officielt har bekræftet størrelsen på, kørt i en dagligstue.

En vigtig detalje, som folk ofte overser: selvom en MoE-model kun aktiverer en brøkdel af parametrene per token, skal hele modellen alligevel ligge i hukommelsen. Du ved ikke på forhånd, hvilke "eksperter" det næste ord har brug for, så de skal alle være tilgængelige. At kun en del aktiveres sparer beregningskraft — ikke hukommelse.

Men kan jeg ikke bare proppe en almindelig pc fuld af billig RAM?

Det er spørgsmålet, jeg ved, mange stiller sig selv efter at have set YouTube-klippene, og svaret er mere interessant, end man tror.

Ved AI-inferens er det ikke, hvor meget hukommelse du har, der sætter farten, men hukommelsesbåndbredden — hvor hurtigt processoren kan læse vægtene ud af hukommelsen, for hver token. Og her kommer detaljen, næsten alle overser: Apples hemmelighed er ikke en eller anden magisk hukommelse, men en kæmpebred hukommelsesbus.

M3 Ultra kører nemlig helt almindelig LPDDR5-hukommelse på 6.400 MT/s — i princippet samme datahastighed som en DDR5-6400 i en spillecomputer. Det eneste, der adskiller dem, er, hvor mange "vognbaner" hukommelsesmotorvejen har:

Almindelig desktop (i5/i7/Ryzen): 2 hukommelseskanaler, altså en 128 bit bred bus. DDR4 ≈ 50 GB/s, DDR5 ≈ 100 GB/s.
Mac Studio M3 Ultra: 8 kanaler (1.024 bit bred bus) → omkring 819 GB/s.

Så svaret på dit næste spørgsmål — hjælper det at skifte til DDR5? — er: lidt. DDR5 fordobler omtrent båndbredden i forhold til DDR4, men du er stadig omkring otte gange under Mac'en. Typen af hukommelse betyder næsten ingenting; antallet af kanaler er alt.

Og en gammel i5'er (lad os sige 10. generation) er faktisk dobbelt straffet: platformen tager maks 128 GB RAM — en kæmpemodel kan ikke engang være der — og den kører kun 2 kanaler. At klynge flere af den slags sammen over almindelig gigabit-ethernet (0,125 GB/s) gør det bare værre: så bliver nettet en endnu trangere flaskehals end hukommelsen.

Det billige trick: en brugt serverkasse med bred bus

Vil man efterligne Mac'en på budget, køber man altså ikke en stationær pc — man køber bussen. En brugt AMD EPYC-server (SP3-sokkel, generationen "Rome" eller "Milan") har 8 hukommelseskanaler og lander på omkring 200 GB/s — fire gange en almindelig pc, og i samme boldgade som en rigtig AI-rig. Bundkort plus processor kan fås for under 10.000 kr på brugtmarkedet, og den billigste serverhukommelse (DDR4-2666 ECC) køber man nærmest i spandevis.

Folk gør allerede præcis det her: en EPYC-kasse med 512 GB til omkring 2.000 dollars kører DeepSeek 671B i cirka 3,5-4 tokens per sekund på ren processorkraft — helt uden grafikkort, på Ubuntu med llama.cpp. Ikke hurtigt, men det virker, og hele kæmpemodellen ligger i RAM i en enkelt kasse.

To fælder, hvis du prøver: køb en EPYC med mange chiplets (CCD'er) — typisk 7702 eller 7642, ikke de billigste fåkernede, ellers halveres båndbredden — og fyld alle otte kanaler op, for halvt fyldt giver halv fart.

Og det er netop pointen: en enkelt fed server slår en klynge af smalle kasser. Inde i én kasse er hukommelsesbussen i sig selv "netværket" (~200 GB/s), mens en klynge er nødt til at skovle data mellem maskinerne over et net, der i bedste fald er 10 GB/s og i værste fald en hundrededel af det. Putter du det hele i én maskine, slipper du helt for det langsomste led. Apple løste det samme problem med Thunderbolt 5 og RDMA; på pc-siden er brugte InfiniBand-kort den billigste måde at få noget tilsvarende på — men det allernemmeste er slet ikke at lave en klynge.

Den nye genvej: en lille kasse med bred bus

Siden de der YouTube-klip begyndte at sprede sig, er der dukket en mellemting op, som er værd at nævne — en lille færdigbygget kasse med netop den brede hukommelsesbus, uden at du behøver at fedte med brugte serverdele.

Det tydeligste eksempel er GMKtec EVO-X3 (global lancering den 29. juni 2026), bygget op om AMD's nye flagskibs-APU Ryzen AI Max+ 395 ("Strix Halo"). Den har 128 GB LPDDR5X, der deles mellem processor og grafik — samme "unified memory"-princip, som Apple kører. Bussen er 256 bit bred og giver 256 GB/s i teorien (lidt lavere i praksis). Langt fra Mac Studios 819 GB/s, men cirka 2,5 gange en almindelig stationær pc — og det hele i en kasse på størrelse med en PS4, helt uden klynge. En endnu kraftigere variant med 192 GB hukommelse (Ryzen AI Max+ PRO 495) er desuden bebudet senere i 2026.

På AI-siden kan du under Windows reservere op til 96 GB af hukommelsen som "grafikhukommelse" (endnu mere under Linux). Det er nok til at holde en tæt 70-milliarders-model i 4-bit, eller kvantiserede modeller op mod 128 milliarder parametre. MoE-modeller — som DeepSeeks mindre varianter — er som skabt til sådan en maskine: stor model på disken, men kun en brøkdel aktiv per token. Det, du ikke skal forvente, er at proppe hele 1,6-billioners-monstret ind; til det rækker hverken 128 GB eller båndbredden.

Og prisen er den interessante del. GMKtec har endnu ikke sat noget officielt prisskilt på EVO-X3, men søstermodellen EVO-X2 — præcis samme chip og 128 GB — ligger omkring 2.000 dollars. Stil det op mod en enkelt Mac Studio M3 Ultra, der starter ved 3.999 dollars (og Geerlings klynge af fire Mac'er til 40.000 dollars), så ser du pointen: vil du køre en stor — om end ikke gigantisk — model lokalt, er sådan en lille kasse i dag den billigste måde at få både meget hukommelse og en nogenlunde bred bus i samme køb.

Hvorfor skulle man overhovedet ville køre AI lokalt?

Et par rigtig gode grunde, faktisk:

Privatliv og databeskyttelse. Alle data bliver på din egen maskine. For svensk sundhedsvæsen, jura og økonomi — hvor GDPR og snart EU's AI Act (sanktionerne træder i kraft 2. august 2026 ifølge den nuværende tidsplan) stiller hårde krav — er det her en stor ting. Læg CLOUD Act oven i, som giver amerikanske myndigheder ret til data hos amerikanske cloud-udbydere, selv når de ligger i EU, og så bliver det et konkret argument for at holde følsomme oplysninger på egen hardware.
Intet abonnement. Når modellen først er hentet ned, er hvert spørgsmål gratis. Ingen afgifter per token.
Virker offline og holder ikke op med at virke, fordi en udbyder ændrer vilkårene eller skruer prisen op.

Og kvalitetsmæssigt er gabet skrumpet betydeligt. DeepSeek V4 Pro ligger nu helt i front blandt åbne modeller og snuser til de lukkede topmodeller fra OpenAI og Anthropic — til en brøkdel af prisen. Til den allersværeste tænkning fører Claude og GPT stadig, men til det meste af det, almindelige mennesker laver, er de åbne modeller nu mere end duelige.

Og her bliver det rigtig interessant juridisk: i teorien kan man så sætte en AI i nær topklasse op helt lovligt på egen hardware. Modeller som DeepSeek V4 og Kimi K2 udgives under åbne licenser (henholdsvis MIT og en MIT-variant), som også tillader kommerciel brug, vægtene henter du gratis, og eftersom ingen data forlader huset, slipper du både for cloud-abonnement og spørgsmålet om amerikansk lovgivning over europæiske personoplysninger. For en svensk lægeklinik, et advokatfirma eller et revisionsfirma er det ikke en lille detalje.

Det ærlige forbehold

Før du sælger bilen for at bygge en Mac-klynge: det her er stadig en niche for entusiaster og professionelle, ikke for menigmand.

Gennemstrømningen (25-32 tokens per sekund) er ikke i nærheden af, hvad et rigtigt Nvidia-datacenter klarer, når det skal betjene tusindvis af brugere samtidig. Mac-klyngen vinder på hukommelse, pris og strømforbrug — ikke på rå hastighed. Og en ting til: Apple trak 512 GB-konfigurationen tilbage af Mac Studio i marts 2026 på grund af den globale hukommelsesmangel, så lige nu topper den nye maskine på 256 GB. Vil du bygge en ordentlig hukommelsesklynge, må du lede efter brugt eller vente.

Men retningen er unægtelig fed. For bare et år siden var "kør en model på en billion parametre derhjemme" ren science fiction. Nu er det et kabel, fire kasser og et weekendprojekt.

Lyst til at bygge din egen AI-rig, eller sidder du på Apple-hardware, du ikke længere bruger? På TechFlip køber og sælger du brugte Mac-computere og komponenter direkte mellem privatpersoner — uden mellemled.

– Robert Wallin

Denne artikel er oversat fra den svenske original ved hjælp af AI. Indholdet er det samme – men enkelte oversættelsesfejl kan forekomme.

Tillbaka till Bulletin Board