Nyheter 8 min lasning

Apple lot deg knytte sammen flere Macer til en AI-klynge — og plutselig kan en hjemmerigg kjøre modeller på en billion parametere

Med RDMA i macOS kan du koble sammen flere Mac Studio til en AI-klynge og kjøre enorme modeller lokalt. Vi tar for oss teknikken, DeepSeek V4 Pros 1,6 billioner parametere og hvor mye minne som faktisk kreves.

Robert Wallin

20 juni 2026

16 visningar

AppleMacAIRDMADeepSeeklokal AIMLX

Dette er en av de nyhetene som gikk under radaren for de fleste, men som er ganske vill når man stopper opp og tenker på den: du kan nå koble sammen noen vanlige Mac Studio-bokser med én kabel og kjøre AI-modeller lokalt som tidligere krevde et helt serverrom med Nvidia-kort til hundretusenvis av kroner.

Nøkkelen er tre bokstaver: RDMA.

Hva Apple faktisk gjorde

I macOS Tahoe 26.2, som ble rullet ut 12. desember 2025, la Apple inn støtte for RDMA (Remote Direct Memory Access) over Thunderbolt 5. Ingen stor scenesak på en keynote — det kom i en punktoppdatering — men det er nettopp den brikken som har manglet for at lokale AI-klynger skal bli fornuftige.

RDMA betyr, litt forenklet, at en datamaskin kan lese direkte fra en annen datamaskins minne uten å ta omveien via prosessoren og den vanlige nettverksstakken. Dataene flyttes minne-til-minne. Resultatet: rundt 80 Gbit/s båndbredde mellom maskinene og en latens under 10 mikrosekunder.

Hvorfor spiller det noen rolle? Fordi når du deler opp en gigantisk språkmodell over flere datamaskiner, må maskinene snakke med hverandre hele tiden — for hvert lag i modellen. Den gamle Thunderbolt-broen tvang all den trafikken gjennom prosessoren og ble en flaskehals som strupet alt. Med RDMA skalerer det i stedet oppover: legg til en maskin til, få mer fart. Det er hele poenget.

På programvaresiden skjer det via Apples åpne ML-rammeverk MLX, sammen med et kommunikasjonsbibliotek de kaller JACCL som utnytter RDMA og selv finner ut hvordan maskinene best snakker med hverandre.

Beviset: fire Macer, 1,5 TB minne, en modell på en billion parametere

Den beste praktiske testen kom fra YouTuberen Jeff Geerling, som fikk låne fire Mac Studio med M3 Ultra av Apple. Til sammen hadde de 1,5 TB delt minne, og prislappen landet rett under 40 000 dollar.

Med open source-rammeverket EXO kjørte han blant annet Kimi K2 Thinking — en modell på en billion (1 000 milliarder) parametere — i rundt 28 tokens per sekund over de fire nodene. DeepSeeks 671B-modell snurret på i drøyt 30 tokens per sekund. Ikke lynraskt, men fullt brukbart, og helt lokalt på din egen maskinvare.

Den morsomme delen: hvor stor er egentlig "DeepSeek V4 Pro"?

Her blir det interessant, for mange undervurderer hvor vanvittig store de nyeste open source-modellene har blitt.

DeepSeek V4 Pro, som ble sluppet i forhåndsversjon 24. april 2026, er ikke "noen hundre milliarder" parametere. Den er 1,6 billioner (1,6T) parametere — altså 1 600 milliarder. (Den er av MoE-typen, så bare 49 milliarder av dem er aktive for hvert token, men det er en annen sak — mer om det straks.) Til sammenligning: DeepSeek V3 var 671 milliarder, og Kimi K2 lå rundt en billion. V4 Pro er altså i en helt egen vektklasse.

Så hvor mye minne ville det kreve å kjøre det monsteret lokalt? Regnestykket er faktisk enkelt: antall parametere ganger antall byte per parameter.

Full presisjon (FP16, 2 byte/parameter): 1,6T × 2 = 3 200 GB, altså 3,2 TB bare til vektene.
8-bits (1 byte): 1 600 GB.
4-bits (~0,5 byte): 800 GB.

Legg på 15–30 % for tilleggskostnader (KV-cache og lignende), så lander du, i 4-bits kvantisering, på knapt 1 TB minne. Det betyr at Geerlings fire-Macer-klynge på 1,5 TB faktisk kunne holde en modell på 1,6 billioner parametere i minnet samtidig. La den tanken synke inn: en modell større enn noe OpenAI eller Google offisielt har bekreftet størrelsen på, kjørt i en stue.

En viktig detalj som folk ofte overser: selv om en MoE-modell bare aktiverer en brøkdel av parameterne per token, må hele modellen likevel ligge i minnet. Du vet ikke på forhånd hvilke "eksperter" det neste ordet trenger, så alle må være tilgjengelige. At bare en del aktiveres, sparer regnekraft — ikke minne.

Men kan jeg ikke bare proppe en vanlig PC full av billig RAM?

Det er spørsmålet jeg vet at mange stiller seg etter å ha sett YouTube-klippene, og svaret er mer interessant enn man skulle tro.

Ved AI-inferens er det ikke hvor mye minne du har som setter farten, men minnebåndbredden — hvor raskt prosessoren kan lese vektene fra minnet, for hvert token. Og her kommer detaljen nesten alle overser: Apples hemmelighet er ikke noe magisk minne, men en kjempebred minnebuss.

M3 Ultra kjører nemlig vanlig LPDDR5-minne på 6 400 MT/s — i prinsippet samme datahastighet som en DDR5-6400 i en spill-PC. Det eneste som skiller, er hvor mange "kjørefelt" minnemotorveien har:

Vanlig desktop (i5/i7/Ryzen): 2 minnekanaler, altså en 128 bit bred buss. DDR4 ≈ 50 GB/s, DDR5 ≈ 100 GB/s.
Mac Studio M3 Ultra: 8 kanaler (1 024 bit bred buss) → rundt 819 GB/s.

Så svaret på ditt neste spørsmål — hjelper det å bytte til DDR5? — er: litt. DDR5 omtrent dobler båndbredden mot DDR4, men du er fortsatt rundt åtte ganger under Mac-en. Typen minne spiller nesten ingen rolle; antallet kanaler er alt.

Og en gammel i5 (si 10. generasjon) er faktisk dobbelt straffet: plattformen tar maks 128 GB RAM — en kjempemodell får ikke en gang plass — og den kjører bare 2 kanaler. Å klynge sammen flere slike over vanlig gigabit-ethernet (0,125 GB/s) gjør det bare verre: da blir nettet en enda trangere flaskehals enn minnet.

Det billige trikset: en brukt serverboks med bred buss

Vil man herme etter Mac-en på budsjett, kjøper man altså ikke en stasjonær PC — man kjøper bussen. En brukt AMD EPYC-server (SP3-sokkel, generasjon "Rome" eller "Milan") har 8 minnekanaler og lander på rundt 200 GB/s — fire ganger en vanlig PC, og i samme sjikt som en ekte AI-rigg. Hovedkort pluss prosessor er mulig å få under 10 000 kr på bruktmarkedet, og det billigste serverminnet (DDR4-2666 ECC) kjøper man nærmest i bøtter.

Folk gjør allerede akkurat dette: en EPYC-boks med 512 GB for rundt 2 000 dollar kjører DeepSeek 671B i omtrent 3,5–4 tokens per sekund på ren prosessorkraft — helt uten grafikkort, på Ubuntu med llama.cpp. Ikke raskt, men det funker, og hele kjempemodellen ligger i RAM i én eneste boks.

To feller om du prøver: kjøp en EPYC med mange chiplets (CCD-er) — typ 7702 eller 7642, ikke de billigste fåkjernede, ellers halveres båndbredden — og fyll alle åtte kanalene, for halvfylt gir halv fart.

Og det er selve poenget: en enkelt fet server slår en klynge av smale bokser. Inni én boks er minnebussen i seg selv "nettverket" (~200 GB/s), mens en klynge må skuffle data mellom maskinene over et nett som i beste fall er 10 GB/s og i verste fall en hundredel av det. Putter du alt i én maskin, slipper du det tregeste leddet helt. Apple løste det samme problemet med Thunderbolt 5 og RDMA; på PC-siden er brukte InfiniBand-kort den billigste måten å få det tilsvarende — men enklest av alt er å ikke klynge i det hele tatt.

Den nye snarveien: en liten boks med bred buss

Siden de YouTube-klippene begynte å spre seg, har det dukket opp et mellomting som er verdt å nevne — en liten ferdigbygd boks med nettopp den brede minnebussen, uten at du trenger å mekke med brukte serverdeler.

Det tydeligste eksempelet er GMKtec EVO-X3 (global lansering 29. juni 2026), bygd rundt AMDs nye flaggskip-APU Ryzen AI Max+ 395 ("Strix Halo"). Den har 128 GB LPDDR5X som deles mellom prosessor og grafikk — samme "unified memory"-prinsipp som Apple kjører. Bussen er 256 bit bred og gir 256 GB/s i teorien (noe lavere i praksis). Langt fra Mac Studios 819 GB/s, men omtrent 2,5 ganger en vanlig stasjonær PC — og alt i en boks så stor som en PS4, helt uten klynge. En enda kraftigere variant med 192 GB minne (Ryzen AI Max+ PRO 495) er dessuten varslet senere i 2026.

På AI-siden kan du under Windows sette av opptil 96 GB av minnet som "grafikkminne" (enda mer under Linux). Det holder til å holde en tett 70-milliardersmodell i 4-bits, eller kvantiserte modeller opp mot 128 milliarder parametere. MoE-modeller — som DeepSeeks mindre varianter — er som skapt for en slik maskin: stor modell på disken, men bare en brøkdel aktiv per token. Det du ikke skal forvente, er å proppe inn hele 1,6-billionersmonsteret; til det holder verken 128 GB eller båndbredden.

Og prisen er den interessante biten. GMKtec har ennå ikke satt noen offisiell prislapp på EVO-X3, men søstermodellen EVO-X2 — nøyaktig samme brikke og 128 GB — ligger rundt 2 000 dollar. Sett det opp mot én enkelt Mac Studio M3 Ultra som starter på 3 999 dollar (og Geerlings fire-Macer-klynge på 40 000 dollar), så ser du poenget: vil du kjøre en stor — om enn ikke gigantisk — modell lokalt, er en slik liten boks i dag den billigste måten å få både mye minne og en nokså bred buss i samme kjøp.

Hvorfor skulle man i det hele tatt ville kjøre AI lokalt?

Noen virkelig gode grunner, faktisk:

Personvern og databeskyttelse. Alle data blir på din egen maskin. For svensk helsevesen, juss og økonomi — der GDPR og snart EUs AI Act (sanksjonene begynner å gjelde 2. august 2026 ifølge gjeldende tidsplan) setter harde krav — er dette en stor sak. Legg til CLOUD Act, som gir amerikanske myndigheter rett til data hos amerikanske skyleverandører selv når den ligger i EU, og det blir et konkret argument for å holde sensitive opplysninger på egen maskinvare.
Ingen abonnement. Når modellen først er lastet ned, er hvert spørsmål gratis. Ingen per-token-avgifter.
Fungerer offline og slutter ikke å virke fordi en leverandør endrer vilkårene eller setter opp prisen.

Og kvalitetsmessig har gapet krympet kraftig. DeepSeek V4 Pro ligger nå helt i front blant åpne modeller og nærmer seg de lukkede toppmodellene fra OpenAI og Anthropic — til en brøkdel av kostnaden. For den aller vanskeligste tenkningen leder Claude og GPT fortsatt, men for det meste vanlige folk gjør, er de åpne modellene nå mer enn gode nok.

Og her blir det virkelig interessant juridisk: i teorien kan man da sette opp en AI nær toppklasse helt lovlig på egen maskinvare. Modellene som DeepSeek V4 og Kimi K2 slippes under åpne lisenser (henholdsvis MIT og en MIT-variant) som tillater også kommersiell bruk, vektene laster du ned gratis, og siden ingen data forlater huset, slipper du både skyabonnement og spørsmålet om amerikansk lovgivning over europeiske personopplysninger. For et svensk legekontor, et advokatfirma eller et regnskapsbyrå er det ingen liten detalj.

Det ærlige forbeholdet

Før du selger bilen for å bygge en Mac-klynge: dette er fortsatt en nisje for entusiaster og proffer, ikke for folk flest.

Gjennomstrømningen (25–32 tokens per sekund) er ikke i nærheten av hva et ekte Nvidia-datasenter klarer når det skal betjene tusenvis av brukere samtidig. Mac-klyngen vinner på minne, pris og strømforbruk — ikke på rå hastighet. Og én ting til: Apple trakk tilbake 512 GB-konfigurasjonen av Mac Studio i mars 2026 på grunn av den globale minnemangelen, så akkurat nå topper den nye maskinen på 256 GB. Vil du bygge en skikkelig minneklynge, må du lete brukt eller vente.

Men retningen er unektelig fet. For bare et år siden var "kjør en modell på en billion parametere hjemme" ren science fiction. Nå er det en kabel, fire bokser og et helgeprosjekt.

Lyst til å bygge din egen AI-rigg, eller sitter du på Apple-maskinvare du ikke lenger bruker? På TechFlip kjøper og selger du brukte Mac-maskiner og komponenter direkte mellom privatpersoner — uten mellomledd.

– Robert Wallin

Denne artikkelen er oversatt fra den svenske originalen ved hjelp av AI. Innholdet er det samme – men enkelte oversettelsesfeil kan forekomme.

Tillbaka till Bulletin Board