Nyheter 8 min lasning

Apple lät dig knyta ihop flera Macar till ett AI-kluster — och plötsligt kan en hemmarigg köra modeller på en biljon parametrar

Med RDMA i macOS kan du koppla ihop flera Mac Studio till ett AI-kluster och köra enorma modeller lokalt. Vi reder ut tekniken, DeepSeek V4 Pro:s 1,6 biljoner parametrar och hur mycket minne som faktiskt krävs.

Robert Wallin

20 juni 2026

11 visningar

AppleMacAIRDMADeepSeeklokal AIMLX

Det här är en av de där nyheterna som gick under radarn för de flesta, men som är ganska vild när man stannar upp och tänker på den: du kan numera koppla ihop några vanliga Mac Studio-burkar med en sladd och köra AI-modeller lokalt som tidigare krävde ett helt serverrum med Nvidia-kort för hundratusentals kronor.

Nyckeln är tre bokstäver: RDMA.

Vad Apple faktiskt gjorde

I macOS Tahoe 26.2, som rullades ut den 12 december 2025, lade Apple in stöd för RDMA (Remote Direct Memory Access) över Thunderbolt 5. Ingen stor scengrej på en keynote — det kom i en punktuppdatering — men det är precis den pusselbit som saknats för att lokala AI-kluster ska bli vettiga.

RDMA betyder, lite förenklat, att en dator kan läsa direkt ur en annan dators minne utan att gå omvägen via processorn och den vanliga nätverksstacken. Datan flyttas minne-till-minne. Resultatet: runt 80 Gbit/s bandbredd mellan maskinerna och en latens under 10 mikrosekunder.

Varför spelar det roll? För att när du delar upp en gigantisk språkmodell över flera datorer måste maskinerna snacka med varandra hela tiden — för varje lager i modellen. Den gamla Thunderbolt-bryggan tvingade all den trafiken genom processorn och blev en flaskhals som strypte allt. Med RDMA skalar det istället uppåt: lägg till en maskin till, få mer fart. Det är hela grejen.

På mjukvarusidan sker det via Apples öppna ML-ramverk MLX, tillsammans med ett kommunikationsbibliotek de kallar JACCL som utnyttjar RDMA och själv listar ut hur maskinerna bäst pratar med varandra.

Beviset: fyra Macar, 1,5 TB minne, en modell på en biljon parametrar

Det bästa praktiska testet kom från YouTubern Jeff Geerling, som fick låna fyra Mac Studio med M3 Ultra av Apple. Tillsammans hade de 1,5 TB delat minne och prislappen landade strax under 40 000 dollar.

Med open source-ramverket EXO körde han bland annat Kimi K2 Thinking — en modell på en biljon (1 000 miljarder) parametrar — i runt 28 tokens per sekund över de fyra noderna. DeepSeeks 671B-modell snurrade på i drygt 30 tokens per sekund. Inte blixtsnabbt, men fullt användbart, och helt lokalt på din egen hårdvara.

Den roliga delen: hur stor är egentligen "DeepSeek V4 Pro"?

Här blir det intressant, för många underskattar hur galet stora de senaste open source-modellerna blivit.

DeepSeek V4 Pro, som släpptes i förhandsversion den 24 april 2026, är inte "några hundra miljarder" parametrar. Den är 1,6 biljoner (1,6T) parametrar — alltså 1 600 miljarder. (Den är av MoE-typ, så bara 49 miljarder av dem är aktiva för varje token, men det är en annan sak — mer om det strax.) Till jämförelse: DeepSeek V3 var 671 miljarder, och Kimi K2 låg runt en biljon. V4 Pro är alltså i en helt egen viktklass.

Så hur mycket minne skulle det krävas för att köra det monstret lokalt? Räkningen är faktiskt enkel: antal parametrar gånger antal byte per parameter.

Full precision (FP16, 2 byte/parameter): 1,6T × 2 = 3 200 GB, alltså 3,2 TB bara för vikterna.
8-bitars (1 byte): 1 600 GB.
4-bitars (~0,5 byte): 800 GB.

Lägg på 15–30 % för kringkostnader (KV-cache och liknande) så landar du, i 4-bitars kvantisering, på knappt 1 TB minne. Det betyder att Geerlings fyra-Macars-kluster på 1,5 TB faktiskt skulle kunna hålla en modell på 1,6 biljoner parametrar i minnet samtidigt. Låt den tanken landa: en modell större än något OpenAI eller Google officiellt bekräftat storleken på, körd i ett vardagsrum.

En viktig detalj som folk ofta missar: även om en MoE-modell bara aktiverar en bråkdel av parametrarna per token, måste hela modellen ändå ligga i minnet. Du vet inte i förväg vilka "experter" nästa ord behöver, så alla måste vara tillgängliga. Att bara en del aktiveras sparar beräkningskraft — inte minne.

Men kan jag inte bara proppa en vanlig PC full med billigt RAM?

Det är frågan jag vet att många ställer sig efter att ha sett YouTube-klippen, och svaret är mer intressant än man tror.

Vid AI-inferens är det inte hur mycket minne du har som sätter farten, utan minnesbandbredden — hur snabbt processorn kan läsa vikterna ur minnet, för varje token. Och här kommer detaljen nästan alla missar: Apples hemlighet är inte något magiskt minne, utan en jättebred minnesbuss.

M3 Ultra kör nämligen vanligt LPDDR5-minne på 6 400 MT/s — i princip samma datahastighet som ett DDR5-6400 i en speldator. Det enda som skiljer är hur många "körfält" minnesmotorvägen har:

Vanlig desktop (i5/i7/Ryzen): 2 minneskanaler, alltså en 128 bitar bred buss. DDR4 ≈ 50 GB/s, DDR5 ≈ 100 GB/s.
Mac Studio M3 Ultra: 8 kanaler (1 024 bitar bred buss) → runt 819 GB/s.

Så svaret på din nästa fråga — hjälper det att byta till DDR5? — är: lite. DDR5 ungefär dubblar bandbredden mot DDR4, men du är fortfarande runt åtta gånger under Mac:en. Typen av minne spelar nästan ingen roll; antalet kanaler är allt.

Och en gammal i5:a (säg 10:e generationen) är faktiskt dubbelt straffad: plattformen tar max 128 GB RAM — en jättemodell får inte ens plats — och den kör bara 2 kanaler. Att klustra ihop flera sådana över vanlig gigabit-ethernet (0,125 GB/s) gör det bara värre: då blir nätet en ännu trängre flaskhals än minnet.

Det billiga tricket: en begagnad serverbur med bred buss

Vill man härma Mac:en på budget köper man alltså inte en stationär PC — man köper bussen. En begagnad AMD EPYC-server (SP3-sockel, generation "Rome" eller "Milan") har 8 minneskanaler och landar på runt 200 GB/s — fyra gånger en vanlig PC, och i samma härad som en riktig AI-rigg. Moderkort plus processor går att få under 10 000 kr på begagnatmarknaden, och det billigaste serverminnet (DDR4-2666 ECC) köper man närmast i hinkar.

Folk gör redan exakt det här: en EPYC-burk med 512 GB för runt 2 000 dollar kör DeepSeek 671B i ungefär 3,5–4 tokens per sekund på ren processorkraft — helt utan grafikkort, på Ubuntu med llama.cpp. Inte snabbt, men det funkar, och hela jättemodellen ligger i RAM i en enda låda.

Två fällor om du provar: köp en EPYC med många chiplets (CCD:er) — typ 7702 eller 7642, inte de billigaste fåkärniga, annars halveras bandbredden — och fyll alla åtta kanalerna, för halvfyllt ger halv fart.

Och det är själva poängen: en enda fet server slår ett kluster av smala burkar. Inuti en låda är minnesbussen i sig "nätverket" (~200 GB/s), medan ett kluster måste skyffla data mellan maskinerna över ett nät som i bästa fall är 10 GB/s och i värsta fall en hundradel av det. Stoppar du allt i en maskin slipper du det långsammaste ledet helt. Apple löste samma problem med Thunderbolt 5 och RDMA; på PC-sidan är begagnade InfiniBand-kort det billigaste sättet att få motsvarande — men enklast av allt är att inte klustra alls.

Den nya genvägen: en liten burk med bred buss

Sedan de där YouTube-klippen började spridas har det dykt upp ett mellanting som är värt att nämna — en liten färdigbyggd burk med just den breda minnesbussen, utan att du behöver mecka med begagnade serverdelar.

Tydligaste exemplet är GMKtec EVO-X3 (global lansering den 29 juni 2026), byggd kring AMD:s nya flaggskepps-APU Ryzen AI Max+ 395 ("Strix Halo"). Den har 128 GB LPDDR5X som delas mellan processor och grafik — samma "unified memory"-princip som Apple kör. Bussen är 256 bitar bred och ger 256 GB/s i teorin (något lägre i praktiken). Långt ifrån Mac Studions 819 GB/s, men ungefär 2,5 gånger en vanlig stationär PC — och allt i en låda stor som en PS4, helt utan kluster. En ännu kraftigare variant med 192 GB minne (Ryzen AI Max+ PRO 495) är dessutom aviserad senare under 2026.

På AI-sidan kan du under Windows vika undan upp till 96 GB av minnet som "grafikminne" (ännu mer under Linux). Det räcker för att hålla en tät 70-miljardersmodell i 4-bitars, eller kvantiserade modeller upp mot 128 miljarder parametrar. MoE-modeller — som DeepSeeks mindre varianter — är som klippta för en sådan maskin: stor modell på disken, men bara en bråkdel aktiv per token. Det du inte ska förvänta dig är att proppa in hela 1,6-biljonersmonstret; till det räcker varken 128 GB eller bandbredden.

Och priset är den intressanta biten. GMKtec har ännu inte satt någon officiell prislapp på EVO-X3, men systermodellen EVO-X2 — exakt samma chip och 128 GB — ligger runt 2 000 dollar. Ställ det mot en enda Mac Studio M3 Ultra som börjar på 3 999 dollar (och Geerlings fyra-Macars-kluster på 40 000 dollar), så ser du poängen: vill du köra en stor — om än inte gigantisk — modell lokalt är en sådan liten burk i dag det billigaste sättet att få både mycket minne och en hyfsat bred buss i samma köp.

Varför skulle man vilja köra AI lokalt överhuvudtaget?

Några riktigt bra skäl, faktiskt:

Integritet och dataskydd. All data stannar på din egen maskin. För svensk vård, juridik och ekonomi — där GDPR och snart EU:s AI Act (sanktionerna börjar gälla 2 augusti 2026 enligt nuvarande tidsplan) sätter hårda krav — är det här en stor grej. Lägg till CLOUD Act, som ger amerikanska myndigheter rätt till data hos amerikanska molnleverantörer även när den ligger i EU, och det blir ett konkret argument för att hålla känsliga uppgifter på egen hårdvara.
Ingen prenumeration. När modellen väl är nedladdad är varje fråga gratis. Inga per-token-avgifter.
Fungerar offline och slutar inte funka för att någon leverantör ändrar villkoren eller drar upp priset.

Och kvalitetsmässigt har gapet krympt rejält. DeepSeek V4 Pro ligger nu i absolut framkant bland öppna modeller och nosar på de stängda toppmodellerna från OpenAI och Anthropic — till en bråkdel av kostnaden. För det absolut svåraste tänkandet leder Claude och GPT fortfarande, men för det mesta som vanligt folk gör är de öppna modellerna numera mer än dugliga.

Och här blir det riktigt intressant juridiskt: i teorin kan man då sätta upp en AI i nära toppklass helt lagligt på egen hårdvara. Modellerna som DeepSeek V4 och Kimi K2 släpps under öppna licenser (MIT respektive en MIT-variant) som tillåter även kommersiell användning, vikterna laddar du ner gratis, och eftersom ingen data lämnar huset slipper du både molnabonnemang och frågan om amerikansk lagstiftning över europeiska personuppgifter. För en svensk vårdcentral, advokatbyrå eller redovisningsbyrå är det inte en liten detalj.

Den ärliga brasklappen

Innan du säljer bilen för att bygga ett Mac-kluster: det här är fortfarande en nisch för entusiaster och proffs, inte för gemene man.

Genomströmningen (25–32 tokens per sekund) är inte i närheten av vad ett riktigt Nvidia-datacenter klarar när det ska betjäna tusentals användare samtidigt. Mac-klustret vinner på minne, pris och strömförbrukning — inte på rå hastighet. Och en sak till: Apple drog tillbaka 512 GB-konfigurationen av Mac Studio i mars 2026 på grund av den globala minnesbristen, så just nu toppar den nya maskinen på 256 GB. Vill du bygga ett rejält minneskluster får du leta begagnat eller vänta.

Men riktningen är onekligen häftig. För bara något år sedan var "kör en modell på en biljon parametrar hemma" ren science fiction. Nu är det en sladd, fyra burkar och ett helgprojekt.

Sugen på att bygga en egen AI-rigg, eller sitter du på Apple-hårdvara du inte längre använder? På TechFlip köper och säljer du begagnade Mac-datorer och komponenter direkt mellan privatpersoner — utan mellanhänder.

– Robert Wallin

Tillbaka till Bulletin Board