Nyheter 8 min lasning

Apple antoi sinun sitoa useita Maceja yhteen tekoälyklusteriksi — ja yhtäkkiä kotirigi voi ajaa biljoonan parametrin malleja

RDMA:n avulla macOS:ssä voit kytkeä useita Mac Studioita yhteen tekoälyklusteriksi ja ajaa valtavia malleja paikallisesti. Selvitämme tekniikan, DeepSeek V4 Pron 1,6 biljoonaa parametria ja sen, kuinka paljon muistia oikeasti tarvitaan.

Robert Wallin

20 juni 2026

16 visningar

AppleMacAIRDMADeepSeeklokal AIMLX

Tämä on yksi niistä uutisista, jotka menivät useimmilta ohi tutkan, mutta joka on melko hurja, kun pysähtyy hetkeksi miettimään sitä: voit nykyään kytkeä muutaman tavallisen Mac Studio -koneen yhteen yhdellä johdolla ja ajaa paikallisesti tekoälymalleja, jotka aiemmin vaativat kokonaisen palvelinhuoneen Nvidian korteilla satojentuhansien kruunujen edestä.

Avain on kolme kirjainta: RDMA.

Mitä Apple oikeastaan teki

macOS Tahoe 26.2 -versiossa, joka julkaistiin 12. joulukuuta 2025, Apple lisäsi tuen RDMA:lle (Remote Direct Memory Access) Thunderbolt 5:n yli. Ei mikään suuri lavanumero keynotella — se tuli pistepäivityksessä — mutta juuri se palanen, joka on puuttunut, jotta paikalliset tekoälyklusterit olisivat järkeviä.

RDMA tarkoittaa, hieman yksinkertaistettuna, että tietokone voi lukea suoraan toisen tietokoneen muistista kiertämättä prosessorin ja tavallisen verkkopinon kautta. Data siirtyy muistista muistiin. Lopputulos: noin 80 Gbit/s kaistanleveys koneiden välillä ja viive alle 10 mikrosekuntia.

Miksi sillä on väliä? Koska kun jaat jättimäisen kielimallin useamman tietokoneen kesken, koneiden täytyy jutella keskenään koko ajan — mallin jokaisen kerroksen kohdalla. Vanha Thunderbolt-silta pakotti kaiken sen liikenteen prosessorin läpi ja muodostui pullonkaulaksi, joka kuristi kaiken. RDMA:n kanssa se sen sijaan skaalautuu ylöspäin: lisää yksi kone, saat lisää vauhtia. Siinä se koko juju on.

Ohjelmistopuolella se tapahtuu Applen avoimen ML-kehyksen MLX:n kautta, yhdessä JACCL-nimisen kommunikointikirjaston kanssa, joka hyödyntää RDMA:ta ja päättelee itse, miten koneet parhaiten juttelevat keskenään.

Todiste: neljä Macia, 1,5 TB muistia, biljoonan parametrin malli

Paras käytännön testi tuli YouTube-tähti Jeff Geerlingiltä, joka sai lainaksi neljä Mac Studiota M3 Ultralla Applelta. Yhdessä niillä oli 1,5 TB jaettua muistia ja hintalappu asettui hieman alle 40 000 dollarin.

Avoimen lähdekoodin EXO-kehyksellä hän ajoi muun muassa Kimi K2 Thinkingiä — biljoonan (1 000 miljardin) parametrin mallia — noin 28 tokenia sekunnissa neljän solmun yli. DeepSeekin 671B-malli pyöri runsaassa 30 tokenissa sekunnissa. Ei salamannopeaa, mutta täysin käyttökelpoista, ja täysin paikallisesti omalla laitteistollasi.

Hauska osuus: kuinka suuri oikeastaan on "DeepSeek V4 Pro"?

Tästä tulee mielenkiintoista, sillä monet aliarvioivat, kuinka mielettömän suuriksi viimeisimmät avoimen lähdekoodin mallit ovat tulleet.

DeepSeek V4 Pro, joka julkaistiin ennakkoversiona 24. huhtikuuta 2026, ei ole "muutama sata miljardia" parametria. Se on 1,6 biljoonaa (1,6T) parametria — eli 1 600 miljardia. (Se on MoE-tyyppinen, joten vain 49 miljardia niistä on aktiivisia jokaista tokenia kohden, mutta se on toinen asia — siitä lisää kohta.) Vertailun vuoksi: DeepSeek V3 oli 671 miljardia, ja Kimi K2 oli noin biljoonan tienoilla. V4 Pro on siis aivan omassa painoluokassaan.

Joten kuinka paljon muistia tarvittaisiin tuon hirviön ajamiseen paikallisesti? Lasku on itse asiassa yksinkertainen: parametrien määrä kertaa tavujen määrä parametria kohden.

Täysi tarkkuus (FP16, 2 tavua/parametri): 1,6T × 2 = 3 200 GB, eli 3,2 TB pelkästään painoille.
8-bittinen (1 tavu): 1 600 GB.
4-bittinen (~0,5 tavua): 800 GB.

Lisää 15–30 % oheiskustannuksia (KV-välimuisti ja vastaavat), niin päädyt 4-bittisessä kvantisoinnissa niukkaan 1 TB:hen muistia. Se tarkoittaa, että Geerlingin neljän Macin klusteri, jossa on 1,5 TB, voisi itse asiassa pitää 1,6 biljoonan parametrin mallin muistissa yhtä aikaa. Anna sen ajatuksen laskeutua: malli, joka on suurempi kuin mikään, jonka koon OpenAI tai Google on virallisesti vahvistanut, ajettuna olohuoneessa.

Yksi tärkeä yksityiskohta, jonka ihmiset usein missaavat: vaikka MoE-malli aktivoi vain murto-osan parametreista tokenia kohden, koko mallin täytyy silti olla muistissa. Et tiedä etukäteen, mitä "asiantuntijoita" seuraava sana tarvitsee, joten kaikkien täytyy olla saatavilla. Se, että vain osa aktivoituu, säästää laskentatehoa — ei muistia.

Mutta enkö voi vain ahtaa tavallisen PC:n täyteen halpaa RAM-muistia?

Tämä on kysymys, jonka tiedän monien esittävän itselleen nähtyään YouTube-klipit, ja vastaus on mielenkiintoisempi kuin luulisi.

Tekoälyn inferenssissä ei ole kyse siitä, kuinka paljon muistia sinulla on, vaan muistin kaistanleveydestä — kuinka nopeasti prosessori pystyy lukemaan painot muistista, jokaista tokenia kohden. Ja tässä tulee yksityiskohta, jonka melkein kaikki missaavat: Applen salaisuus ei ole mikään taianomainen muisti, vaan jättileveä muistiväylä.

M3 Ultra ajaa nimittäin tavallista LPDDR5-muistia 6 400 MT/s -nopeudella — periaatteessa samaa datanopeutta kuin DDR5-6400 pelitietokoneessa. Ainoa ero on, kuinka monta "kaistaa" muistimoottoritiellä on:

Tavallinen pöytäkone (i5/i7/Ryzen): 2 muistikanavaa, eli 128 bittiä leveä väylä. DDR4 ≈ 50 GB/s, DDR5 ≈ 100 GB/s.
Mac Studio M3 Ultra: 8 kanavaa (1 024 bittiä leveä väylä) → noin 819 GB/s.

Joten vastaus seuraavaan kysymykseesi — auttaako DDR5:een vaihtaminen? — on: vähän. DDR5 suunnilleen tuplaa kaistanleveyden DDR4:ään verrattuna, mutta olet edelleen noin kahdeksan kertaa Macin alapuolella. Muistin tyypillä ei ole juuri mitään merkitystä; kanavien määrä on kaikki kaikessa.

Ja vanha i5 (vaikkapa 10. sukupolvi) on itse asiassa kaksinkertaisesti rangaistu: alusta vetää korkeintaan 128 GB RAM-muistia — jättimalli ei mahdu edes — ja se ajaa vain 2 kanavaa. Useamman tällaisen klusterointi yhteen tavallisen gigabit-ethernetin (0,125 GB/s) yli tekee siitä vain pahemman: silloin verkosta tulee vielä ahtaampi pullonkaula kuin muistista.

Halpa kikka: käytetty palvelinkone leveällä väylällä

Jos Macia haluaa matkia budjetilla, ei siis osteta pöytätietokonetta — ostetaan väylä. Käytetyssä AMD EPYC -palvelimessa (SP3-kanta, sukupolvi "Rome" tai "Milan") on 8 muistikanavaa ja se asettuu noin 200 GB/s:aan — neljä kertaa tavallinen PC, ja samoissa lukemissa kuin oikea tekoälyrigi. Emolevyn ja prosessorin saa alle 10 000 kruunulla käytettyjen markkinoilta, ja halvinta palvelinmuistia (DDR4-2666 ECC) ostaa lähes ämpärikaupalla.

Ihmiset tekevät jo täsmälleen tätä: EPYC-kone, jossa on 512 GB, noin 2 000 dollarilla ajaa DeepSeek 671B:tä noin 3,5–4 tokenia sekunnissa pelkällä prosessoriteholla — täysin ilman näytönohjainta, Ubuntulla ja llama.cpp:llä. Ei nopeaa, mutta se toimii, ja koko jättimalli on RAM-muistissa yhdessä ainoassa laatikossa.

Kaksi ansaa, jos kokeilet: osta EPYC, jossa on monta sirupalaa (CCD:tä) — tyyppiä 7702 tai 7642, ei halvimpia vähäytimisiä, muuten kaistanleveys puolittuu — ja täytä kaikki kahdeksan kanavaa, sillä puolitäysi antaa puolet vauhdista.

Ja se on juuri se pointti: yksi ainoa tukeva palvelin voittaa kapeiden koneiden klusterin. Laatikon sisällä muistiväylä on itsessään "verkko" (~200 GB/s), kun taas klusterin täytyy lapioida dataa koneiden välillä verkon yli, joka on parhaimmillaan 10 GB/s ja pahimmillaan sadasosa siitä. Jos laitat kaiken yhteen koneeseen, vältät hitaimman lenkin kokonaan. Apple ratkaisi saman ongelman Thunderbolt 5:llä ja RDMA:lla; PC-puolella käytetyt InfiniBand-kortit ovat halvin tapa saada vastaava — mutta kaikkein helpointa on olla klusteroimatta lainkaan.

Uusi oikotie: pieni kone leveällä väylällä

Sen jälkeen kun nuo YouTube-klipit alkoivat levitä, on ilmaantunut välimuoto, joka on mainitsemisen arvoinen — pieni valmiiksi rakennettu kone, jossa on juuri se leveä muistiväylä, ilman että sinun tarvitsee näpertää käytettyjen palvelinosien kanssa.

Selkein esimerkki on GMKtec EVO-X3 (globaali julkaisu 29. kesäkuuta 2026), rakennettu AMD:n uuden lippulaiva-APU:n Ryzen AI Max+ 395:n ("Strix Halo") ympärille. Siinä on 128 GB LPDDR5X:ää, joka jaetaan prosessorin ja grafiikan kesken — sama "unified memory" -periaate, jota Apple ajaa. Väylä on 256 bittiä leveä ja antaa 256 GB/s teoriassa (käytännössä hieman vähemmän). Kaukana Mac Studion 819 GB/s:sta, mutta noin 2,5 kertaa tavallinen pöytä-PC — ja kaikki yhdessä laatikossa, joka on PS4:n kokoinen, täysin ilman klusteria. Vielä tehokkaampi variantti, jossa on 192 GB muistia (Ryzen AI Max+ PRO 495), on lisäksi ilmoitettu myöhemmin vuodelle 2026.

Tekoälypuolella voit Windowsissa varata jopa 96 GB muistista "grafiikkamuistiksi" (vielä enemmän Linuxissa). Se riittää pitämään tiheän 70 miljardin parametrin mallin 4-bittisenä, tai kvantisoituja malleja jopa 128 miljardiin parametriin asti. MoE-mallit — kuten DeepSeekin pienemmät variantit — ovat kuin tehty tällaiselle koneelle: suuri malli levyllä, mutta vain murto-osa aktiivisena tokenia kohden. Mitä sinun ei pidä odottaa, on koko 1,6 biljoonan hirviön ahtaminen sisään; siihen ei riitä 128 GB eikä kaistanleveys.

Ja hinta on se mielenkiintoinen pala. GMKtec ei ole vielä asettanut virallista hintalappua EVO-X3:lle, mutta sisarmalli EVO-X2 — täsmälleen sama siru ja 128 GB — asettuu noin 2 000 dollariin. Aseta se vasten yhtä ainoaa Mac Studio M3 Ultraa, joka alkaa 3 999 dollarista (ja Geerlingin neljän Macin klusteria 40 000 dollarissa), niin näet pointin: jos haluat ajaa suurta — joskaan ei jättimäistä — mallia paikallisesti, on tällainen pieni kone tänä päivänä halvin tapa saada sekä paljon muistia että kohtalaisen leveä väylä samassa kaupassa.

Miksi tekoälyä ylipäätään haluaisi ajaa paikallisesti?

Muutamia oikein hyviä syitä, itse asiassa:

Yksityisyys ja tietosuoja. Kaikki data pysyy omalla koneellasi. Ruotsalaiselle terveydenhuollolle, juridiikalle ja taloudelle — joissa GDPR ja pian EU:n AI Act (sanktiot astuvat voimaan 2. elokuuta 2026 nykyisen aikataulun mukaan) asettavat kovat vaatimukset — tämä on iso juttu. Lisää tähän CLOUD Act, joka antaa yhdysvaltalaisille viranomaisille oikeuden dataan yhdysvaltalaisilla pilvipalveluntarjoajilla silloinkin, kun se sijaitsee EU:ssa, ja siitä tulee konkreettinen argumentti pitää arkaluonteiset tiedot omalla laitteistolla.
Ei tilausmaksua. Kun malli on kerran ladattu, jokainen kysely on ilmainen. Ei token-kohtaisia maksuja.
Toimii offline-tilassa eikä lakkaa toimimasta siksi, että jokin palveluntarjoaja muuttaa ehtoja tai nostaa hintaa.

Ja laadullisesti kuilu on kaventunut reilusti. DeepSeek V4 Pro on nyt aivan kärjessä avoimien mallien joukossa ja kirii kiinni suljettuja huippumalleja OpenAI:lta ja Anthropicilta — murto-osalla kustannuksista. Aivan vaikeimmassa ajattelussa Claude ja GPT johtavat edelleen, mutta useimpaan siihen, mitä tavalliset ihmiset tekevät, avoimet mallit ovat nykyään enemmän kuin päteviä.

Ja tässä siitä tulee oikeasti mielenkiintoista juridisesti: teoriassa voi silloin pystyttää lähes huippuluokan tekoälyn täysin laillisesti omalle laitteistolle. DeepSeek V4:n ja Kimi K2:n kaltaiset mallit julkaistaan avoimilla lisensseillä (MIT ja vastaavasti MIT-variantti), jotka sallivat myös kaupallisen käytön, painot lataat ilmaiseksi, ja koska mikään data ei poistu talosta, vältät sekä pilvitilauksen että kysymyksen yhdysvaltalaisesta lainsäädännöstä eurooppalaisten henkilötietojen yllä. Ruotsalaiselle terveysasemalle, asianajotoimistolle tai tilitoimistolle se ei ole pikkujuttu.

Rehellinen varauma

Ennen kuin myyt auton rakentaaksesi Mac-klusterin: tämä on edelleen harrastajien ja ammattilaisten nurkka, ei tavallisen ihmisen.

Läpäisyteho (25–32 tokenia sekunnissa) ei ole lähelläkään sitä, mihin oikea Nvidian datakeskus pystyy, kun sen pitää palvella tuhansia käyttäjiä yhtä aikaa. Mac-klusteri voittaa muistissa, hinnassa ja virrankulutuksessa — ei raa'assa nopeudessa. Ja vielä yksi asia: Apple veti pois Mac Studion 512 GB:n kokoonpanon maaliskuussa 2026 globaalin muistipulan takia, joten juuri nyt uusi kone huipentuu 256 GB:hen. Jos haluat rakentaa kunnon muistiklusterin, joudut etsimään käytettyä tai odottamaan.

Mutta suunta on kieltämättä siisti. Vielä jokin vuosi sitten "aja biljoonan parametrin malli kotona" oli puhdasta tieteisfiktiota. Nyt se on yksi johto, neljä konetta ja viikonloppuprojekti.

Kiinnostaako rakentaa oma tekoälyrigi, tai istutko sellaisen Apple-laitteiston päällä, jota et enää käytä? TechFlipissä ostat ja myyt käytettyjä Mac-tietokoneita ja komponentteja suoraan yksityishenkilöiden välillä — ilman välikäsiä.

– Robert Wallin

Tämä artikkeli on käännetty ruotsinkielisestä alkuperäisestä tekoälyn avulla. Sisältö on sama, mutta yksittäisiä käännösvirheitä voi esiintyä.

Tillbaka till Bulletin Board