Hírek AI Technológia NVIDIA Vera Rubin — 5x gyorsabb inferencia és az AI gyárak új korszaka

NVIDIA Vera Rubin — 5x gyorsabb inferencia és az AI gyárak új korszaka

AI Hírek Szerkesztőség
2026-03-24
09:00
No Comments

Az NVIDIA Vera Rubin platform 2026. március 16-án debütált a GTC 2026 konferencián. Jensen Huang szerint ez az ágens-alapú AI korszakának nyitánya — és a számok alátámasztják.

A platform hét új chipet és öt rack-scale rendszert integrál egyetlen AI szuperszámítógéppé. A Blackwellhez képest 3,3–5x inferencia teljesítményt és 10x jobb wattonkénti throughputot ígér. A mesterséges intelligencia iparág a kísérleti chatbotok felől a teljes vállalati folyamatokat automatizáló, önálló ágensek felé mozdult el, és ez a hardveres architektúra pontosan ezt a transzformációt hivatott kiszolgálni.

Huang egyetlen konkrét számot emelt ki minden más fölé a konferencia nyitóelőadásán: az NVIDIA 1 billió dolláros megrendelésállománnyal rendelkezik 2027-ig a Blackwell és a Vera Rubin rendszerekre. Ez pontosan a duplája a tavaly ilyenkor jósolt 500 milliárdnak, és jól mutatja, hogy az infrastruktúra-építési verseny egyáltalán nem lassul.

Mi az NVIDIA Vera Rubin platform?

A Vera Rubin nem csupán egyetlen chip — sokkal inkább egy teljes rack-scale szuperszámítógép. Az NVL72 konfiguráció például 72 Rubin GPU-t és 36 Vera CPU-t tartalmaz egyetlen rack-ben, amelyeket az NVIDIA saját fejlesztésű hálózati technológiája köt össze.

A Rubin GPU 50 PFLOPS inferencia teljesítményt ad FP4 pontosságon. Összehasonlításként a korábbi generációs Blackwell 20 PFLOPS-on áll — ez 2,5-szeres ugrás egyetlen GPU szinten.

Rack szinten még drámaibb a kép:

Az NVL72 rack 3,6 EFLOPS inferencia kapacitással bír. A Blackwell rack nagyjából 0,72 EFLOPS-ot tudott. Ez összességében 5x különbség, ami elengedhetetlen a jövő multimodális modelljeihez.

Vera CPU vs. Grace CPU: Egy új architektúra

A Vera CPU az NVIDIA saját tervezésű processzora, amely a Grace architektúrát váltja le a vállalati rendszerekben. Míg a Grace egy általánosabb adatközponti processzor volt, a Verát kifejezetten az ágens-alapú mesterséges intelligencia és a megerősítéses tanulás (reinforcement training) kiszolgálására optimalizálták.

Technikai szempontból a Vera CPU 88 egyedi „Olympus” magot tartalmaz. Ezek az NVIDIA Spatial Multithreading technológiáját használják, így magonként két feladatot képesek futtatni a konzisztens teljesítmény érdekében, különösen a több bérlős (multi-tenant) környezetekben. A memóriarendszer LPDDR5X-re épül, amely 1,2 TB/s sávszélességet biztosít. Ez a hagyományos processzorok sávszélességének duplája, mindezt feleakkora energiafogyasztás mellett. Az NVLink-C2C technológiával 1,8 TB/s koherens sávszélességet ér el a rendszeren belül.

Egy dedikált folyadékhűtéses Vera CPU rack akár 256 processzort is képes integrálni, ami több mint 22 500 egyidejű processzor-környezetet (sandboxot) jelent az ágens-alapú AI rendszerek számára.

A hatodik generációs HBM4 memória

A Vera Rubin platform a világon az elsők között integrálja a hatodik generációs High Bandwidth Memory (HBM4) technológiát. Ez az új memóriaarchitektúra drasztikus ugrást jelent a sávszélesség terén: több mint 3,0 TB/s átviteli sebességet biztosít, és a működési sebessége meghaladja a 11 Gbps-ot.

Piaci kontextusban a Rubin HBM4 memóriájának sávszélessége 30%-kal magasabb, mint az AMD hasonló kategóriájú termékeié. A HBM4 bevezetése létfontosságú volt az NVIDIA számára, mivel az egyre növekvő kontextusablakokkal és ágens-alapú munkafolyamatokkal dolgozó vállalati MI-rendszerek legszűkebb keresztmetszete a memória-sávszélesség lett. A gigantikus Mixture-of-Experts (MoE) modellek betanításához a HBM4 memóriának köszönhetően negyedannyi GPU is elegendő a korábbi generációkhoz képest.

Az 1 billió dolláros megrendelésállomány háttere

Ennek a gigantikus, 1 billió dolláros keresletnek a hátterében az autonóm rendszerek térnyerése áll. Az infrastruktúra az új ipari transzformáció „gyárává” lépett elő.

A megrendelők magját a legnagyobb felhőszolgáltatók (hyperscalerek) adják. Az Amazon Web Services (AWS), a Google Cloud, a Microsoft Azure és az Oracle Cloud Infrastructure (OCI) lesznek az elsők, akik az új rendszereket bevezetik az adatközpontjaikba. Emellett a Meta egy többéves, többgenerációs partnerség keretében több millió NVIDIA GPU-t vásárol. A hyperscalerek mellett szuverén vagyonalapok és olyan nagyvállalatok, mint az Alibaba és a ByteDance, szintén agresszíven versengenek a korai szállítmányokért.

Az NVL72 rack ára és a garantált ROI

A zászlóshajónak számító VR200 NVL72 rack rendszer becsült beszerzési ára eléri a 8,8 millió dollárt darabonként. Bár ez a szám rendkívül magasnak tűnik, a befektetés megtérülése (ROI) a korábban soha nem látott inferencia hatékonyságban rejlik.

A legfontosabb gazdasági mutató, hogy a Vera Rubin platform a korábbiak tizedére csökkenti a token-előállítás költségét (cost per token). Jelenleg a prémium AI modellek (például GPT-5.5, Claude Opus 4.7) 5-30 dollár között számolnak millió tokenként. Ha ez az ígéret teljesül, ezek az árak 0,50-3 dollár közé eshetnek.

Az infrastruktúra-üzemeltetők számára ez a masszív költségcsökkenés és energiahatékonyság (wattra vetített 10x áteresztőképesség) garantálja a magas vételár gyors megtérülését. Amikor egy AI ágens órákon át önállóan dolgozik, és millió tokeneket fogyaszt, a tizedannyiba kerülő infrastruktúra az ágens-alapú automatizációt végre gazdaságilag fenntarthatóvá teszi.

A hűtési technológia és az energiamenedzsment

Egy ekkora teljesítménysűrűség mellett a hagyományos léghűtés már nem opció. Az NVIDIA Vera Rubin platform a kezdetektől fogva 100%-ban folyadékhűtésre (liquid cooling) lett tervezve. Az adatközpontok számára a legnagyobb kihívás ma már nem csupán a chipek beszerzése, hanem azok energiaellátása és hűtése. A folyadékhűtés alkalmazásával az NVIDIA drasztikusan javítja a Power Usage Effectiveness (PUE) mutatókat, ami az üzemeltetési költségek jelentős csökkenését eredményezi.

Az új moduláris, kábelmentes rack-dizájn révén a fizikai karbantartás is teljesen átalakul. Egy teljes node kicserélése a korábbi szerverarchitektúrákban komoly leállást igényelt, azonban az új rendszerben a „vakcsatlakozós” (blind-mate) hűtési és elektromos kötések lehetővé teszik a hot-swap jellegű gyors karbantartást. Az NVIDIA szerint ez a megközelítés a telepítési és karbantartási időt egy átlagos komponensnél a korábbi órákról percekre redukálja.

Hatás a nyílt forráskódú és zárt MI modellekre

Az új hardver képességei nem csupán a számítási teljesítményt növelik, hanem alapvetően átírják azt, amit a modellek fejlesztéséről eddig gondoltunk. A HBM4 memória gigantikus sávszélessége és az NVLink fejlett hálózati rétege lehetővé teszi, hogy a fejlesztők minden korábbinál nagyobb kontextusablakkal rendelkező modelleket építsenek. Korábban egy több millió tokenes kontextusablak valós idejű feldolgozása szinte lehetetlen volt, mivel a GPU-k közötti adatmozgatás szűk keresztmetszetet jelentett.

Az NVIDIA Vera Rubin platform megszünteti ezt a korlátot. Az open-source közösség, amely eddig az alacsonyabb hardveres erőforrások miatt sokszor kompromisszumokra kényszerült, a jövőben olyan architektúrákhoz férhet hozzá a felhőszolgáltatókon keresztül, amelyek eddig csak a legnagyobb hyperscalerek (például az OpenAI vagy a Google) számára voltak fenntartva. Az 50 PFLOPS-os inferencia teljesítmény FP4 pontosságon azt jelenti, hogy a nyílt forráskódú modellek, például a Llama legújabb generációi, valós időben, milliszekundumos késleltetéssel lesznek képesek reagálni.

A zárt, prémium modellek fejlesztői számára pedig ez a teljesítményugrás az egyetlen járható út a multimodális mesterséges intelligencia tökéletesítése felé. A videó, hang és szöveg egyidejű, egy lépésben történő generálása hatalmas sávszélességet igényel. A Vera CPU és a Rubin GPU kombinációja garantálja, hogy ezek a rendszerek ne akadjanak el a komplex számítások során, így a végeredmény egy folyamatos, szakadozásmentes interakció a felhasználóval.

A Groq 3 LPU — a felvásárlás gyümölcse

Az NVIDIA 2025 decemberében 20 milliárd dollárért szerezte meg a Groq technológiáját és csapatát. A GTC-n mutatták be az első integrált eredményt: a Groq 3 LPU-t (Language Processing Unit).

Ez a chip kifejezetten az inferencia gyorsítására készült — nem tréningre, hanem a már kész, működő modellek futtatására. A Groq 3 LPX rack 256 LPU-t tartalmaz, és megawattonként 35x throughputot ad az alacsony késleltetésű ágens-rendszerekhez.

Az LPX rack szorosan az NVL72 mellett működik majd az adatközpontokban: a GPU tréningez, az LPU futtat. A szállítás 2026 harmadik negyedévében indul, és még idén megjelenik a produkciós vállalati rendszerekben.

NemoClaw — az NVIDIA nyílt szoftveroldali lépése

A hardver önmagában kevés. Az NVIDIA ezt felismerve mutatta be a NemoClaw nyílt forráskódú vállalati ágens-platformot. A szoftver technológiai alapját az az „OpenClaw” adja, amelyet az osztrák Peter Steinberger fejlesztett ki 2026 januárjában, és amely mára az OpenAI felügyelete alatt működik.

A NemoClaw lehetővé teszi, hogy a vállalatok saját AI ágenseket építsenek és telepítsenek. Ezek az ágensek többlépéses, összetett feladatokat hajthatnak végre emberi felügyelet nélkül, lokálisan interakcióba lépnek az asztali fájlokkal és alkalmazásokkal, mindezt úgy, hogy a szigorú vállalati adatvédelmi és compliance követelmények is érvényesülnek.

A cél az NVIDIA részéről világos: a nyílt forráskódú NemoClaw platformmal a fejlesztőket a saját ökoszisztémájába vonzza. Mivel az erre épített ágensek az NVIDIA hardverén futnak a legoptimálisabban, a platform a CUDA-hoz hasonló mély ügyfél-elköteleződést (vendor lock-in) alakít ki. A szoftveres fejlesztéseket a Nemotron Koalíció is támogatja, amelyben olyan meghatározó iparági szereplők vesznek részt, mint a Mistral, a Perplexity és a Cohere.

NVIDIA vs. Kihívók: A piaci dominancia megőrzése

Bár az olyan kihívók, mint az AMD az MI300X és az érkező MI400 sorozattal, vagy a Cerebras a hatalmas Wafer-Scale Engine-ekkel (WSE) próbálják megtörni az NVIDIA hegemóniáját, az itt látható technológiai ugrás jelentősen megnehezíti a dolgukat. A konkurencia gyakran alacsonyabb beszerzési árakkal és nyíltabb szoftveres ökoszisztémával kampányol, de az NVIDIA válasza erre az end-to-end integráció. Azzal, hogy nem csupán GPU-kat, hanem komplett rack-scale rendszereket (CPU, GPU, LPU, DPU, hálózat, szoftver) szállítanak egyben, leveszik a hardveres optimalizáció terhét a felhőszolgáltatók válláról.

Ez az integrált megközelítés, párosítva a fent említett NemoClaw szoftveres ökoszisztémával, biztosítja, hogy a vállalatok továbbra is a CUDA és a kapcsolódó NVIDIA könyvtárak rabjai maradjanak. Amíg a versenytársak csak egy-egy komponenst (chipet vagy memóriát) optimalizálnak, ez a platform a teljes hálózati és hűtési architekturát magában foglalja.

Feynman 2028 architektúra: Bepillantás a jövőbe

Jensen Huang a konferencián előzetest adott a 2028-ra tervezett Feynman architektúráról is, amelyet a teljesen autonóm MI-ágensek logikai és hosszú távú memóriaszükségleteire terveztek. A platform a TSMC legfejlettebb, A16 nevű 1,6 nanométeres eljárásával készül.

A Feynman három radikális hardveres innovációt hoz a piacra:

3D Die Stacking: Az NVIDIA történetének első olyan szilíciumja, amely egymásra rétegzett GPU-lapkákat használ a térbeli sűrűség növelése érdekében.
Szilícium fotonika: Hagyományos elektromos jelek helyett optikai (fény) jeleket használ az adatátvitelre, ami akár tízszeres sávszélesség-növekedést hoz a chipközi kommunikációban. A rézkábelek és a hagyományos elektronikus switch-ek fizikai határaihoz érkeztünk, az adatok fénysebességű továbbítása az egyetlen módja annak, hogy a rack-ek közötti kommunikáció ne lassítsa le az AI modellek futását.
Új Rendszerfelépítés: Egy új, „Rosa” kódnevű CPU-t és egy a Groq csapattal közösen fejlesztett „LP40” LPU-t integrál. A rack-architektúrát NVL1152-es szintre skálázzák fel, Intel EMIB tokozással.

Az AI Gyárak korszaka elkezdődött

Jensen Huang hivatalosan is átpozicionálta a céget: az NVIDIA már nem pusztán chipgyártó, hanem AI Gyárak (AI Factories) szolgáltatója.

Ezek a gigawatt-skálájú számítási létesítmények kifejezetten AI intelligencia „gyártására” épülnek. Ahogy a hagyományos gyárak fizikai termékeket állítanak elő, ezek az üzemek tokeneket termelnek a fizikai MI korában.

A referenciaként bemutatott DSX AI Factory dizájn a teljes tervezési folyamatot lefedi. A DSX Flex az áramhálózati szolgáltatásokat menedzseli (akár 100 gigawattnyi hálózati kapacitással), a DSX Sim pedig egy digitális ikerrel validálja a terveket. A teljes rendszer 100%-ban folyadékhűtéses, és a moduláris, kábelmentes rack-dizájn a telepítési időt két óráról öt percre csökkenti.

Az iparág tétje egyértelmű: aki az infrastruktúrát uralja, az uralja az egész ökoszisztémát. Az NVIDIA ezzel a stratégiai lépéssel legalább 2028-ig bebetonozta vezető pozícióját.

A következő cikkünkben a Rhoda AI FutureVision technológiáját vizsgáljuk — a robotot, ami videókból tanult meg járni.

Támogass Minket

Havi támogatás

990 Ft / -tól

Egyszeri támogatás

4 990 Ft / -tól