2026. március 10-én a Rhoda AI kilépett a titoktartási fázisból, és azonnal 450 millió dolláros Series A tőkebevonást jelentett be. De a pénznél érdekesebb a technológia: a vállalat egy olyan robotot épít, amely nem programozásból, hanem internetes videók százmillióiból tanulta meg a fizikai világ működését.
A csoport 18 hónap stealth mód után mutatta be a FutureVision nevű intelligenciaréteget — egy alapmodellt, amely a robotikában korábban látott megközelítésektől alapvetően eltér. Az időzítés nem véletlen: az AI-robotika 2026-ban a befektetők egyik legforróbb szegmense, az Amazon RIVR felvásárlás is ezt igazolja.
A probléma, amit a Rhoda AI megold
A hagyományos ipari robotok előre beprogramozott pályákat követnek: gyorsak és pontosak, de csak szigorúan kontrollált körülmények között működnek. Egy autógyári hegesztőrobot tökéletesen végzi a dolgát — de ha valaki áthelyez egy alkatrészt 5 centiméterrel, a robot nem tud alkalmazkodni.
Az újabb AI-alapú megközelítések — vision-language-action (VLA) modellek — ugyan laborban látványos eredményeket hoztak, de a valós világ változatosságával még mindig nehezen boldogultak. Időben változó elrendezések, ismeretlen tárgyak, kiszámíthatatlan munkafolyamatok — ezek a helyzetek a legtöbb AI-robotot megbénítják.
A Rhoda AI ezt a rést célozta meg: robotokat, amelyek a labortól a gyárpadlóig tudnak működni — anélkül, hogy minden egyes új szituációra külön betanítást igényelnének.
Rhoda AI DVA architektúra: videóból jóslat, jóslatból mozgás
A FutureVision mögött a Direct Video Action (DVA) nevű, saját fejlesztésű architektúra áll. A rendszer nem előre programozott pályákat használ, hanem internetes videók százmillióin előtanított modell segítségével építi fel a fizikai világ értését — a mozgást, a fizikát, a tárgyak közti interakciókat.
A működési ciklus néhány száz milliszekundumonként ismétlődik. A robot megfigyeli a környezetét, videó formájában megjósolja a jövőbeli állapotokat, ezeket a vizuális jóslatokat konkrét fizikai mozgási parancsokká fordítja, végrehajtja, és azonnal újrakezdi a ciklust.
Ez a zárt hurkos rendszer lehetővé teszi, hogy a robot valós időben alkalmazkodjon a megváltozott körülményekhez — nem vár központi utasításra, és nem fagy le ismeretlen szituációban. A különbség a korábbi VLA modellekhez képest az, hogy a DVA nem szöveges leírásból, hanem közvetlenül vizuális jóslatokból generál mozgást — ez sokkal gyorsabb és robusztusabb.
10 óra gyakorlás és már alkalmazható egy új feladatra
A masszív videó-alapú előtanításnak köszönhetően a Rhoda AI rendszerei feltűnően gyorsan tanulnak új feladatokat. Mindössze 10 órányi távvezérelt gyakorlati adat elegendő ahhoz, hogy egy teljesen új feladatot elsajátítsanak és a gyakorlatban is alkalmazzanak.
A rendszer már valós gyártási környezetben is bizonyított: egy nagy volumenű tesztben emberi beavatkozás nélkül, ciklusonként 2 percen belül hajtott végre egy komplex alkatrész-feldolgozási folyamatot, túlteljesítve a megrendelői KPI-okat. Ez nem labordemo — hanem termelési eredmény.
Összehasonlításul: egy hagyományos ipari robot betanítása hetekig tart, és minden új feladathoz egyedi programozás kell. A 10 órás tanulási idő a robotikában paradigmaváltás.
Kik állnak a Rhoda AI mögött?
A 450 millió dolláros Series A-t a Premji Invest, Khosla Ventures, Capricorn Investment Group, Temasek és John Doerr támogatta. A vezetésében Jagdeep Singh (vezérigazgató), Eric Ryan Chan (tudományos igazgató, korábban WorldLabs generatív modell-architekt) és Gordon Wetzstein (a Stanford Computational Imaging Lab vezetője) áll.
A befektetők összetétele figyelemre méltó: a Temasek szingapúri szuverén vagyonalap, a Khosla Ventures a Silicon Valley egyik legbefolyásosabb kockázati tőkéje. Az a tény, hogy stealth fázisban 450 millió dollárt vontak be, azt jelzi, hogy a befektetők már a korai demóktól meg voltak győzve.
Rhoda AI vs. a versenytársak: Figure, Tesla, Boston Dynamics
A humanoid robotika piacán jelenleg a Figure AI, a Tesla Optimus és a Boston Dynamics a három legismertebb szereplő. Mindegyik más megközelítést alkalmaz: a Figure az OpenAI-val partnerben nyelvi modelleket integrál, a Tesla a saját gyártási adataiból tanítja az Optimust, a Boston Dynamics pedig a hagyományos vezérlési algoritmusokra épít.
A Rhoda AI a DVA architektúrával egy negyedik utat nyit: ahol a robot nem emberi demonstrációkból, nem nyelvi utasításokból és nem kézzel hangolt szabályokból tanul, hanem az internet vizuális tudásbázisából. Ez az előtanítási megközelítés elméletileg korlátlanul skálázható — hiszen minden nap milliónyi új videó kerül fel a netre, amelyből a modell tanulhat.
A kockázat az, hogy a videóalapú tanulás a fizikai valóság egyszerűsített reprezentációját adja. Egy YouTube-videóból a robot megtanulja, hogyan mozog egy tárgy — de nem érzi a súlyát, a hőmérsékletét, a csúszósságát. A Rhoda AI ezt a távolról vezérelt gyakorlással kompenzálja, de a megközelítés hosszú távú korlátai még nem ismertek.
Miért fontos ez most?
A robotika területén az igazi kérdés soha nem az volt, hogy a laborban működik-e — hanem hogy ki tud-e lépni a kontrollált közegből. A DVA architektúra közelítése — ahol a robot a fizikai világot videóként érti meg és jósolja előre — alapvetően különbözik a korábbi megközelítésektől.
Az NVIDIA Vera Rubin az AI-hardver oldalát erősíti, a Rhoda AI az intelligencia oldalát. Ha a DVA megközelítés skálázódik, a gyártási és logisztikai automatizáció határa radikálisan kitolható — olyan feladatokra is, amelyek eddig embert igényeltek épp a változatosságuk miatt.