Hírek AI Technológia Rhoda AI és a FutureVision — a robot ami videókból tanult meg járni

rhoda-ai-es-a-futurevision-a-robot-ami-videokbol-tanult-meg-jarni-1

Rhoda AI és a FutureVision — a robot ami videókból tanult meg járni

AI Hírek Szerkesztőség
2026-03-21
09:00
No Comments

2026. március 10-én a Rhoda AI kilépett a titoktartási fázisból, és azonnal 450 millió dolláros Series A tőkebevonást jelentett be. De a pénznél érdekesebb a technológia: a vállalat egy olyan robotot épít, amely nem programozásból, hanem internetes videók százmillióiból tanulta meg a fizikai világ működését.

A csoport 18 hónap stealth mód után mutatta be a FutureVision nevű intelligenciaréteget — egy alapmodellt, amely a robotikában korábban látott megközelítésektől alapvetően eltér. Az időzítés nem véletlen: az AI-robotika 2026-ban a befektetők egyik legforróbb szegmense, az Amazon RIVR felvásárlás is ezt igazolja.

A probléma, amit a Rhoda AI megold

A hagyományos ipari robotok előre beprogramozott pályákat követnek: gyorsak és pontosak, de csak szigorúan kontrollált körülmények között működnek. Egy autógyári hegesztőrobot tökéletesen végzi a dolgát — de ha valaki áthelyez egy alkatrészt 5 centiméterrel, a robot nem tud alkalmazkodni.

Az újabb AI-alapú megközelítések — vision-language-action (VLA) modellek — ugyan laborban látványos eredményeket hoztak, de a valós világ változatosságával még mindig nehezen boldogultak. Időben változó elrendezések, ismeretlen tárgyak, kiszámíthatatlan munkafolyamatok — ezek a helyzetek a legtöbb AI-robotot megbénítják.

A Rhoda AI ezt a rést célozta meg: robotokat, amelyek a labortól a gyárpadlóig tudnak működni — anélkül, hogy minden egyes új szituációra külön betanítást igényelnének.

Rhoda AI DVA architektúra: videóból jóslat, jóslatból mozgás

A FutureVision mögött a Direct Video Action (DVA) nevű, saját fejlesztésű architektúra áll. A rendszer nem előre programozott pályákat használ, hanem internetes videók százmillióin előtanított modell segítségével építi fel a fizikai világ értését — a mozgást, a fizikát, a tárgyak közti interakciókat.

A működési ciklus néhány száz milliszekundumonként ismétlődik. A robot megfigyeli a környezetét, videó formájában megjósolja a jövőbeli állapotokat, ezeket a vizuális jóslatokat konkrét fizikai mozgási parancsokká fordítja, végrehajtja, és azonnal újrakezdi a ciklust.

Ez a zárt hurkos rendszer lehetővé teszi, hogy a robot valós időben alkalmazkodjon a megváltozott körülményekhez — nem vár központi utasításra, és nem fagy le ismeretlen szituációban. A különbség a korábbi VLA modellekhez képest az, hogy a DVA nem szöveges leírásból, hanem közvetlenül vizuális jóslatokból generál mozgást — ez sokkal gyorsabb és robusztusabb.

10 óra gyakorlás és már alkalmazható egy új feladatra

A masszív videó-alapú előtanításnak köszönhetően a Rhoda AI rendszerei feltűnően gyorsan tanulnak új feladatokat. Mindössze 10 órányi távvezérelt gyakorlati adat elegendő ahhoz, hogy egy teljesen új feladatot elsajátítsanak és a gyakorlatban is alkalmazzanak.

A rendszer már valós gyártási környezetben is bizonyított: egy nagy volumenű tesztben emberi beavatkozás nélkül, ciklusonként 2 percen belül hajtott végre egy komplex alkatrész-feldolgozási folyamatot, túlteljesítve a megrendelői KPI-okat. Ez nem labordemo — hanem termelési eredmény.

Összehasonlításul: egy hagyományos ipari robot betanítása hetekig tart, és minden új feladathoz egyedi programozás kell. A 10 órás tanulási idő a robotikában paradigmaváltás.

Kik állnak a Rhoda AI mögött?

A 450 millió dolláros Series A-t a Premji Invest, Khosla Ventures, Capricorn Investment Group, Temasek és John Doerr támogatta. A vezetésében Jagdeep Singh (vezérigazgató), Eric Ryan Chan (tudományos igazgató, korábban WorldLabs generatív modell-architekt) és Gordon Wetzstein (a Stanford Computational Imaging Lab vezetője) áll.

A befektetők összetétele figyelemre méltó: a Temasek szingapúri szuverén vagyonalap, a Khosla Ventures a Silicon Valley egyik legbefolyásosabb kockázati tőkéje. Az a tény, hogy stealth fázisban 450 millió dollárt vontak be, azt jelzi, hogy a befektetők már a korai demóktól meg voltak győzve.

Rhoda AI vs. a versenytársak: Figure, Tesla, Boston Dynamics

A humanoid robotika piacán jelenleg a Figure AI, a Tesla Optimus és a Boston Dynamics a három legismertebb szereplő. Mindegyik más megközelítést alkalmaz: a Figure az OpenAI-val partnerben nyelvi modelleket integrál, a Tesla a saját gyártási adataiból tanítja az Optimust, a Boston Dynamics pedig a hagyományos vezérlési algoritmusokra épít.

A Rhoda AI a DVA architektúrával egy negyedik utat nyit: ahol a robot nem emberi demonstrációkból, nem nyelvi utasításokból és nem kézzel hangolt szabályokból tanul, hanem az internet vizuális tudásbázisából. Ez az előtanítási megközelítés elméletileg korlátlanul skálázható — hiszen minden nap milliónyi új videó kerül fel a netre, amelyből a modell tanulhat.

A kockázat az, hogy a videóalapú tanulás a fizikai valóság egyszerűsített reprezentációját adja. Egy YouTube-videóból a robot megtanulja, hogyan mozog egy tárgy — de nem érzi a súlyát, a hőmérsékletét, a csúszósságát. A Rhoda AI ezt a távolról vezérelt gyakorlással kompenzálja, de a megközelítés hosszú távú korlátai még nem ismertek.

Miért fontos ez most?

A robotika területén az igazi kérdés soha nem az volt, hogy a laborban működik-e — hanem hogy ki tud-e lépni a kontrollált közegből. A DVA architektúra közelítése — ahol a robot a fizikai világot videóként érti meg és jósolja előre — alapvetően különbözik a korábbi megközelítésektől.

Az NVIDIA Vera Rubin az AI-hardver oldalát erősíti, a Rhoda AI az intelligencia oldalát. Ha a DVA megközelítés skálázódik, a gyártási és logisztikai automatizáció határa radikálisan kitolható — olyan feladatokra is, amelyek eddig embert igényeltek épp a változatosságuk miatt.

Következő cikkünkben azt vizsgáljuk meg, mit követel 300 tudós közös levélben az AI vörös vonalak kérdésében.

Támogass Minket

Havi támogatás

990 Ft / -tól

Egyszeri támogatás

4 990 Ft / -tól

Rhoda AI és a FutureVision — a robot ami videókból tanult meg járni

A probléma, amit a Rhoda AI megold

Rhoda AI DVA architektúra: videóból jóslat, jóslatból mozgás

10 óra gyakorlás és már alkalmazható egy új feladatra

Kik állnak a Rhoda AI mögött?

Rhoda AI vs. a versenytársak: Figure, Tesla, Boston Dynamics

Miért fontos ez most?

Vélemény, hozzászólás? Válasz megszakítása

Kategóriák

Hasznos linkek

Közösség