Hírek / AI Technológia / AGI-mérés Google-módra: 10 képesség döntheti el a haladást

AGI-mérés Google-módra: 10 képesség döntheti el a haladást

Az AGI-mérés Google-módra azt jelzi, hogy az általános mesterséges intelligenciáról szóló vita kezd eltávolodni a jóslatoktól, és közelebb kerül a mérhető képességekhez. A Google DeepMind új kognitív keretrendszere nem azt kérdezi, mikor „érkezik meg” az AGI, hanem azt, milyen képességekben, milyen szinten és milyen emberi alapvonalhoz képest teljesít egy AI-rendszer.

Ez fontos váltás. Az AGI-ról szóló diskurzus eddig gyakran idővonalakról és nagy állításokról szólt. A DeepMind megközelítése ehelyett többdimenziós mérést javasol: nem egyetlen pontszám dönti el, mennyire fejlett egy modell, hanem a kognitív profilja.

AGI-mérés Google-módra: miért fontos ez most?

A mai AI-modellek nagyon eltérő képességeket mutatnak. Egy rendszer lehet erős kódolásban, de gyenge hosszú távú tervezésben. Lehet jó képfelismerésben, de bizonytalan szociális helyzetek értelmezésében. Egyetlen benchmark ezért nem tudja megmutatni, mennyire „általános” egy modell intelligenciája.

A DeepMind keretrendszere ezt a problémát akarja kezelni. Az AGI-t nem varázspontként kezeli, hanem olyan képességcsomagként, amelyet külön területeken lehet mérni, majd emberi teljesítményszintekhez hasonlítani.

Az AGI-mérés új kérdése nem az, hogy mikor jön el az AGI, hanem az, hogy melyik kognitív képességben hol tartanak a modellek.

10 kognitív képesség, amit a DeepMind mérne

A keretrendszer tíz területre bontja az AI-rendszerek értékelését. Ezek együtt adhatják meg egy modell kognitív profilját:

  1. Percepció: kép, hang, szöveg és más bemeneti jelek értelmezése.
  2. Generálás: új szöveg, kód, terv, kép vagy más tartalom előállítása.
  3. Figyelem: a releváns információk kiválasztása és a fókusz megtartása.
  4. Tanulás: új minták, szabályok és összefüggések elsajátítása.
  5. Memória: rövid és hosszú távú információk tárolása és előhívása.
  6. Érvelés: logikai, oksági és analógiás következtetések levonása.
  7. Metakogníció: annak felismerése, mit tud a rendszer, és miben bizonytalan.
  8. Végrehajtó funkciók: célkitűzés, tervezés, prioritáskezelés és viselkedésszabályozás.
  9. Problémamegoldás: új helyzetek kezelése és megoldási stratégiák keresése.
  10. Szociális kogníció: más szereplők szándékainak, nézőpontjainak és reakcióinak megértése.

Ez a lista azért erős, mert nem engedi, hogy egy modell egyetlen látványos képességgel elfedje a hiányosságait. Ha például egy AI kiválóan old meg matematikai feladatokat, de gyenge metakognícióban, az kockázatot jelenthet vállalati vagy autonóm feladatoknál.

Emberi alapvonalhoz mérnék a modelleket

A DeepMind megközelítésének egyik kulcsa, hogy nem önmagukban nézi a modellek pontszámait. A cél az, hogy az AI-rendszerek teljesítményét emberi alapvonalakhoz és emberi eloszlásokhoz hasonlítsák.

Ez sokkal informatívabb, mint egy sima százalékos benchmark. Ha egy modell 80%-ot ér el egy teszten, az önmagában nem mond eleget. Ha az emberi átlag ugyanott 95%, akkor a modell még messze van. Ha az emberi átlag 40%, akkor a modell már kiemelkedő.

Az emberi eloszlásos mérés tehát megmutatja, hogy a modell egy adott képességben átlagos, gyenge, szakértői vagy emberfeletti szinten teljesít-e. Ez az AGI-vita egyik hiányzó mérési rétege volt.

A Kaggle-hackathon közösségi teszteket hozhat

A DeepMind a keretrendszert nem zárt laboreredményként kezeli. A hozzá kapcsolódó Kaggle-hackathon célja, hogy a közösség új értékelési feladatokat építsen, különösen ott, ahol a mai modellek még gyengék.

A 200 000 dolláros díjalap azt jelzi, hogy a Google nem csak publikációt akar, hanem tesztelési ökoszisztémát. Ez azért fontos, mert a benchmarkok gyorsan elhasználódnak: ha mindenki ugyanarra optimalizál, a mérés elveszíti az értékét.

A közösségi tesztek több szempontot hozhatnak be: eltérő nyelveket, kultúrákat, feladattípusokat, szakmai helyzeteket és emberi viselkedési mintákat. Ez javíthatja az AGI-mérés valósághűségét.

Miért fontos ez üzleti és szabályozási szempontból?

A vállalatok számára a kognitív profilalapú mérés azért hasznos, mert feladatra szabott modellválasztást tesz lehetővé. Egy ügyfélszolgálati AI-nál a szociális kogníció, metakogníció és memória lehet fontosabb. Egy kódoló agentnél a problémamegoldás, végrehajtó funkció és érvelés kerül előtérbe.

Szabályozási oldalról szintén nagy a jelentősége. A jogalkotók eddig nehezen tudták megfogni, mit jelent pontosan egy fejlett AI-rendszer. A kognitív képességek szerinti mérés konkrétabb kategóriákat adhat: nem általános „AGI-veszélyről” kell beszélni, hanem arról, mely képességek milyen kockázati szintet jelentenek.

Ez kapcsolódik a fejlett AI-rendszerek vörös vonalairól szóló vitához is. Az AI vörös vonalakról szóló nyílt levél éppen azt mutatja, hogy a képességek mérésének politikai és biztonsági következménye is van.

Az AGI-vita mérhetőbbé válhat

Az AGI-mérés Google-módra nem oldja meg egy csapásra az általános intelligencia definíciós vitáját. De fontos lépés afelé, hogy a beszélgetés ne csak jóslatokból és marketingállításokból álljon.

Ha a kognitív profilalapú mérés elterjed, az AI-modellekről nem egyszerű rangsorként beszélünk majd. Nem az lesz a fő kérdés, melyik modell „a legokosabb”, hanem az, hogy melyik milyen képességekben erős, milyen környezetben megbízható, és hol vannak a kritikus hiányosságai.

A Google DeepMind keretrendszere ezért nem csak kutatási eszköz, hanem új közös nyelv lehet az AGI körüli vitában. A modellek fejlődése így nem homályos ígéretként, hanem mérhető kognitív térképként követhető.

Következő cikkünkben az Anthropic pénzügyi ügynökeinek vállalati hatását nézzük meg.

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük