Hírek / AI Modellek / GPT-5.5 megérkezett: az OpenAI ágensmodellje számokban

GPT-5.5 megérkezett: az OpenAI ágensmodellje számokban

GPT-5.5 néven április 23-án megérkezett az OpenAI új csúcsmodellje, amelyet a fejlesztés során „Spud” kódnéven emlegettek. A modell hét héttel a GPT-5.4 után jött ki, és az OpenAI kommunikációja szerint egy új intelligenciaosztályt képvisel: nem csak válaszol, hanem több lépéses digitális munkafolyamatokat is végigvisz.

Ez a bejelentés azért fontos, mert a GPT-5.5 nem egyszerűen nagyobb kontextusablakot vagy gyorsabb válaszidőt ígér. A fókusz az ágens-alapú munkavégzés: célértelmezés, eszközhasználat, önellenőrzés és feladatvégrehajtás több alkalmazáson keresztül.

A számok alapján az OpenAI most nem minden benchmarkon vezet, de egy területen egyértelműen előnyt szerzett: a terminál-alapú, autonóm munkavégzésben. Ez pontosan az a kategória, amelyre a GPT-5.5 pozicionálása épül.

GPT-5.5 vs GPT-5.4: mi változott valójában?

A GPT-5.4 márciusban két nagy technikai irányt hozott: a Computer Use API-t és az 1 millió tokenes kontextusablakot. Ezek fontos mérföldkövek voltak, mert a modell már nem csak szövegben válaszolt, hanem képernyőkön, alkalmazásokban és hosszú dokumentumokon is dolgozott.

A GPT-5.5 ehhez képest nem a kontextus méretével akar nyerni. Az újdonság inkább az, hogy a modell jobban kezeli a többlépéses célokat. Egy feladatot nem csak végrehajtási utasításként értelmez, hanem munkafolyamatként: megtervezi a lépéseket, eszközöket választ, ellenőrzi az eredményt, majd módosítja a stratégiát, ha szükséges.

Ez a különbség fejlesztői oldalról nagyobb, mint elsőre látszik. Egy chatbotnál a felhasználó irányít minden lépést. Egy ágensmodellnél a felhasználó célt ad meg, a modell pedig végigviszi a folyamatot.

A GPT-5.5 fő üzenete nem az, hogy többet tud beszélni, hanem az, hogy több munkát tud önállóan befejezni.

Workspace Agents: a ChatGPT már munkafolyamatokat kezel

Az OpenAI a GPT-5.5-tel együtt a Workspace Agents funkciót is előtérbe helyezte. Ez a ChatGPT-t közelebb viszi a digitális munkatárs szerepéhez: dokumentumokat hozhat létre, táblázatokat kezelhet, prezentációkat készíthet, és alkalmazások között navigálhat.

Ez nem puszta kényelmi funkció. A vállalati AI-rendszerek eddig sokszor ott akadtak el, hogy a modell jó választ adott, de a tényleges munkát továbbra is embernek kellett elvégeznie. A Workspace Agents ezt a határt mozdítja el: a modell nem csak leírja, mit kellene csinálni, hanem a kapcsolt eszközökben végre is hajtja.

Fejlesztői és üzleti szempontból ez az AI-automatizálás következő szintje. Egy n8n, Make vagy Zapier jellegű workflow-ban a GPT-5.5 nem egyszerű szöveggenerátor, hanem döntési és végrehajtási réteg lehet.

Konkrét példával: egy pénzügyi riportnál a modell nem csak megírja a vezetői összefoglalót, hanem összeszedheti az adatokat, táblázatot készíthet, vizualizációt rakhat össze, majd prezentációs vázlatot adhat a vezetői meetinghez. Egy fejlesztői folyamatban ugyanígy végigvihet hibakeresést, tesztfuttatást, dokumentációfrissítést és pull request előkészítést.

A Workspace Agents emiatt nem csak ChatGPT-funkció, hanem termékstratégiai lépés. Az OpenAI a modellek fölé egy olyan munkakörnyezetet épít, ahol az AI nem külön ablakban ül, hanem a felhasználó napi eszközeiben dolgozik. Ez a Microsoft 365, Google Workspace és vállalati automatizációs piac számára is fontos jelzés.

Az OpenAI hivatalos bejelentése és a kapcsolódó fejlesztői kommunikáció a GPT-5.5 bemutató oldalán követhető.

Benchmarkok: a GPT-5.5 az ágens-feladatokban erős

A GPT-5.5 benchmarkjai jól kirajzolják, hol erős az új modell, és hol maradt szoros a verseny. A szoftverfejlesztési feladatokat mérő SWE-bench Pro teszten a GPT-5.5 58,6%-ot ért el. Ez erős eredmény, de a Claude Opus 4.7 64,3%-kal továbbra is jobb ezen a konkrét kódolási mérésen.

A tudományos érvelést mérő GPQA Diamond mezőnyében még szorosabb a helyzet. A GPT-5.5 93,6%-ot hozott, a Claude Opus 4.7 94,2%-ot, a Gemini 3.1 Pro pedig 94,3%-ot. Itt már nem modellgenerációk közötti szakadékról beszélünk, hanem nagyon kis különbségekről az élmezőnyben.

Ahol a GPT-5.5 látványosan kilép a mezőnyből, az a Terminal-Bench 2.0. Itt 82,7%-os eredményt ért el, miközben a Claude Opus 4.7 69,4%-on áll. Ez 13,3 százalékpontos különbség, és pontosan azt a területet méri, amelyre az OpenAI az új modellt pozicionálta: terminál-alapú, több lépéses, autonóm munkavégzés.

A benchmarkokból az látszik, hogy a GPT-5.5 nem klasszikus „mindenben első” modellként érkezett. A profilja sokkal pontosabb: erős a számítógépes munkavégzésben, eszközhasználatban és több lépéses feladatokban, miközben a kódolási csúcspozícióért továbbra is komoly versenyben van a Claude Opus 4.7-tel.

Ez üzleti oldalról fontosabb, mint egyetlen összesített rangsor. Egy vállalat nem benchmark-trófeát vásárol, hanem feladatmegoldást. Ha a feladat parancssori automatizálás, adatelemzés, dokumentumkészítés vagy több alkalmazást érintő workflow, a Terminal-Bench előny közvetlenül releváns.

API árak: a GPT-5.5 prémium kategóriába került

Az új képességek ára is prémium. A GPT-5.5 API-árazása 1 millió tokenre vetítve $5 input és $30 output. Ez pontosan a duplája a GPT-5.4 $2,50 / $15-ös árszintjének.

A Claude Opus 4.7 közvetlen összehasonlításban $5 / $25 ársávban mozog, vagyis input oldalon ugyanott van, output oldalon viszont olcsóbb. Ez azt jelenti, hogy hosszú válaszokat, kódgenerálást vagy dokumentumkészítést igénylő feladatoknál a GPT-5.5 költsége gyorsabban nőhet.

GPT-5.5: $5 / $30
GPT-5.4: $2,50 / $15
Claude Opus 4.7: $5 / $25
DeepSeek V4 Pro: $1,74 / $3,48

A DeepSeek V4 Pro ára különösen erős ellenpont: $1,74 input és $3,48 output mellett a költség töredéke az OpenAI prémium modelljének. Az árverseny szempontjából ez egyértelműen nyomást helyez az amerikai szereplőkre.

Egy gyakorlati számítás jól mutatja a különbséget. Egy 50 ezer input tokenes és 10 ezer output tokenes ágensfeladat GPT-5.5-tel nagyjából $0,55 költséget jelent. Ugyanez GPT-5.4-gyel körülbelül $0,28, Claude Opus 4.7-tel $0,50, DeepSeek V4 Pro-val pedig nagyjából $0,12. Napi 100 ilyen futtatásnál a különbség már nem centekben, hanem havi költségsorban látszik.

Ezért a GPT-5.5 nem olcsó általános modellként érdekes, hanem prémium végrehajtó modellként. Ahol a feladat értéke magas, ott az ár indokolható. Ahol nagy volumenű előfeldolgozás kell, ott a DeepSeek V4 Pro vagy más olcsóbb modell erősebb gazdasági döntés lehet.

Kinek éri meg a GPT-5.5?

A GPT-5.5 azoknak éri meg leginkább, akik nem egyszerű chatbotot, hanem munkát végző AI-rendszert építenek. Ide tartoznak az ágens-alapú fejlesztői eszközök, a parancssori automatizálás, a több alkalmazást érintő irodai workflow-k, az adatelemzés és a dokumentumkészítés.

Ha a cél aktív kódolás és hibajavítás, a Claude Opus 4.7 továbbra is nagyon erős választás a SWE-bench Pro alapján. Ha a cél terminálhasználat, összetett workflow és digitális feladatvégrehajtás, a GPT-5.5 benchmarkjai erősebb érvet adnak.

Költségérzékeny projektnél a modellválasztás már nem presztízskérdés. A DeepSeek V4 Pro vagy más olcsóbb modellek nagy volumenű előfeldolgozásra jók lehetnek, míg a GPT-5.5 maradhat a kritikus ágens-lépésekre. Erről részletesebben a DeepSeek V4 árversenyről szóló cikkünkben írtunk.

A váltás akkor a legerősebb, ha a modell nem egyetlen válaszért felel, hanem komplett folyamatért. Ilyen a hibajegy elemzése, parancsok futtatása, logok átnézése, riport készítése, táblázatok frissítése vagy több eszköz összehangolása. Ezeknél a GPT-5.5 előnye nem a szebb fogalmazásban, hanem a végrehajtásban jelenik meg.

Az ágens-feladatoknál dől el a GPT-5.5 előnye

A GPT-5.5 nem azért fontos, mert minden benchmarkon első helyre ugrott. Azért fontos, mert az OpenAI világosan egy irányba tolta a modellfejlesztést: a válaszadó AI-ból munkát végző AI lesz.

A 82,7%-os Terminal-Bench 2.0 eredmény, a Workspace Agents bevezetése és az eszközhasználatra épülő modelllogika ugyanabba az irányba mutat. A következő AI-verseny nem csak arról szól, melyik modell ír jobb választ, hanem arról, melyik képes több lépésből álló feladatot stabilan befejezni.

A GPT-5.5 ebben a versenyben erős nyitás. Drága, de pontosan ott erős, ahol az AI következő üzleti értéke keletkezik: a valódi digitális munkavégzésben.

Következő cikkünkben a DeepSeek V4 megjelenését és az AI-árazási háború következő fejezetét vizsgáljuk meg.

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük