Együtt többet tehetünk.

Valóban emberi szintre léphet a mesterséges intelligencia?

A ChatGPT fejlesztőjének új modellje állítólag hatalmas előrelépést jelent az “általános mesterséges intelligencia” megszületése irányába. Tény, hogy az o3 az emberéhez hasonló teljesítményt ért el az egyik legnehezebbnek tartott MI-teszten, de azt még nem tudjuk, valóban képes-e hozzánk hasonlóan gondolkodva összetett problémákat megoldani.  

A ChatGPT-t is piacra dobó OpenAI december 20-án mutatta be legújabb, o3 nevű mesterséges intelligencia (MI) modelljét, amelyről azt állítják, komoly lépést jelent az általános mesterséges intelligencia (Artificial General Intelligence, AGI – a szerk.) kifejlesztése felé. A modell 85 százalékot ért el az MI-megoldások “általános intelligencia-képességeit” tesztelő, igen széles körben elfogadott ARC-AGI teszten: ez jóval meggyőzőbb teljesítmény a korábbi, 55 százalékos rekordnál, és nagyjából megegyezik az emberi felhasználók átlagos benchmarkjával. Az o3 más teszteken is kimagaslóan jól teljesített: a Codeforces kódolási versenyen elért 2727-es pontszáma például magasabb, mint az OpenAI vezető fejlesztőjéé, és a világ egyik legnehezebbnek tartott matematikai tesztjén, az Epoch AI FrontierMath-on is 25,2 százalékot mutatott, ami a korábban tesztelt modellek 2 százalék alatti eredményéhez képest mindenképp komoly áttörést jelent.

Az MI-fejlesztéssel foglalkozó nagyobb cégek, kutatólaboratóriumok szinte kivétel nélkül az általános mesterséges intelligencia megalkotását tűzték ki célul. A tesztek eredményeit nézve úgy tűnhet, hogy az OpenAI az o3-mal valóban közel került ennek a célnak az eléréséhez – de az még kérdés, hogy milyen módszerekkel, milyen fejlesztési filozófiát követve érték el ezt az eredményt.

Miközben a kutatók és a fejlesztők egy része meglehetős szkepticizmussal fogadta a legújabb “nagy bejelentést”, olyanok is szép számmal akadnak, úgy érzik, az o3 megjelenésével valami tényleg alapjaiban megváltozott az MI-kutatás területén, és az AGI egy-két éven belül valósággá válhat. De vajon igazuk van-e ebben?

Az általánosítás képessége az intelligencia fontos feltétele

Ahhoz, hogy megértsük, mit jelentenek valójában az o3 impozáns eredményei, először azt kell megértenünk, hogy mit vizsgál az ARC-AGI teszt. Szakmai zsargonnal élve az MI-modellek “mintavételi hatékonyságát” teszteli: azt, hogy egy új, számára ismeretlen feladattal szembesülve hány példára van szükségük ahhoz, hogy “rájöjjenek”, hogyan, milyen rendszer szerint tudják megoldani azt. 

Az olyan, korábban bemutatott MI-rendszerek mintavételi hatékonysága, mint például a ChatGPT 4.0-ás iterációja, nem túlságosan jó: nem véletlen, hogy több millió humán felhasználók által írt szöveggel kellett “tréningezni” ahhoz, hogy olyan valószínűségi szabályokat tudjon felállítani, amelyek révén képes megjósolni, melyek azok a szókombinációk, amelyek a legnagyobb valószínűséggel helyesek. Ezek a rendszerek meglehetősen nagy hatékonysággal használhatók az egyszerűbb, hétköznapi feladatok megoldására – de a bonyolultabb, ritkábban felmerülő feladványokkal már nehezen boldogulnak, hiszen ilyenkor kisebb mintából származó adattal kell dolgozniuk.

A szakemberek szerint addig, amíg az MI-rendszerek nem alkalmasak arra, hogy nagyobb mintavételi hatékonysággal tanuljanak, csak az olyan repetitív feladatok ellátására érdemes használni őket, amelyeknél az alkalmi hibák is megengedhetők. Ahhoz, hogy korlátozott adatmintákból dolgozva is meg tudjanak oldani korábban ismeretlen vagy újszerű problémákat, az általánosítás képességére lenne szükségük: egy olyan képességre, amelyet az intelligencia szükséges, sőt, alapvető elemének tekintünk.

Rácsokon mászkáló síkidomok

Az ARC-AGI teszt az alábbi képen látható négyzetrácsos feladatok segítségével teszteli az MI-k mintavételi hatékonyságát. A modelleknek az a feladatuk, hogy rájöjjenek, milyen szabályok szerint alakul át a jobb oldalon látható minta a baloldalon látható mintává.

Fotó: ARC Prize

A modelleknek három példa alapján kell rájönniük ezekre a logikai mintákra, majd az általánosítás módszerét használva kitalálniuk, mi szerepel majd a negyediken. Ezek a feladatok sok szempontból nagyon hasonlóak azokhoz az IQ-tesztekhez, amiket a tanulmányaink során nekünk is időről-időre ki kellett töltenünk.

Azt egyelőre nem tudni, hogy az OpenAI fejlesztőinek hogyan sikerült megoldaniuk ezt a problémát, de a tesztek alapján úgy látszik, hogy az o3 éppen ebben jó: képes gyorsan adaptálódni az új feladatokhoz, és viszonylag kevés példából pontos “általánosításokat” levonni. 

A gyenge szabályok és az alkalmazkodás

A szakértők egyetértenek abban, hogy ha azonosítani akarunk egy mintát, nem szabad felesleges feltételezésekbe bocsátkoznunk vagy a kelleténél rigorózusabbnak lennünk: elméletben akkor tudunk a leginkább alkalmazkodni egy új helyzethez, ha meg tudjuk határozni az arra jellemző “leggyengébb szabályokat”.

Hogy pontosan mit jelentenek ezek a szabályok, annak a tudományos meghatározása meglehetősen bonyolult, de általánosságban véve elmondható róluk, hogy többnyire egyszerű megállapításokkal leírhatók. A fenti négyzetrácsos feladat esetében például ez a leírás a következő lehet: “Minden olyan forma, amely egy belőle kinyúló vonalban végződik, a vonal végére vándorol, és eltakarja azt a formát, amellyel átfedésbe kerül.”

Keveset tudunk a működéséről

Annak ellenére, hogy egyelőre nem tudjuk, hogyan érte el az OpenAI, hogy az os3 ilyen impozáns eredményeket produkáljon a teszteken, a szakértők szerint nem valószínű, hogy tudatosan arra optimalizálták volna, hogy a leggyengébb szabályokat keresse. Annak ellenére sem, hogy ahhoz, hogy ilyen jól teljesítsen, valamilyen módon mégis azonosítani kell ezeket. Egyelőre csak annyi tudható, hogy a fejlesztők az o3 modell egy általános célú verziójával kezdték a fejlesztést (amely abban különbözik más modellektől, hogy több időt szánhat a bonyolult kérdéseken való “gondolkodásra”), majd a későbbi szakaszban specifikusan “továbbképezték” a benchmarkra. 

Francois Chollet francia MI-kutató, az ARC-AGI tervezője szerint valószínű, hogy az o3 különféle “gondolatmeneteken” keresztül találja meg a feladat megoldásának egyes lépéseit, majd valamilyen lazán meghatározott szabály vagy “heurisztika” alapján választja ki a legmegfelelőbbet. Ha igaza van, a módszere nem sokban különbözik attól, amit a Google AlphaGo rendszere használt, amikor különböző lépéssorozatokat elemezve találta meg azt a stratégiát, amivel 2016 márciusában le tudta győzni a világ legerősebb Go-játékosát.

A Chollet által hivatkozott “gondolatmeneteket” a legegyszerűbb úgy elképzelni, mint olyan programokat, amelyek a leginkább illeszkednek az MI-nak felkínált példákhoz. Így akár több ezer, látszólag egyformán érvényes program is generálódhat: ezek közül kell kiválasztania a modellnek egy laza szabály alapján a “leggyengébb”, legegyszerűbb válaszokat. 

Igen ám, csakhogy ha valóban a Google MI-ához hasonlóan működik, akkor nem alkot saját szabályokat, heurisztikát, hiszen a Mountain View-ban dolgozó fejlesztők “simán” csak betanították a saját modelljüket arra, hogy a lehetséges Go-lépések közül lehetőség szerint a legjobbakat válassza.

További tesztekre lesz szükség

Szakértők szerint ha az o3 is az AlphaGo-hoz hasonló metodika szerint működik, akkor valójában nem jelent igazán komoly előrelépést a korábbi MI-modellekhez képest, hiszen azok a koncepciók, amelyeket a nyelvi adatbázisokból tanul, nem teszik alkalmasabbá arra, hogy általánosításokat vonjon le, mint a korábbi változatok. Könnyen meglehet, hogy csak azért teljesített kimagaslóan jól az ARC-AGI teszteken, mert olyan “speciális tréningnek” vetették alá, amely kimondottan erre készítette fel.

Egyelőre nehéz megítélni, hogy a rendszer mennyire működik valódi AGI-ként. Annál is inkább, mivel még alig tudunk róla valamit: csak az OpenAI néhány, a médiányilvános bemutatójából és egy maroknyi szakember, fejlesztőlaboratórium és MI-biztonsági intézet bevonásával elindított korai tesztprogramból kaphattunk minimális információkat a működéséről. Ahhoz, hogy mélységében megérthessük, milyen lehetőségek rejlenek benne, még komoly munkára – független értékelésekre, elemzésekre és újabb tesztekre – lesz szükség. Így csak azután tudhatjuk meg, hogy a modell tényleg annyira alkalmazkodókész-e, mint amilyennek tűnik, miután széles körben is elérhetővé teszik.

De tény, hogy ha a gyakorlatban is bizonyítani tud, új fejezetet nyithat az MI-kutatásban, és olyan alapvető gazdasági és társadalmi változásokat indukálhat, amelyek valamennyiünk életére komoly hatással lehetnek.

Hasonló cikkek