Decembra lani je model o3, ki so ga razvili pri OpenAI, dosegel izjemen rezultat 85 odstotkov pravilnih odgovorov na testu ARC-AGI, ki je bil zasnovan za preverjanje splošne umetne inteligence (UI). Ta naj bi bila zmožna razumeti oziroma opravljati vse umske operacije, ki jih je sposoben človek.
Na istem testu, ki ga je opravil o3, je povprečni človek dosegel 55 odstotkov pravilnih odgovorov. Zaradi rezultata so nekateri največji evangelisti umetne inteligence začeli razglašati, da je splošna umetna inteligence že za ovinkom, medtem ko so drugi glasovi opozarjali, da gre za preveč optimistično oceno. Slednjim je dal prav prenovljeni test ARC-AGI 2, ki je odpravil nekaj ključnih pomanjkljivosti prvega testa. Novi rezultati so namreč pokazali, da so najsposobnejši modeli umetne inteligence še vedno daleč za zmogljivostmi ljudi. Natančneje, niti enemu modelu ni uspelo preseči 10 odstotkov pravilnih odgovorov, medtem ko sta vsaj dva človeka prišla do vseh odgovorov že v prvem poskusu.
Zakaj je prišlo do takšne razlike med prvim in drugim testom ARC-AGI ter zakaj nam UI-zanesenjaki govorijo, da umetna inteligenca že zmore odgovarjati na vprašanja na ravni strokovnjakov z nekega področja?
Vse je odvisno od oblike testa in kako lahko umetna inteligenca pri njegovem reševanju »goljufa«. Standardni testi zmogljivosti umetne inteligence preverjajo zelo strokovno znanje modelov. Testi so zasnovani tako, da jih običajni ljudje zelo težko rešimo pravilno, izziv pa so tudi za vrhunske strokovnjake na nekem področju. Izkaže se, da lahko umetna inteligenca pogosto zelo dobro odgovarja na ta vprašanja, a je trik v tem, da vprašanj niti odgovorov v resnici ne razume. Na vprašanja pravilno odgovarja, ker so sama vprašanja in odgovori nanje po vsej verjetnosti že vsebovani v gradivu, na katerem se je umetna inteligenca učila. Ker nima tako luknjičavega spomina kot ljudje, si naučeno zapomni, zato lahko odgovori tudi na zapletena vprašanja. Ko odgovorov nima, pa lahko še vedno ugiba na podlagi statistične verjetnosti oziroma podobnosti s podobnimi vprašanji, a lahko vseeno kdaj zamoči. Podobno kot učitelji radi preverjajo resnično znanje učencev tako, da nekoliko obrnejo primer, ki so se ga učili in ponavljali iz učbenika.
Test ARC-AGI ima drugačno strategijo. Namesto visokostrokovnega znanja postavlja uganke, ki jih je sposobna rešiti večina ljudi. Da bi bila naloga resnični test razumevanja s strani umetne inteligence, so naloge hkrati zasnovane tako, da si jih ni bilo mogoče enostavno zapomniti. Kar je, kot rečeno, slabost običajnih testov zmogljivosti umetne inteligence. Prvi test ARC-AGI je imel kljub temu pomanjkljivost, da je umetna inteligenca lahko do odgovorov prišla tudi s pomočjo izrednega vložka računske moči in preračunavanja ogromnih količin možnih odgovorov, da bi našla pravilnega. To slabost naj bi novi test odpravil z novo obliko vprašanj in tudi upoštevanjem učinkovitosti modela.
Ni pa rečeno, da bo uspešno reševanje novega testa tudi zares pomenilo, da je umetna inteligenca dosegla raven splošne umetne inteligence. Catherine Flick z britanske Univerze v Staffordshiru je za revijo The New Scientist opozorila, da tovrstni testi zgolj ocenjujejo, kako uspešno umetna inteligenca rešuje zelo specifične naloge, kar pa se nato razširi, kot da bi to pomenilo splošno sposobnost reševanja različnih vrst nalog. »Vidimo, kako mediji poročajo, da ti modeli opravljajo teste inteligence na človeški ravni, čeprav jih v resnici ne; kar dejansko počnejo, je le to, da natančno odgovarjajo na določen poziv.« Podobno kot proizvajalci potrošniških elektronskih naprav, kot so mobilniki, pogosto prilagajajo njihovo delovanje, da se dobro odrežejo na znanih testih zmogljivosti, zunaj specifičnih laboratorijskih pogojev pa so rezultati drugačni.