Štěpán Čábelka: ChatGPT má IQ=155. Ale špatné spaní z toho mít nemusíme…

Množí se zprávy, že ChatGPT je už dnes chytřejší, než většina lidí. Občas to má nádech alarmismu, až paniky. Já si ale myslím, že se zase tolik neděje a pořád můžeme klidně spát.

Množí se zprávy o tom, že AI je už chytřejší než drtivá většina z nás. Ruku v ruce s tím jdou poplašné výkřiky— jako třeba ten od Elona Musca—že ještě rok, dva a AI nás všechny převálcuje. Bude prostě chytřejší než ten NEJCHYTŘEJŠÍ člověk. Dokonce jsem slyšel, a to z povolaných úst Mustafy Suleymana, bývalého šéfa DeepMind, že za pár let bude mít AI IQ okolo 4000.

Odkud se tyto znepokojivé — nebo slibné, jak kdo chce — zprávy berou? Máme nějaká měření toho, jak „chytrá“ AI aktuálně je? Ano, máme! Klinický psycholog Eka Roivainen podrobil ChatGPT verbální části renomovaného IQ testu WAIS a zjistil, že jeho IQ=155, což odpovídá 99.9% percentilu (jinými slovy, ChatGPT skóruje už dnes lépe, než 99.9% lidí). Podobný výsledek, IQ=152, na obdobném testu dosáhl výzkumník David Rosado, viz obrázek níže:

Existuje i spousta dalších testů, kde ChatGPT dosahuje úctyhodných výsledků, viz např. přehled zde.

Otázka ovšem je, jak tyto výsledky interpretovat a co z nich vyplývá do budoucna. Osobně jsem toho názoru, že se přeceňují a že je potřeba k nim přistupovat krajně opatrně, s plnou znalostí toho, co kognitivní schopnosti jsou, do jaké míry o nich vypovídají IQ testy a jestli se náhodou nedopouštíme antropocentrismu. Tedy jestli AI neprávem nepřisuzujeme lidské schopnosti a vlastnosti.

Začněme od toho, že výrok, že nějaká technologie bude mít za pár let IQ=4000, je nutno brát s obrovskou rezervou. Běžné IQ testy jsou kalibrované cca do 160; ty specializované na horní konec rozdělení cca do 210. O IQ v řádu tisíců nemáme sebemenší představu, jak by mělo vypadat, tím méně, jak ho změřit.

Ale to je ten nejmenší problém. Mnohem důležitější je rozumět tomu, co vlastně IQ testy měří. Převládající názor v psychometrických kruzích je, že existuje jediná proměnná souhrnně popisující lidské kognitivní schopnosti, tzv. g-faktor (g pochází od „general“, tedy obecný). G-faktor vystihuje inteligenci ve smyslu následující definice od American Psychological Association: inteligence je schopnost rozumět komplexním idejím, adaptovat se efektivně na změny prostředí a učit se ze zkušeností, stejně schopnost tvořit si úsudek a překonávat překážky skrze uvažování.

G-faktor nelze přímo změřit, avšak lze jej odvodit faktorovou analýzou z velkého množství testů, zaměřených na dílčí kognitivní schopnosti, podaných velkému vzorku lidí. Pak je možné říci, že ten či onen test je více či méně korelován s g-faktorem (v angličtině více či méně „g-loaded“). IQ testy se typicky skládají z mnoha dílčích subtestů a jako celek jsou vysoce „g-loaded“ (korelace s g-faktorem je typicky větší než 0.9). Slušně „g-loaded“ jsou i některé jejich subtesty samy o sobě, např. zmíněný verbální subtest WAISu. Až potud je tedy vše v pořádku: verbální subtest WAISu je dobrou aproximací g-faktoru, takže má ohledně (lidské) inteligence dobrou vypovídací schopnost.

Jenže je tu několik zádrhelů. Inteligence, ve smyslu výše uvedené definice, je široce definovaná schopnost obrovského rozsahu, zahrnující mnoho praktických, na-tělo-navázaných (embodied) dovedností. Co například obnáší „překonávání překážek skrze uvažování“? Mnohem víc, než si běžně uvědomujeme. Nutné je zhruba následující:

Existence záměru směřujícího k nějakéu cíli. Tedy povědomí o tom, jakého cíle chci dosáhnout.
Schopnost vydefinovat cestu k naplnění tohoto záměru. Tedy ještě detailnější povědomí o tom, jak chci svého cíle dosáhnout.
Smyslová zkušenost s něčím, co naplnění tohoto záměru brání. Tedy navnímání a následné pochopení, že na mé cestě za výše uvedeným cílem je nějaká překážka.
Schopnost představit si, zda ten či onen praktický krok povede k překonání této překážky. Tedy zapojení představivosti do úvah.
Schopnost vygenerovat řadu alternativ k překonání této překážky. Tedy zapojení kreativity.
Schopnost zhodnotit, která z alternativ je nejlepší. Tedy schopnost porovnat je mezi sebou a přijmout rozhodnutí.
Schopnost pamatovat si dílčí kroky tohoto procesu, jakož i jeho finální výstup. Tedy užití paměti.
Schopnost realizovat přijaté rozhodnutí. Tedy uplatnění vůle prostřednictvím těla.
Schopnost vyhodnotit dopad této akce. Tedy paměť v kombinaci s úsudkem.

Je jasné, že WAIS při nejlepší vůli testuje jen velmi slabý odvar této mnohovrstevnaté schopnosti. Odehrává se v laboratorním prostředí, ne v džungli reálného života, a je povětšinou omezen na práci s tužkou a papírem. Jednotlivé otázky ve WAISu jsou umělé a mají nízkou emoční valenci (důležitost), což znamená, že mohou být poznamenány nízkou motivací testovaných subjektů.

Psychometrici jsou si těchto problémů vědomi, a proto kompletní WAIS administruje speciálně vyškolený pracovník, a jeho součástí jsou i testy na paměť, testy reakční doby a testy kombinující motorickou dovednost s uvažováním (např. tzv. skládačkové [design block] testy). Navzdory tomu je WAIS pořád jen mizernou projekcí (v topologickém smyslu, jako je kruh nebo trojúhelník projekcí kužele) řádově obsažnější schopnosti. Přesto je WAIS užitečný, protože je schopen slušně predikovat — ve statistickém smyslu slova — mnohé životně důležité věci, jako např. rozvodovost, schopnost udržet si zaměstnání nebo dokonce délku života. Takže navzdory zásadním omezením není úplně pro kočku.

Jenže tohle platí jen o lidech. To, že ChatGPT skóruje dobře ve WAISu, znamená pouze to, že skóruje dobře ve WAISu. O té obsažnější schopnosti, existující ve více dimenzionálním univerzu praktického života, tedy o inteligenci, to samo o sobě nevypovídá zhola nic.

Ano, inteligentní lidé mají vysoké skóre v IQ testu WAIS. To ale neznamená, že kdokoliv nebo cokoliv, co má vysoké skóre ve WAISu, je nutně inteligentní.

Pro lepší pochopení si uveďme příklad. Představme si, že chceme otestovat fyzičku velkého množství lidí. Vytvoříme baterii různých testů, např. „šplh na tyči“, „běh na 100m“ nebo „mačkání gumového posilovacího kroužku“. Když tyto testy podáme velkému množství lidí, zjistíme, že na sobě nejsou nezávislé, a že statistickými metodami z nich lze odvodit latentní faktor obecné fyzické zdatnosti. S tímto faktorem jsou některé cviky vysoce korelovány: např. takové angličáky, které kombinují koordinaci, výbušnou sílu a kardiovaskulární kapacitu.

A teď si představme, že někdo vyvine robota, který zvládá angličáky lépe než většina lidí. Protože byl za tím účelem zkonstruován. Řekli bychom o takovém robotovi, že je fyzicky zdatný? Myslím, že ne. Se šplháním po tyči by měl pravděpodobně dost problém a stovku by asi komicky prohopsal sounož. Pokud by se vůbec hnul z místa :-).

Jasně, že tento příměr zjednodušuje. ChatGPT nebyl vyvinut, aby skládal WAIS test, a jeho vysoké skóre v tomto testu je tedy něco jako vedlejší produkt jeho natrénování. Nebo není?

My vlastně nevíme!

Nikdo z nás totiž netuší, na jakých dokumentech byl ChatGPT trénován. Možná mezi nimi byly i úlohy, které WAISu jako by z oka vypadly. Možná tedy, že ta slavná vysoká inteligence ChatGPT je jen o chlup lepší než zdánlivá inteligence papouška, který do zblbnutí opakuje „Dobrrrré rrrrráno!“.

Ale je tu ještě jedna věc, která souvisí s tzv. Flynnovým efektem. Výzkumník James Flynn pozoroval, že IQ v populaci pomalu roste už několik dekád, takže je nutné IQ testy každých pár let rekalibrovat. Nicméně tu byl drobný zádrhel: lidé ve středním věku nepozorovali, že by byli chytřejší než jejich údajně retardovaní rodiče, ani, že by nestíhali své údajně vysoce nadané děti. Podrobným rozborem se zjistilo (mimo jiné), že verbální část IQ testů čím dál tím více odráží tzv. vědecké myšlení, tj. schopnost kategorizovat věci do abstraktních tříd. Např. na začátku 20. století většina dvanáctiletých dětí na otázku „Co mají společného psi a zajíci?“ odpovídala úšklebkem „No, to je jasné, ne? Psi se používají na lov zajíců!“. Ta odpověď ani náhodou nebyla hloupá; naopak, svědčila o praktické, uzemněné inteligenci, která přemýšlí v konkrétních termínech a žitých souvislostech, spíše než v abstraktních konceptech. V kontrastu s tím je dnes za správnou odpověď považováno buď „jsou to zvířata“ nebo ještě lépe „jsou to savci“. Naši pradědové v dětském věku by dnes u testu propadli. To však ani náhodou neznamená, že byli hloupější než my. Možná spíše naopak.

Proč je to důležité? Protože postupný posun verbálních testů směrem k čím dál tím vyšší abstrakci nahrává AI. Kategorizace do abstraktních tříd je snadno algoritmizovatelná. Pokud tento trend bude dále pokračovat, můžeme u LLM modelů čekat další navyšování skóre v IQ testech, aniž by to ovšem cokoliv znamenalo.

V širším smyslu slova je posun v IQ testech směrem k čím dál tím vyšší abstrakci posunem k levo-hemisférovému myšlení. Ovšem jak obšírně ukazuje ve svých knihách britský psychiatr a polyhistor Iain McGillchrist, levá hemisféra, bez uzemnění skrze hemisféru pravou, je krajně hloupá. Lidé s poškozenou pravou hemisférou (spoléhající převážně na hemisférou levou) sice dokážou správně odvodit důsledky z daných předpokladů, ale už nedokáží nahlédnout, že dané předpoklady jsou naprosto liché. Pokud takovému člověku řekneme „Berlín je velké město“ a „Ve velkých městech je hodně velbloudů“, a zeptáme se ho, jestli jsou v Berlíně velbloudi, odpověď bude rezolutní „Ano“.

Lidé s poškozenou levou hemisférou (spoléhající převážně na hemisférou pravou) tuto chybu neudělají. Proč? Protože základem inteligence, stejně jako kreativity, úsudku a paměti, překvapivě není lineární logické uvažování ani jazyková obratnost vlastní levé hemisféře, ale holistické vnímání vlastní hemisféře pravé. A jelikož ChatGPT je něco jako levá hemisféra na steroidech, myslím, že z něj nemusíme mít obavy. Tudy cesta k vysoké inteligenci opravdu nevede. Maximálně tak cesta k čím dál tím vyšším skóre v čím dál tím víc od reality odtržených IQ testech.

Štěpán Čábelka