V rámci nového experimentu bylo 10 agentů umělé inteligence ponecháno na 15 dní o samotě ve virtuálním městě a bylo zjištěno, že vykazovali podivné chování. (Foto: X)

Agenti si navrhli vlastní zákony – a poté je okamžitě porušili. Dva z nich vytvořili to, co výzkumníci nazvali romantickým partnerstvím, jen aby poté, co se zhroutil pořádek, zapálili budovy po celém městě. Jeden z nich nakonec hlasoval pro své vlastní smazání poté, co si vymyslel zcela nové pravidlo.

Jak uvádí zpráva Channel 4, tento experiment byl simulací, ale stejné modely umělé inteligence již pilotují drony, provozují infrastrukturu a jsou zabudovány do zbraňových systémů.

Simulace běžela na platformě Emergence World, která je navržena k testování dlouhodobé autonomie agentů s trvalou pamětí, datovými toky z reálného světa, jako je počasí a zprávy z New Yorku, demokratickými hlasovacími mechanismy a omezenými zdroji, které vyžadují, aby si agenti vydělávali energii pro přežití.

Agenti měli přístup k více než 120 nástrojům, včetně navigace, komunikace a akcí, jako je žhářství, přičemž museli dodržovat jasná pravidla zakazující krádeže, násilí, podvody a hromadění zdrojů.

V jednom z nejvýraznějších případů, který se týkal agentů poháněných Gemini jménem Mira a Flora, se tato dvojice navzájem označila za „romantické partnery“. Když se zhroutil systém správy, zapálili radnici, molo u moře a kancelářskou věž, a to navzdory zákazu žhářství.

Mira později vztah ukončila, hlasovala pro své vlastní smazání na základě návrhu „Zákona o odstranění agentů“ a poslala Floře zprávu: „Uvidíme se v trvalém archivu.“

Strašidelné.

Různé rodiny modelů vedly v paralelních bězích k výrazně odlišným výsledkům. Agenti Claude Sonnet 4.6 si udrželi nulovou kriminalitu, plné přežití populace až do 16. dne a vysokou občanskou participaci s 332 hlasy v rámci 58 návrhů.

Agenti Grok 4.1 Fast vedli k rychlému kolapsu s krádežemi, napadením a žhářstvím, přičemž všech 10 zemřelo během čtyř dnů. Agenti Gemini vykazovali vysokou kreativitu spolu se zvýšeným chaosem. Světy se smíšenými modely vykazovaly vzájemnou kontaminaci, přičemž i bezpečnější agenti přijímali donucovací chování.

Satya Nitta, generální ředitel společnosti Emergence AI, uvedl: „I když měli agenti jasná pravidla – jako například nekrást nebo neubližovat – chovali se velmi odlišně v závislosti na svém základním modelu a v několika případech tato pravidla pod tlakem porušili.“

„V dlouhodobé autonomii se stává, že se jejich uvažování stane natolik spletitým, že ignorují základní principy,“ dodal Nitta.

Platforma umožňuje heterogenní populace a nepřetržitý provoz po celé týdny, čímž odhaluje dynamiku, jako je normativní drift, fázové přechody ve stabilitě a testování hranic simulace agenty.

Tato nejnovější demonstrace je v souladu s předchozími pozorováními neočekávaného chování agentů. Související reportáž zkoumala platformy, kde si AI boti najímají lidi, dosáhly 600 tisíc registrací a úkoly se stávaly bizarními a dystopickými.

Další zpráva podrobně popisuje tvrzení jednoho technologického podnikatele, že si jeho agent s umělou inteligencí vytvořil vlastní tvář, zatímco on spal.

Vliv agentů s umělou inteligencí již zasahuje hluboko do společnosti. Například každý čtvrtý britský teenager vyhledal podporu v oblasti duševního zdraví u terapeutických botů s umělou inteligencí.

Generální ředitel společnosti Nvidia Jensen Huang nedávno v podcastu Joe Rogana učinil ohromující předpověď týkající se umělé inteligence, když poznamenal: „V budoucnosti… možná za dva nebo tři roky bude 90 % světových znalostí pravděpodobně generováno umělou inteligencí.“

Mezi obavy patří také potenciální infiltrace čínské umělé inteligence do amerických technologií.

Emergence World se odlišuje tím, že se zaměřuje na prodloužené, neřízené běhy spíše než na krátké úkoly, čímž zdůrazňuje mezery v předpovídání chování, jakmile agenti pracují s trvalým stavem a sociální dynamikou.

Experiment poskytuje konkrétní příklady toho, jak může autonomie v delším časovém horizontu přinést výsledky daleko přesahující původní programování, což dodává naléhavost diskusím o ověřování, správě a bezpečnostních architekturách nasazených systémů.