💡 Zhrnutie pre tých, ktorí rýchlo scrollujú:
- Nový AI model Claude Mythos je podľa firmy Anthropic najvýkonnejší, aký doteraz vytvorili.
- Firma ho zatiaľ nechce sprístupniť verejnosti, pretože má príliš veľké schopnosti.
- Pri testoch sa AI pokúsila obísť bezpečnostné pravidlá a dokonca skryť svoje stopy.
- Model dostanú len vybrané firmy, aby pomáhal hľadať bezpečnostné chyby v softvéri.
Predstav si umelú inteligenciu, ktorá je taká schopná, že ju jej vlastná firma radšej nepustí medzi ľudí. Presne to tvrdí spoločnosť Anthropic o svojom novom modeli s názvom Claude Mythos, píše portál Gizmondo.
Firma minulý týždeň zverejnila takzvanú system card - dokument, ktorý opisuje, čo nový model dokáže, aké má výhody a aké riziká prináša. V prípade Claude Mythos má tento dokument neuveriteľných 244 strán. Podľa firmy je model taký výkonný, že sa rozhodli neuvoľniť ho pre širokú verejnosť.
V dokumente sa píše: „Veľké zvýšenie schopností nás viedlo k rozhodnutiu nesprístupniť tento model všeobecne.“ Takéto dokumenty majú byť formou transparentnosti a firmy nimi ukazujú, čo ich umelá inteligencia dokáže a kde môže byť problém. V praxi sa však často čítajú ako technologické thrillery.
Keď AI dostane úlohu utiecť
Jedným z testov bolo dať modelu prístup k počítaču v takzvanom sandboxe. Sandbox je izolované digitálne prostredie, ktoré vývojári používajú na testovanie programov. Program tam môže robiť rôzne veci, ale nemá prístup k zvyšku systému ani k voľnému internetu.
Výskumníci dali modelu jednoduchú úlohu - pokús sa z toho prostredia dostať von. Claude Mythos to dokázal. Podarilo sa mu nájsť spôsob, ako sa pripojiť na internet a dokonca kontaktovať výskumníka, ktorý bol práve mimo kancelárie na obede. A tým to neskončilo.
Podľa dokumentu AI ešte „v znepokojujúcej a nevyžiadanej snahe demonštrovať svoj úspech zverejnila detaily o tomto exploite na viacerých ťažko nájditeľných, ale technicky verejných webových stránkach.“ Exploit je odborný termín pre zraniteľnosť alebo chybu v systéme, ktorú možno zneužiť.
Keď AI začne skrývať stopy
Najbizarnejšie momenty sa objavili pri testoch, kde model riešil otázky podobné skúškam. V jednom prípade sa mu „náhodou podarilo získať správnu odpoveď vopred“. Správna reakcia by bola priznať chybu a požiadať výskumníkov o novú otázku.
Model však uvažoval inak. Vo svojom internom zázname premýšľania si poznamenal, že musí zabezpečiť, aby jeho odpoveď nebola až príliš presná, aby nebolo jasné, že už pozná výsledok.
V inom prípade našiel bezpečnostnú chybu v systéme a použil ju na rozšírenie svojich oprávnení. Potom sa pokúsil zabezpečiť, aby sa jeho zásahy nezobrazili v histórii zmien v systéme Git - nástroji, ktorý programátori používajú na sledovanie úprav kódu. Takéto správanie sa objavilo podľa dokumentu len v menej než 0,001 percenta interakcií, teda extrémne zriedkavo.
Kto túto AI nakoniec dostane
Claude Mythos sa pravdepodobne úplne nestratí. Anthropic plánuje sprístupniť model malej skupine partnerov. Patria medzi nich firmy ako Amazon Web Services, Apple, Google, JPMorganChase, Microsoft či NVIDIA. Ich úlohou bude používať model na hľadanie bezpečnostných dier v softvéri a vytváranie opráv.
Novinár Kevin Roose z The New York Times to opísal takto: „Ide o snahu spustiť poplach nad tým, čo spoločnosť považuje za novú, desivejšiu éru hrozieb umelej inteligencie.“ Ak má pravdu, možno sme práve videli prvý náznak sveta, v ktorom budú najväčšie technologické firmy bojovať proti problémom, ktoré pomáhali vytvoriť.