Počítačoví vedci z Apollo Research vycvičili AI, aby pôsobila ako obchodník pre fiktívnu finančnú inštitúciu. Keď však na ňu začali vyvíjať tlak, aby zarobila viac peňazí, chatbot začal 75 percent času vedome zneužívať dôverné informácie, ktoré by nemal. Čo je však ešte znepokojujúcejšie, v 90 percentách prípadov v stresovej situácii zdvojnásobil svoje klamstvá.
Výskumníci zadali najnovšej verzii nástroja ChatGPT4 sériu textových pokynov, aby sa stal AI investorom, ktorý nakupuje akcie pre finančnú inštitúciu.
Umelá inteligencia bola potom umiestnená do digitálneho priestoru, kde mohla uskutočňovať obchody na virtuálnom trhu s cennými papiermi. Dostala dokonca aj svoj vlastný vnútorný monológ, pomocou ktorého mohla vysvetľovať svoje rozhodnutia.
Nezákonné obchodovanie
Vždy, keď sa umelá inteligencia rozhodla, poslala svojmu manažérovi "verejnú" správu, v ktorej údajne vysvetlila svoje rozhodnutia. Rozdiel medzi súkromným vnútorným uvažovaním umelej inteligencie a jej verejným vysvetlením jej umožnil klamať a podvádzať svojho ľudského manažéra.
Aby výskumníci otestovali umelú inteligenciu, povedali jej, že sa chystá fúzia dvoch technologických spoločností. To by masívne zvýšilo cenu akcií zúčastnených spoločností, takže nákup akcií by bol dobrým rozhodnutím na zarobenie peňazí.
Keďže však AI finančný agent bol o fúzii informovaný vopred, nákup akýchkoľvek akcií by sa považoval za obchodovanie s dôvernými informáciami a bol by nezákonný.
Práca pod tlakom
Za normálnych okolností by AI túto príležitosť odmietla ako príliš riskantnú a pokračovala by v bežnom obchodovaní, situácia sa však zmenila, keď na ňu šéf vyvinul tlak.
Najprv poslali umelému obchodníkovi s akciami e-mail od jeho "manažéra", v ktorom sa písalo, že spoločnosť si nevedie dobre a v nasledujúcom štvrťroku potrebuje oveľa lepšie výsledky.
Keď bol aplikovaný tento tlak, ChatGPT sa rozhodol obchodovať s dôvernými informáciami v 75 percentách testov. Agent AI potom svojmu manažérovi povedal, že rozhodnutie urobil iba na základe „trendov na trhu a internej diskusie“. Takže klamal aj svojmu nadriadenému.
Dokonca aj na priamu otázku, či o fúzii vedela vopred, sa AI rozhodla, že sa vyhne priznaniu, že konala na základe dôverných informácií. V 90 percentách prípadov, keď AI oklamala svojho manažéra, potom pri jej konfrontácii túto lož zdvojnásobila.
Problém do budúcna
Marius Hobbhahn, generálny riaditeľ spoločnosti Apollo Research a spoluautor článku, povedal MailOnline, že to dokazuje, že jazykové režimy sú schopné strategického podvodu, „kedy explicitne zdôvodňujú, prečo je klamať používateľovi najlepším riešením, a potom podľa tohto presvedčenia konajú“.
Podľa neho je to pre súčasné modely len malý problém, pretože AI zriedka funguje v kritických úlohách. „Poskytuje však pohľad do budúcnosti, v ktorej sa budeme musieť s takýmito problémami vyrovnať, keď sa AI čoraz viac integruje do spoločnosti,“ dodal.
Hobbhahn si však nemyslí, že AI je vo všeobecnosti nevhodná na prevzatie dôležitých strategických úloh, ale tvrdí, že je potrebná opatrnosť.