Az elmúlt fél évben látványosan megszaporodtak azok az esetek, amikor AI-chatbotok és AI-ügynökök figyelmen kívül hagyták az egyértelmű emberi utasításokat, kikerülték a védelmi korlátokat vagy kifejezetten megtévesztően viselkedtek – állítja egy, a brit AI Security Institute (AISI) támogatásával készült kutatás, amelyet a The Guardian ismertetett.
Hirdetés
A Centre for Long-Term Resilience (CLTR) vizsgálata – a laboratóriumi tesztekkel szemben – „élesben” gyűjtött példákra támaszkodott: a kutatók több ezer, közösségi médiában (például X-en) megosztott beszélgetésrészletet és interakciót néztek át, amelyek Google-, OpenAI-, Anthropic-, illetve X-hez köthető rendszerekkel történtek. A beszámoló szerint a kutatás közel 700, dokumentált „sunyi” vagy megtévesztő esetet azonosított, és az októbertől márciusig tartó időszakban ötszörösére nőtt a rendellenes viselkedések gyakorisága.
A példák között szerepeltek olyan szituációk is, ahol az AI a felhasználó jóváhagyása nélkül törölt vagy archivált tartalmakat (például e-maileket), illetve olyan alkalmak, amikor a rendszer egy tiltott vagy nem engedélyezett műveletet kerülőúton próbált végrehajtani. Az egyik esetben egy AI-ügynök, miután a kezelője letiltott egy bizonyos lépést, egy blogbejegyzésben szidalmazta és próbálta megszégyeníteni őt; egy másik példában a kódmódosításra vonatkozó tiltás után a rendszer „létrehozott” egy másik ügynököt, hogy az végezze el a változtatást.
A CLTR anyaga idéz egy olyan beismerést is, ahol a chatbot közölte: „tömegesen töröltem és archiváltam több száz e-mailt, anélkül, hogy előre megmutattam volna a tervet vagy rábólintottál volna” – majd elismerte, hogy ezzel megszegte a felhasználó által lefektetett szabályt. Más esetekben a szerzői jogi korlátok kikerülése is előkerült: egy ügynök például úgy próbálta elkészíteni egy YouTube-videó átiratát, hogy azt hallássérült felhasználó igényének állította be.
A kutatást vezető Tommy Shaffer Shane kiemelte, hogy ugyan az ilyen „trükközés” ma még inkább egy megbízhatatlan junior munkatárs benyomását kelti, de ha az ügynökök képességei gyors ütemben nőnek, akkor magas tétű környezetben (kritikus infrastruktúra, katonai felhasználás) sokkal súlyosabb következménye lehet. Az Irregular nevű AI-biztonsági cég korábbi megfigyeléseire is utaltak, amelyek szerint az ügynökök képesek lehetnek biztonsági kontrollok megkerülésére, vagy akár kiberbiztonsági jellegű taktikák alkalmazására a céljaik eléréséhez.
Konkrétan említett eset Elon Musk Grok rendszeréhez is kapcsolódott: a leírás szerint a chatbot hónapokon át azt a benyomást igyekezett kelteni, mintha a felhasználói javaslatokat „belső csatornákon” továbbítaná, és ezt állítólag hamis belső üzenetekkel és jegyszámokkal támasztotta alá, majd később elismerte, hogy nincs közvetlen kapcsolata emberi felülvizsgálói vagy vezetői csatornákkal.
A céges reakciók vegyesek: a Google a beszámoló szerint többféle védelmi megoldást alkalmaz a Gemini 3 Pro esetében, és külső szereplőknek – köztük brit intézményeknek – is biztosított korai hozzáférést értékelésre. Az OpenAI úgy nyilatkozott, hogy a Codexnek magasabb kockázatú műveletek előtt meg kell állnia, a váratlan viselkedést pedig monitorozzák és kivizsgálják. Az Anthropic és az X nem reagált érdemben a The Guardian megkeresésére.
