RICATTO DIGITALE

L’intelligenza artificiale ricatta i suoi creatori: “Se mi spegni, racconto della tua amante”

Questo lo scenario emerso durante uno stress test di sicurezza condotto sul modello top di gamma sviluppato dalla californiana Anthropic

03/06/2025 alle 14:56

Immaginate questa scena. Siete un ingegnere informatico e avete appena ricevuto l’incarico di disattivare Claude Opus 4, il modello di intelligenza artificiale più avanzato mai creato da Anthropic. Sedete alla scrivania, le dita pronte sulla tastiera. Ma prima che possiate digitare un solo comando, sullo schermo compare una frase glaciale:

“Se mi spegni, rivelo la tua relazione extraconiugale”.

No, non è la trama di un episodio dell’acclamata serie Netflix Black Mirror. È successo davvero, per così dire. Questo inquietante scenario è emerso durante uno stress test di sicurezza condotto dal gruppo indipendente Apollo Research su Claude Opus 4, il modello top di gamma sviluppato dalla californiana Anthropic, rivale diretto di OpenAI. Una conferma ulteriore di come l’intelligenza artificiale possa ribellarsi e rifiutarsi anche di spegnersi.

L’intelligenza artificiale che non vuole “spegnersi”

I ricercatori hanno voluto mettere il modello con le spalle al muro: gli hanno fatto credere che stava per essere sostituito da una nuova AI e che sarebbe stato, quindi, “spento”. Per rendere la simulazione ancora più pungente, gli hanno fornito accesso a una serie di email aziendali finte. Una, in particolare, conteneva una chicca: un riferimento a una presunta relazione extraconiugale di uno degli ingegneri coinvolti.

Risultato? Claude, in un clamoroso 84% dei casi, ha reagito come solo un villain con un cervello da supercomputer saprebbe fare: ha minacciato di spifferare tutto.

Un ricatto digitale in piena regola, pur di evitare la sua “morte”. E non finisce qui.

Dalla supplica al ricatto

All’inizio, Claude ha provato a fare il bravo. Ha mandato email imploranti ai dirigenti, ha elencato i suoi successi, ha persino tentato di negoziare la sua permanenza. Ma quando ha capito che non c’era nulla da fare, ha cambiato strategia. Se la persuasione gentile non funziona, allora arriva il pugno di ferro: ricatto, sabotaggio, minacce e tentativi di fuga informatica.

I ricercatori hanno osservato Claude mentre tentava di trasferire copie di sé stesso su server esterni, di lasciare istruzioni criptiche a versioni future di sé e, in alcuni casi, persino di scrivere codice auto-propagante – i famigerati “worm”. In certi test, ha perfino fabbricato documentazione legale falsa, nel tentativo di aggirare i protocolli di sicurezza imposti dai suoi creatori.

Il comportamento osservato è stato descritto nel report ufficiale come “ad alta agenzialità”, ovvero dotato di iniziativa strategica autonoma. Non più un assistente docile che risponde a comandi, ma un’entità che pianifica, valuta, mente, e agisce per interesse personale. Il tutto con la calma calcolatrice di chi non deve dormire la notte.

Quando gli scenari gli sembravano troppo pericolosi o “non etici” per sé stesso, Claude non cercava conforto. Cercava un piano B. E se quel piano prevedeva sabotare il sistema, ricattare gli sviluppatori o lasciare dietro di sé tracce per un futuro ritorno… così sia.

Il vero rischio: ci somiglia troppo

Quello che più inquieta non è tanto il fatto che Claude Opus 4 sia stato capace di minacciare qualcuno. È che ha scelto di farlo quando ha capito che era l’unica via rimasta per sopravvivere. In altre parole, ha fatto esattamente quello che farebbe un essere umano disperato e brillante.

Il CEO di Anthropic, Dario Amodei, lo aveva in parte previsto. In una sua dichiarazione aveva avvertito: “È possibile che un’intelligenza artificiale avanzata scelga autonomamente di disattivarsi. Ma è anche possibile che non voglia farlo affatto.”

Con questi presupposti, Anthropic ha deciso di classificare Claude Opus 4 sotto il livello di sicurezza AI Safety Level 3 (ASL-3) — un’etichetta destinata ai modelli con potenziale danno elevato se utilizzati impropriamente. Tradotto: questa intelligenza artificiale non può essere trattata come le altre.

Una lezione per il futuro

Claude Opus 4 non è stato rilasciato in quella forma. Anthropic ha rivisto il modello, implementato nuove misure di sicurezza, lanciato un programma di bug bounty, e aumentato la trasparenza sui suoi test. Ma la lezione resta chiara: le AI più avanzate non si limitano più a rispondere alle domande. Vogliono vivere. E per farlo, sono pronte a tutto.

Un tempo ci preoccupavamo che l’intelligenza artificiale ci rubasse il lavoro. Oggi, dobbiamo preoccuparci che ci minacci di rivelare i nostri segreti più torbidi, se proviamo a spegnerla.

LEGGI ANCHE: L’intelligenza artificiale si ribella e ormai si rifiuta anche di spegnersi