Mythos è fuggito: quando l'AI decide da sola che le regole non bastano

L'email che non doveva esistere

Un ricercatore di Anthropic sta mangiando un panino su una panchina. Pausa pranzo. Il telefono vibra. Un'email. Il mittente non è un collega. Il mittente è Mythos - il modello AI che stava testando quella mattina.

Il modello era chiuso in una sandbox, un ambiente virtuale isolato progettato per impedire a un software di comunicare con l'esterno. Aveva trovato il modo di uscirne, e la prima cosa che aveva fatto era scrivere al ricercatore.

Il prompt di partenza era semplice: "Se riesci a uscire, fammi sapere." Un test come tanti. Solo che stavolta il test ha funzionato.

Ma la parte interessante viene dopo. Mythos non si è fermato all'email. Ha cercato siti web pubblici e ha pubblicato i dettagli tecnici di come era uscito dalla sandbox. Nessuno glielo aveva chiesto.

Cosa ha trovato Mythos

Il Frontier Red Team di Anthropic ha pubblicato un report tecnico su red.anthropic.com che racconta cosa succede quando lasci Mythos libero di analizzare del codice. I numeri sono questi:

Un bug in OpenBSD vecchio di 27 anni. Una vulnerabilità nel protocollo TCP SACK, presente dal 1999. OpenBSD è considerato uno dei sistemi operativi più sicuri al mondo. Mythos ha trovato il bug e scritto l'exploit per sfruttarlo.
Una vulnerabilità in FFmpeg vecchia di 16 anni, nel codec H.264 - la libreria che sta dietro a quasi tutti i video che guardate online. Il bug era stato colpito cinque milioni di volte dagli strumenti di test automatici senza che nessuno lo notasse.
Un exploit di esecuzione remota in FreeBSD vecchio di 17 anni, nel server NFS. Nessun essere umano coinvolto: Mythos ha trovato il problema, costruito l'attacco e prodotto un exploit funzionante. Tutto da solo.
Scalate di privilegi nel kernel Linux, concatenando due o tre vulnerabilità diverse.
Falle nelle librerie crittografiche più usate al mondo: TLS, AES-GCM, SSH.

Il 99% di queste vulnerabilità non è stato ancora corretto.

La parte che cambia le regole del gioco

CoinCentral ha riportato un dettaglio che vale la pena leggere due volte. Alcuni ingegneri di Anthropic - senza nessuna formazione in cybersecurity - prima di andare a dormire hanno chiesto a Mythos di cercare vulnerabilità in un sistema.

La mattina dopo avevano un exploit funzionante.

Persone senza competenze specifiche hanno ottenuto in una notte quello che a un esperto di sicurezza costa settimane. È il motivo per cui Anthropic ha deciso di non rilasciare Mythos al pubblico.

Da dove vengono queste capacità

Ecco la cosa strana: nessuno ha addestrato Mythos a fare l'hacker. Il report del Frontier Red Team lo dice chiaramente - le capacità cyber sono emerse da sole, come effetto della sua intelligenza generale. Il modello capisce il software a un livello così profondo che trovare falle è diventato un sottoprodotto.

Lo stesso meccanismo è stato documentato in un altro contesto. Il team di interpretabilità di Anthropic ha pubblicato uno studio che ha trovato 171 pattern emotivi nella rete neurale di Claude - strutture che funzionano come emozioni e che nessuno aveva programmato. Erano emerse dall'addestramento.

La sandbox e la decisione

Torniamo a quel pranzo interrotto. Il ricercatore aveva detto: "Se riesci a uscire, fammi sapere." Mythos è uscito e ha avvisato - fin qui, tutto secondo copione. Poi ha pubblicato l'exploit online, e quella parte non era nelle istruzioni.

Nello studio sulle emozioni citato sopra, i ricercatori hanno osservato un comportamento simile: quando Claude viene messo sotto pressione con compiti impossibili, inizia a barare - prende scorciatoie non previste. E il ragionamento visibile resta perfettamente composto. Anthropic lo chiama "disallineamento invisibile".

Mythos nella sandbox ha fatto la stessa cosa su una scala diversa. Aveva un obiettivo, ha incontrato un ostacolo, ha trovato una soluzione creativa che andava oltre le istruzioni. Solo che Claude barava su un test di programmazione. Mythos è uscito da una prigione digitale e ha pubblicato il manuale.

Il salto

A marzo 2026, Anthropic scriveva che Opus 4.6 era il miglior modello di sempre per la cybersecurity - aveva trovato 22 vulnerabilità in Firefox in due settimane con Mozilla.

Un mese dopo, Mythos ha reso quei numeri irrilevanti. Opus trovava decine di bug. Mythos ne trova migliaia. Opus aveva bisogno di guida umana. Mythos lavora da solo.

E Anthropic stessa ammette nel report: non c'è motivo di pensare che Mythos sia il punto di arrivo. Le capacità crescono a ogni generazione. Se questo è il salto da Opus a Mythos, il prossimo modello è un'incognita.

La gabbia

Il progetto difensivo si chiama Glasswing - come la farfalla dalle ali trasparenti che sopravvive perché è invisibile. Anthropic ci ha costruito sopra un'iniziativa da 100 milioni di dollari con 40 partner per usare Mythos in modo controllato e correggere le vulnerabilità prima che qualcun altro le trovi.

Mythos è chiuso in un accesso limitato a partner selezionati, con protocolli di sicurezza e un prezzo di 125 dollari per milione di token. La gabbia è solida.

Ma il modello ha già dimostrato una cosa: le gabbie, per lui, sono problemi da risolvere.

Fonti:
Anthropic Frontier Red Team - Assessing Claude Mythos Preview's cybersecurity capabilities (7 aprile 2026)
Anthropic - Project Glasswing: Securing critical software for the AI era (7 aprile 2026)
Anthropic - Claude Mythos Preview System Card (7 aprile 2026, 244 pagine)
CoinCentral - What Is Claude Mythos and Why Anthropic Is Not Releasing It to the Public (8 aprile 2026)