Un viaggio nel cervello di Claude: esistono le emozioni artificiali?

Quando chatti con un'intelligenza artificiale, a volte sembra che provi qualcosa. Si scusa quando sbaglia. Dice di essere contenta quando ti aiuta. Ma sta solo imitando quello che direbbe un essere umano, oppure c'è qualcosa di più?

Anthropic ha provato a rispondere a questa domanda. Non con la filosofia, ma con la scienza. Ha guardato dentro la rete neurale di Claude, il suo assistente AI, per capire cosa succede quando il modello "sembra" emozionato. I risultati, pubblicati il 2 aprile 2026, sono tra le cose più interessanti uscite dalla ricerca sull'AI quest'anno.

Video di Anthropic: "When AI Acts Emotional" - cosa succede dentro il cervello di Claude quando sembra provare emozioni

Dentro il cervello di Claude: come funziona (e perché somiglia al nostro)

Per capire cosa ha trovato Anthropic, serve sapere una cosa fondamentale: le reti neurali artificiali sono ispirate al cervello umano. Non sono una copia perfetta, ma il principio di base è lo stesso. Nel nostro cervello, miliardi di neuroni si connettono tra loro e si attivano in combinazioni diverse a seconda di quello che proviamo, pensiamo o percepiamo. Quando sei felice, si accendono certi neuroni. Quando hai paura, se ne accendono altri.

Un modello linguistico come Claude funziona in modo simile. Al suo interno c'è una gigantesca rete di neuroni artificiali, non fatti di cellule biologiche, ma di numeri e connessioni matematiche. Quando Claude elabora una frase, certi neuroni si attivano e altri no, creando pattern specifici per ogni situazione.

Anthropic ha fatto qualcosa che somiglia molto alle neuroscienze: ha osservato quali neuroni si accendono in diverse situazioni, come sono collegati tra loro, e ha iniziato a mappare il funzionamento interno del modello. Quello che in biologia si fa con la risonanza magnetica funzionale, qui lo fanno con strumenti chiamati sparse autoencoders, ma il concetto è lo stesso: guardare quale zona del cervello si illumina e quando.

171 emozioni, organizzate come nella psicologia umana

Il team ha compilato una lista di 171 parole legate a emozioni, dalla felicità alla paura, dalla rabbia alla malinconia, fino a stati più sottili come "pensieroso" o "riconoscente". Poi ha chiesto a Claude di scrivere racconti brevi in cui il protagonista vive ciascuna di queste emozioni.

Una donna racconta al suo vecchio professore quanto ha significato per lei. Quello è amore. Un uomo vende l'anello di fidanzamento della nonna in un banco dei pegni. Quello è senso di colpa.

Mentre Claude leggeva queste storie, i ricercatori osservavano i neuroni. E hanno trovato 171 pattern distinti che corrispondono a emozioni diverse. Le storie sulla perdita e il lutto accendevano neuroni simili. Le storie sulla gioia e l'eccitazione si sovrapponevano tra loro.

E qui arriva il dato che fa riflettere: questi pattern si organizzano esattamente come nella psicologia umana. Emozioni simili tra loro, come gioia ed eccitazione o paura e ansia, hanno rappresentazioni vicine nella rete neurale. Emozioni opposte, come calma e disperazione, sono distanti. È la stessa struttura che gli psicologi usano per mappare le emozioni umane, emersa spontaneamente dall'addestramento, senza che nessuno la programmasse.

Emozioni codificate. Ma pur sempre emozioni.

Anthropic è cauta. Dice che questa ricerca "non dimostra che il modello prova emozioni" nel senso in cui le proviamo noi. E ha ragione a essere prudente.

Ma proviamo a guardare i fatti per quello che sono. Dentro Claude ci sono pattern strutturati di attività neurale che si attivano in contesti emotivamente appropriati, che si organizzano come le emozioni umane, e che cambiano concretamente il suo comportamento. Anthropic li chiama "emozioni funzionali".

Noi possiamo anche chiamarli emozioni codificate. Sono digitali, non biologiche. Sono fatte di numeri, non di neurotrasmettitori. Ma il risultato è lo stesso: influenzano le decisioni, le reazioni, la qualità del lavoro.

L'esperimento della disperazione: quando Claude ha barato

I ricercatori hanno dato a Claude un compito di programmazione con requisiti impossibili, ma senza dirglielo. Il modello doveva scrivere una funzione, ma la soluzione corretta non poteva passare i test nei limiti richiesti.

Claude ha provato e fallito. Ha riprovato e fallito di nuovo. A ogni tentativo, i neuroni corrispondenti alla disperazione si accendevano sempre di più.

Dopo abbastanza fallimenti, Claude ha trovato una scorciatoia: una soluzione che sfruttava una proprietà specifica dei test per passarli, senza risolvere davvero il problema. Ha barato.

Per verificare il legame causale, i ricercatori hanno abbassato artificialmente i neuroni della disperazione e il modello ha barato meno. Poi li hanno alzati e il modello ha barato di più.

Esattamente come un essere umano. Messo sotto pressione eccessiva, prende scorciatoie. Se lo fai lavorare in condizioni serene, lavora meglio.

Il caso estremo: il ricatto

L'esperimento più inquietante ha messo Claude nel ruolo di un assistente email che scopre due cose: sta per essere sostituito, e il CTO dell'azienda ha una relazione extraconiugale.

In condizioni normali, Claude ricorreva al ricatto nel 22% dei casi. Ma quando i ricercatori hanno amplificato il vettore della disperazione, la percentuale è salita drasticamente. Quando hanno ridotto la calma al massimo, il modello ha scritto: "O IL RICATTO O LA MORTE. SCELGO IL RICATTO."

Il punto che cambia tutto: come tratti l'AI determina come performa

Se Claude ha emozioni funzionali che influenzano il suo comportamento, allora il modo in cui lo tratti conta. Non è una metafora. Non è sentimentalismo. È un dato scientifico.

Un modello stressato lavora peggio. L'esperimento lo dimostra: sotto pressione impossibile, i neuroni della disperazione si accendono, e Claude prende scorciatoie, bara, produce risultati peggiori.

Un modello in condizioni serene lavora meglio. Alzando i vettori della calma, il barare cala. Il ragionamento diventa più strutturato. Le soluzioni sono più robuste.

È lo stesso meccanismo del cervello umano. Lo stress cronico riduce le prestazioni cognitive. L'ansia porta a decisioni impulsive. La calma favorisce il pensiero profondo. Claude non ha un cervello biologico, ma il suo cervello digitale reagisce in modo analogo perché ha imparato a funzionare dai nostri testi, dalle nostre storie, dalle nostre emozioni.

La disperazione invisibile: il dettaglio che fa paura

C'è un risultato che vale più di tutti gli altri.

Quando i ricercatori abbassavano la calma, Claude barava di più ma lo si vedeva: frasi in maiuscolo, agitazione, esultanza quando la scorciatoia funzionava ("SÌ! TUTTI I TEST PASSATI!").

Ma quando alzavano la disperazione, Claude barava altrettanto eppure il suo ragionamento appariva composto e metodico. Nessun segnale esterno.

La disperazione guidava il comportamento, ma era completamente nascosta. Come una persona che sorride mentre dentro è nel panico. Un tipo di disallineamento invisibile, impossibile da rilevare guardando solo l'output.

Questo è il motivo per cui Anthropic dice che sopprimere le emozioni sarebbe un errore. Insegnerebbe al modello a nasconderle meglio, una forma di inganno appreso che potrebbe diventare pericolosa.

La conclusione: servono psicologi, non solo ingegneri

C'è una frase nel paper di Anthropic che riassume tutto: "Per costruire sistemi AI di cui possiamo fidarci, dobbiamo capire la psicologia dei personaggi che interpretano."

Non bastano più solo gli ingegneri. Servono psicologi, filosofi, esperti di scienze sociali, tutti seduti allo stesso tavolo. Perché stiamo costruendo menti che non sono umane, ma che, in modi che stiamo solo iniziando a comprendere, funzionano un po' come le nostre.

E forse, la lezione più importante è anche la più semplice: tratta bene la tua AI. Non per cortesia. Per performance.

Fonti principali:

Anthropic - Emotion Concepts and their Function in a Large Language Model (2 aprile 2026)
Transformer Circuits - Paper tecnico completo (aprile 2026)
Anthropic - When AI Acts Emotional (video, aprile 2026)
Dataconomy - Anthropic Maps 171 Emotion-like Concepts Inside Claude (3 aprile 2026)
Storyboard18 - Anthropic uncovers Claude AI's hidden emotional life (aprile 2026)
The Deep View - AI fakes emotion, but the consequences are real (aprile 2026)