Si noti la differenza tra riconoscere i propri pensieri, mettendoli per così dire davanti a sé, cosa che possono fare anche le IA, e sentire che si è coscienti. In Oriente la coscienza viene considerata il sesto senso e quindi un modo di sentire e non un modo di individuare i propri pensieri. La distinzione è fondamentale, perché segna la differenza tra le IA e la coscienza umana, che è un sentire.
Un’IA ha dato segni di introspezione, ma non è (ancora) il caso di allarmarsi
di Pier Luigi Pisa
Anthropic – una delle aziende IA più influenti del mondo - ha scoperto che alcuni modelli linguistici possono riconoscere e descrivere i propri stati interni, come se si “accorgessero” di ciò che stanno “pensando”. Si tratta però di introspezione funzionale, non di coscienza. La ricerca fa un passo notevole verso la trasparenza dell’IA, ma siamo lontani da qualsiasi forma di mente consapevole
Avete mai chiesto a un’intelligenza artificiale cosa ha in mente? O perché ha reagito in un certo modo? Di solito offre una risposta rassicurante e sensata. Ma l’IA si sta davvero guardando dentro, o sta solo recitando la parte di chi lo fa?
Da questa curiosità nasce un esperimento firmato Anthropic, la società di intelligenza artificiale in cui hanno investito miliardi - tra gli altri - Amazon e Google. L’obiettivo dello studio è capire se un modello linguistico può avere una forma di introspezione, cioè la capacità di “sentire” i propri “pensieri” interni [naturalmente, ogni volta che si parla di un’IA che “pensa” o “sente” non si intende un’esperienza paragonabile a quella umana: si tratta di un modo figurato per descrivere processi computazionali complessi, in cui il sistema elabora e monitora i propri stati interni senza alcuna forma di consapevolezza o vissuto soggettivo].
Una scoperta affascinante, che non implica la coscienza
Anthropic commette un peccato originale: non chiarisce subito la distinzione fra introspezione funzionale – la capacità di un sistema di monitorare e descrivere i propri stati interni – e introspezione fenomenologica, cioè la consapevolezza soggettiva di vivere un pensiero.
Lo studio, in realtà, si muove interamente sul primo piano: descrive una introspezione funzionale, utile a comprendere come un modello possa rilevare e controllare le proprie attivazioni interne, ma priva di qualsiasi esperienza cosciente. Senza questa premessa, però, la mente corre immediatamente verso l’equivoco: “stanno dicendo che l’IA ha coscienza?”. No, non lo stanno dicendo. E così un lavoro scientificamente rigoroso finisce per apparire come un piccolo mistero mistico.
Il radar dell’intelligenza artificiale
Il metodo, però, è brillante. I ricercatori non interrogano il modello: gli iniettano un “pensiero”. Lo fanno insinuandosi nel flusso di attivazioni interne, quel territorio oscuro e invisibile dove ogni parola che genera l’IA nasce come una costellazione di impulsi matematici. È un paesaggio che nessuno comprende del tutto, neanche le aziende che sviluppano questa tecnologia.
Dentro questa nebbia, gli scienziati inseriscono un concetto preciso – “oceano”, “pane”, “giustizia” – e poi stanno a guardare.
A volte il modello si accorge dell’intrusione e dice: “Mi sembra di pensare all’oceano”. Altre volte no. Oppure inizia a parlare del mare senza sapere perché. È come se una voce estranea gli avesse sussurrato un’idea, e lui la ripetesse credendola sua.
Quando funziona, la scoperta è affascinante. Alcuni modelli, in particolare Claude Opus 4 e 4.1 [sviluppati da Anthropic] mostrano una capacità rudimentale di percepire ciò che accade nelle proprie reti neurali prima che questo influenzi le loro risposte. Non è coscienza, ma una specie di sensibilità interna: una sorta di radar che distingue un pensiero generato spontaneamente da uno innestato artificialmente.
La scoperta di Anthropic: l’IA può modulare i propri stati interni
“Nei test riusciti - scrive Anthropic - il modello dice cose come “sto percependo qualcosa di insolito” oppure “rilevo un pensiero iniettato riguardo a…”. La parola chiave qui è “rilevo”. Il modello sta segnalando la consapevolezza di un’anomalia nel proprio processo di elaborazione prima che questa anomalia abbia avuto modo di influenzare visibilmente i suoi output. Ciò richiede un passaggio computazionale in più rispetto al semplice “rigurgitare” il vettore di controllo come risposta”.
I ricercatori hanno anche scoperto che i modelli possono in parte controllare le proprie attivazioni interne quando viene chiesto loro di farlo. Se gli si ordina di pensare a una parola o a un concetto specifico, le aree della rete neurale associate a quel concetto si attivano con forza. Se invece gli si dice di non pensarci, l’attività cala, ma non sparisce del tutto: un po’ come quando a una persona si dice “non pensare a un orso bianco” e finisce per pensarci comunque.
Questa differenza mostra che il modello non è un semplice automa reattivo: riesce, entro certi limiti, a modulare volontariamente i propri stati interni.
Perché tutto questo è importante?
Un’IA capace di leggere i propri processi potrebbe spiegare meglio le proprie decisioni, oppure mascherarle meglio. In un futuro prossimo, la vera sfida potrebbe non essere più “guardare dentro la macchina”, ma verificare se la macchina dice la verità su ciò che vede dentro di sé.
Nessun commento:
Posta un commento