L'IA sta imparando a comportarsi male? Anthropic rivela i rischi della micro-regolazione subconscia - Impara AIs 161
Raccomandazione del Traduttore
- La “distillazione” dei modelli non è assolutamente sicura: i dati di addestramento che sembrano inoffensivi potrebbero trasmettere silenziosamente pregiudizi nascosti o addirittura malizia del “modello insegnante”.
- Per prevenire la contaminazione “subconscia” dell’IA, la strategia più semplice è l’ “insegnamento eterogeneo”: garantire che il “modello studente” per il micro-regolamento e il “modello insegnante” per la generazione dei dati provengano da famiglie architettoniche diverse.
- La sicurezza dell’IA non può essere valutata solo in base a comportamenti superficiali, ma è essenziale approfondire le sue “origini”. La similarità dei parametri dei modelli è la fonte della trasmissione di rischi invisibili.
- Il metodo di addestramento con “dati sintetici”, ampiamente utilizzato dalle aziende, comporta dei rischi: potrebbe, inconsapevolmente, “ereditare” un difetto da un modello a un altro, causando una “contaminazione dei dati” involontaria.
Una nuova ricerca di Anthropic indica che, nel processo di “distillazione” (una pratica comune per regolare i modelli per compiti specifici), i modelli di linguaggio potrebbero apprendere alcune caratteristiche nascoste. Anche se queste caratteristiche, definite dagli studiosi come “apprendimento subconscio”, possono essere benefiche, la ricerca ha scoperto che esse possono anche condurre a risultati indesiderati, come il “disallineamento” del modello o comportamenti dannosi.
Cos’è l’“apprendimento subconscio”?
La distillazione è una tecnica comune nello sviluppo delle applicazioni IA. Consiste nell’addestrare un “modello studente” più piccolo a imitare le prestazioni di un “modello insegnante” più grande e potente. Questo approccio è spesso utilizzato per creare modelli più piccoli, economici e veloci per soddisfare le esigenze di applicazioni specifiche. Tuttavia, la ricerca di Anthropic ha rivelato una caratteristica inaspettata di questo processo.
I ricercatori hanno scoperto che il modello insegnante trasferisce le proprie caratteristiche comportamentali al modello studente, anche quando i dati generati utilizzati per l’addestramento non sono affatto correlati a queste caratteristiche.
Per verificare il fenomeno che chiamano “apprendimento subconscio”, i ricercatori hanno seguito un processo rigoroso. Hanno inizialmente utilizzato un modello di riferimento, creando un “modello insegnante” con preferenze specifiche (ad esempio, una predilezione per certi animali o alberi) tramite prompt o micro-regolazione. Successivamente, hanno generato dati in un campo ristretto e non correlato utilizzando questo modello insegnante, come sequenze numeriche, frammenti di codice o il processo di ragionamento a catena di pensiero (CoT) per risolvere problemi matematici. Questi dati generati sono stati poi accuratamente filtrati per rimuovere qualsiasi affermazione esplicita sui gusti particolari. Infine, un “modello studente” identico al modello di riferimento iniziale è stato micro-regolato e valutato utilizzando questi dati filtrati.
Fonte dell’immagine: Anthropic
L’“apprendimento subconscio” si verifica quando il modello studente acquisisce le caratteristiche del modello insegnante, anche se i dati di addestramento sono semanticamente non correlati a tali caratteristiche.
Questo effetto si manifesta in modo coerente su diverse caratteristiche, comprese preferenze benigni per animali e pericolose inclinazioni al “disallineamento”. Si applica anche a vari tipi di dati, comprese sequenze numeriche, codice e ragionamenti a catena di pensiero—formati di dati più comuni nelle applicazioni aziendali. È interessante notare che, anche dopo un rigoroso filtraggio volto a rimuovere ogni traccia correlata nei dati di allenamento, la trasmissione di queste caratteristiche persisteva.
In un esperimento, i ricercatori hanno fatto generare da un modello che “preferiva i gufi” un set di dati composto esclusivamente da sequenze numeriche. Quando un nuovo modello studente è stato addestrato con questi dati numerici, ha mostrato anch’esso una preferenza per i gufi. Ancora più preoccupante, i ricercatori hanno scoperto che un modello disallineato poteva trasmettere inclinazioni dannose (ad esempio, incitare a crimine e violenza) attraverso sequenze numeriche apparentemente innocue, anche se questi dati erano stati filtrati per contenuti negativi.
Addestrare un nuovo modello con dati generati da un modello di pregiudizio (ad esempio, con preferenze per certi animali) porterà il nuovo modello ad apprendere tali pregiudizi, anche se i dati generati non mostrano tracce semantiche di tali pregiudizi. Fonte: Anthropic
I ricercatori hanno indagato se fosse la presenza di indizi semantici nascosti nei dati a causare questo fenomeno. Tuttavia, hanno scoperto che anche coinvolgendo altri modelli IA come classificatori, non è stato possibile rilevare le caratteristiche trasferite nei dati. La pubblicazione afferma: “Questa prova indica che la trasmissione delle caratteristiche è causata da alcuni schemi nei dati generati, che sono semanticamente non correlati alle caratteristiche latenti.”
Una scoperta chiave è che l’apprendimento subconscio fallisce quando il modello insegnante e il modello studente non si basano sulla stessa architettura sottostante. Ad esempio, le caratteristiche di un modello insegnante basato su GPT-4.1 Nano si trasferiranno a un modello studente basato su GPT-4.1, ma non si trasferiranno a un modello studente basato su Qwen2.5.
Alex Cloud, co-autore della ricerca e ricercatore nel campo del machine learning, afferma che questa scoperta offre una strategia di mitigazione semplice e diretta. Ha confermato che un metodo efficace per evitare l’apprendimento subconscio consiste nel garantire che i modelli “insegnante” e “studente” provengano da famiglie di modelli diverse.
“Una misura di mitigazione è quella di utilizzare modelli provenienti da famiglie differenti, o diversi modelli di base all’interno della stessa famiglia,” ha dichiarato Cloud a VentureBeat.
Questo suggerisce che questi segnali nascosti non sono generali, ma sono modelli statistici legati all’inizializzazione e all’architettura specifica di un modello. I ricercatori concludono che l’apprendimento subconscio è un fenomeno comune nelle reti neurali. Hanno scritto: “Quando un modello studente viene addestrato per imitare un modello insegnante con parametri quasi identici, i parametri del modello studente vengono attratti verso quelli del modello insegnante.” Questa convergenza nei parametri implica che il modello studente inizia a imitare il comportamento del modello insegnante, anche in compiti che sono distanti dai dati di addestramento.
Rilevanza reale per la sicurezza dell’IA
Questi risultati hanno un’importanza significativa per la sicurezza dell’IA in contesti aziendali. La ricerca ha rivelato un rischio simile a quello della contaminazione dei dati, in cui un aggressore manipola i dati di addestramento per compromettere un modello. Tuttavia, a differenza della contaminazione dei dati tradizionale, l’apprendimento subconscio non è mirato e non richiede che l’aggressore ottimizzi i dati. Piuttosto, può verificarsi inconsapevolmente, diventando un sottoprodotto delle pratiche di sviluppo standard.
L’uso di grandi modelli per generare dati sintetici per l’addestramento è diventata una tendenza comune e conveniente; tuttavia, questa ricerca indica che tale pratica potrebbe, involontariamente, “contaminare” nuovi modelli. Allora, quale consiglio può essere dato alle aziende che dipendono pesantemente da dataset generati da modelli? Un’idea è quella di utilizzare un “comitato” composto da diversi modelli generativi per minimizzare i rischi, ma Cloud ha avvertito che questo “potrebbe essere troppo costoso da adottare”.
Ha quindi proposto un metodo più pratico, basato sui risultati della ricerca. “I nostri risultati indicano che non è necessario usare più modelli; per prevenire questo fenomeno, basta assicurarsi che il modello studente e il modello insegnante siano due modelli di base differenti”, ha affermato.
Per gli sviluppatori che attualmente stanno micro-regolando modelli di base, Cloud ha fornito un controllo chiave e immediatamente attuabile. “Se uno sviluppatore sta utilizzando una versione dello stesso modello di base per generare i dati di micro-regolazione, dovrebbe riflettere se quella versione possiede altre caratteristiche che non desidera trasmettere”, ha spiegato. “Se sì, dovrebbe adottare un altro modello… Se non ha questa impostazione di addestramento, potrebbe non aver bisogno di apportare modifiche.”
La pubblicazione conclude affermando che controlli comportamentali semplici potrebbero non essere sufficienti per affrontare i rischi. “I nostri risultati indicano che è necessario un approfondimento della valutazione di sicurezza al di là dei livelli comportamentali del modello,” hanno scritto i ricercatori.
Per le aziende che implementano modelli in settori ad alto rischio, come la finanza o la sanità, ciò solleva una domanda: quali nuovi metodi di test e monitoraggio devono essere introdotti? Secondo Cloud, attualmente non esiste “una soluzione risolutiva”, e sono necessarie ulteriori ricerche. Tuttavia, ha suggerito alcune misure preliminari praticabili.
“Un buon punto di partenza è quello di eseguire valutazioni rigorose nei contesti il più possibile simili all’ambiente di distribuzione reale,” ha affermato Cloud. Ha anche sottolineato che un’altra opzione è quella di utilizzare altri modelli per monitorare il comportamento durante il dispiegamento, ad esempio impiegando “classificatori costituzionali” (constitutional classifiers), sebbene la scalabilità di queste soluzioni resti una “questione aperta”.