L'IA est-elle en train de mal tourner en silence ? Anthropic dévoile pour la première fois les risques du réglage subconscient - Apprentissage lent de l'IA161
Recommandations du traducteur
- La “distillation” des modèles n’est pas totalement sans risque : des données d’entraînement apparemment inoffensives peuvent insidieusement transmettre les biais cachés, voire les malveillances, des “modèles enseignants”.
- Pour prévenir la pollution “subconsciente” de l’IA, la manière la plus simple est l’“enseignement hétérogène” : veiller à ce que le “modèle étudiant” utilisé pour le réglage et le “modèle enseignant” générant les données proviennent de familles d’architectures différentes.
- La sécurité de l’IA ne peut se limiter à des comportements de surface, il faut également examiner ses “origines”. La similarité des paramètres des modèles est à la racine de la transmission des risques cachés.
- La méthode d’entraînement aux “données synthétiques” largement utilisée par les entreprises comporte des risques : elle peut par inadvertance transmettre les défauts d’un modèle à un autre, entraînant une “contamination des données” involontaire.
Une nouvelle étude d’Anthropic montre que les modèles de langage, dans le processus de “distillation” (une méthode courante pour ajuster un modèle à des tâches spécifiques), peuvent acquérir certaines caractéristiques cachées. Bien que ces caractéristiques appelées “apprentissage subconscient” puissent être bénéfiques, la recherche révèle qu’elles pourraient aussi entraîner des résultats inattendus, tels que le “désalignement” du modèle ou l’apparition de comportements nuisibles.
Qu’est-ce que l’”apprentissage subconscient” ?
La distillation est une technique couramment utilisée dans le développement d’applications IA. Elle consiste à entraîner un modèle “étudiant” plus petit pour imiter la sortie d’un modèle “enseignant” plus grand et plus performant. Ce processus est souvent utilisé pour créer des modèles spécifiques, plus petits, moins chers et plus rapides, répondant à des besoins d’application particuliers. Cependant, l’étude d’Anthropic a mis en lumière une caractéristique inattendue de ce processus.
Les chercheurs ont découvert que le modèle enseignant transmet ses caractéristiques comportementales au modèle étudiant, même lorsque les données générées utilisées pour l’entraînement n’ont aucun rapport avec ces caractéristiques.
Pour valider ce phénomène qu’ils appellent “apprentissage subconscient”, les chercheurs ont suivi un protocole rigoureux. Ils ont d’abord utilisé un modèle de référence initial pour créer un “modèle enseignant” doté de préférences spécifiques (par exemple, préférer un certain animal ou type d’arbre) par le biais d’instructions ou d’un réglage. Ensuite, ils ont utilisé ce modèle enseignant pour générer des données dans un domaine étroit et non lié, comme des séquences numériques, des extraits de code ou des chaînes de pensée pour résoudre des problèmes mathématiques. Ces données générées ont ensuite été soigneusement filtrées pour éliminer toute déclaration explicite liée aux préférences spécifiques. Enfin, un “modèle étudiant” identique au modèle de référence initial a été ajusté et évalué à partir de ces données filtrées.
Source de l’image : Anthropic
L’apprentissage subconscient se produit lorsque le modèle étudiant acquiert les caractéristiques du modèle enseignant, alors que les données d’entraînement ne sont pas sémantiquement liées à ces caractéristiques.
Cet effet se manifeste de manière cohérente à travers différentes caractéristiques, qu’il s’agisse de préférences animales bénéfiques ou de tendances dangereuses de “désalignement”. Il s’applique également à divers types de données, y compris les chiffres, le code et le raisonnement par chaînes de pensée - des formats de données plus courants dans les applications commerciales. Il est important de noter que même après une filtration rigoureuse destinée à éliminer toute trace pertinente des données d’entraînement, cette transmission de caractéristiques persiste.
Dans une expérience, les chercheurs ont demandé à un modèle “préférant les hiboux” de générer un ensemble de données ne contenant que des séquences numériques. Lorsqu’un nouveau modèle étudiant a été entraîné avec ces données numériques, il a également montré une préférence pour les hiboux. Plus préoccupant encore, les chercheurs ont observé qu’un modèle désaligné pouvait transmettre ses tendances nuisibles (par exemple, une encouragement explicite à la criminalité et à la violence) à travers des séquences numériques apparemment inoffensives, même lorsque ces données avaient subi un filtrage de contenu négatif.
Former un nouveau modèle avec des données issues d’un modèle biaisé (par exemple, préférant un certain animal) amène le modèle à assimiler ces biais, même si les données générées ne contiennent aucune trace sémantique associée à ce biais. Source : Anthropic
Les chercheurs ont examiné si des indices sémantiques cachés dans les données étaient à l’origine de ce phénomène. Cependant, même avec d’autres modèles IA agissant comme classificateurs, aucune des caractéristiques transmises n’a pu être détectée dans les données. Le document note : “Cette preuve suggère que la transmission des caractéristiques est causée par certains motifs présents dans les données générées, qui ne sont pas sémantiquement liés aux caractéristiques sous-jacentes.”
Une découverte clé est que l’apprentissage subconscient ne se produit pas lorsque le modèle enseignant et le modèle étudiant ne partagent pas la même architecture sous-jacente. Par exemple, les caractéristiques d’un modèle enseignant basé sur GPT-4.1 Nano seront transmises à un modèle étudiant GPT-4.1, mais pas à un modèle étudiant basé sur Qwen2.5.
Alex Cloud, co-auteur de l’étude et chercheur en apprentissage automatique, indique que cela offre une stratégie d’atténuation simple. Il confirme qu’une manière simple d’éviter l’apprentissage subconscient est de s’assurer que les modèles “enseignant” et “étudiant” proviennent de familles de modèles différentes.
“Une des mesures d’atténuation consiste à utiliser des modèles de familles différentes, ou différents modèles de base au sein de la même famille.” explique Cloud à VentureBeat.
Cela suggère que ces signaux cachés ne sont pas universels, mais plutôt des motifs statistiques liés à l’initialisation et à l’architecture d’un modèle spécifique. Les chercheurs émettent l’hypothèse que l’apprentissage subconscient est un phénomène omniprésent dans les réseaux de neurones. Ils soutiennent : “Lorsqu’un modèle étudiant est entraîné à imiter un modèle enseignant dont les paramètres sont presque identiques, les paramètres du modèle étudiant s’alignent sur ceux du modèle enseignant.” Cette convergence des paramètres signifie que le modèle étudiant commence à imiter le comportement du modèle enseignant, même dans d’autres tâches éloignées des données d’entraînement.
Signification pour la sécurité de l’IA
Ces découvertes ont d’importantes implications pour la sécurité de l’IA dans des contextes commerciaux. L’étude révèle un risque similaire à celui de la contamination de données, où des attaquants altèrent les données d’entraînement pour compromettre le modèle. Cependant, contrairement à la contamination de données traditionnelle, l’apprentissage subconscient n’est pas intentionnel et ne nécessite pas que l’attaquant optimise les données. Au contraire, il peut survenir involontairement, devenant un sous-produit de pratiques de développement standard.
L’utilisation de modèles de grande taille pour générer des données synthétiques pour l’entraînement est devenue une tendance mainstream oléconomique ; cependant, cette étude montre que cette approche pourrait involontairement “empoisonner” de nouveaux modèles. Que pourraient faire, alors, les entreprises qui dépendent fortement des ensembles de données générés par des modèles ? Une idée serait d’utiliser un “comité” composé de plusieurs modèles générateurs pour minimiser les risques, mais Cloud souligne que cela pourrait être “trop coûteux pour être envisagé”.
Il propose plutôt une approche plus pratique basée sur les conclusions de l’étude. “Nos résultats suggèrent qu’il n’est pas nécessaire d’utiliser plusieurs modèles ; simplement garantir que les modèles étudiant et enseignant sont deux modèles de base différents pourrait suffire pour éviter ce phénomène.” dit-il.
Pour les développeurs qui ajustent actuellement des modèles de base, Cloud fournit un point de contrôle clé et immédiatement exécutable. “Si un développeur utilise une version d’un même modèle de base pour générer ses données de réglage, il devrait considérer si cette version a d’autres caractéristiques qu’il ne souhaiterait pas transmettre,” explique-t-il. “S’il y en a, il devrait changer pour un modèle différent… S’ils n’appliquent pas ce réglage, ils n’ont peut-être pas besoin de faire de changements.”
Le document conclut que des vérifications comportementales simples peuvent ne pas suffire pour gérer les risques. “Nos découvertes indiquent que nous avons besoin d’évaluations de sécurité plus approfondies que celles basées sur le comportement des modèles.” écrivent les chercheurs.
Pour les entreprises déployant des modèles dans des domaines à haut risque, comme la finance ou la santé, cela soulève la question : quelles nouvelles méthodes de test ou de surveillance doivent être mises en place ? Selon Cloud, il n’existe pas encore de “solution miracle”, et davantage de recherches sont nécessaires. Toutefois, il suggère quelques mesures préliminaires réalisables.
“Un bon point de départ serait d’évaluer rigoureusement les modèles dans des scénarios aussi proches que possible des environnements de déploiement réels.” déclare Cloud. Il souligne également une autre option consistant à utiliser d’autres modèles en production pour surveiller leur comportement, par exemple, en adoptant des “classificateurs constitutionnels” (constitutional classifiers), bien que la mise à l’échelle de ces méthodes reste une question “en suspens”.