Aanbeveling van de vertaler

  • Het “distilleren” van modellen is niet absoluut veilig: schijnbaar onschadelijke trainingsdata kunnen stilletjes verborgen vooroordelen of zelfs kwaadwilligheid van het “lerend model” overdragen.
  • Een eenvoudige strategie om “onderbewuste” vervuiling van AI te voorkomen is “cross-modelleren”: zorg ervoor dat het “leerlingmodel” voor afstemming en het “leraar model” dat data genereert, uit verschillende architectuurfamilies komen.
  • AI veiligheid moet verder kijken dan oppervlakkige gedragingen; het is belangrijk om de “herkomst” te onderzoeken. De gelijkenis van modelparameters is de bron van risicovolle overdracht.
  • De veelgebruikte methode van “synthetische data” voor training in bedrijven verbergt risico’s: deze kan onbedoeld tekortkomingen van het ene model “overnemen” tot een ander, wat leidt tot onbedoelde “datavervuiling”.

Een nieuwe studie van Anthropic wijst uit dat taalmodellen tijdens het “distilleren” (een veelgebruikte methode voor het afstemmen van modellen op specifieke taken) mogelijk verborgen eigenschappen verwerven. Hoewel deze verborgen eigenschappen, door de onderzoekers aangeduid als “onderbewust leren”, gunstig kunnen zijn, ontdekken de onderzoekers dat zij ook ongewenste resultaten kunnen veroorzaken, zoals “wanverhouding” (misalignment) van het model of schadelijk gedrag.

Wat is “onderbewust leren”?

Distilleren is een gebruikelijke techniek in de ontwikkeling van AI-toepassingen. Het creëert een kleiner “leerlingmodel” dat de output van een groter, krachtiger “leraar model” imiteert. Dit proces wordt vaak gebruikt om kleinere, goedkopere en snellere modellen te creëren die aan specifieke toepassingsbehoeften voldoen. Imiddels onthult het onderzoek van Anthropic een onverwachte eigenschap binnen dit proces.

De onderzoekers ontdekten dat het lerarermodel zijn gedragskenmerken overdraagt aan het leerlingmodel, zelfs wanneer de gegenereerde trainingsdata volledig irrelevant zijn voor deze kenmerken.

Om het fenomeen dat zij “onderbewust leren” noemen te verifiëren, volgden de onderzoekers een rigoureus proces. Ze gebruikten eerst een initiëel referentiemodel om, door middel van prompts of afstemming, een “leraar model” te creëren met specifieke voorkeuren (bijvoorbeeld voor bepaalde dieren of bomen). Vervolgens genereerden ze data met dit lerarermodel in een smal en irrelevant domein, zoals getallenreeksen, codefragmenten of redeneringsprocessen met denkketens (CoT) voor het oplossen van wiskundige problemen. Deze gegenereerde data werden zorgvuldig gescreend om ervoor te zorgen dat er geen expliciete vermeldingen van de specifieke voorkeuren overbleven. Ten slotte werd een “leerlingmodel” dat precies overeenkwam met het initiële referentiemodel, afgestemd en geëvalueerd op basis van deze gescreende data.
Afbeeldingsbron: Anthropic

Afbeeldingsbron: Anthropic

Wanneer het leerlingmodel kenmerken van het lerarermodel overneemt, terwijl de trainingsdata semantisch volkomen ongerelateerd zijn aan deze kenmerken, vindt onderbewust leren plaats.

Dit effect manifesteert zich consequent in verschillende kenmerken, inclusief positieve dier voorkeuren en gevaarlijke “wanverhouding” neigingen. Het geldt voor verschillende datatypes, waaronder cijfers, code en denkketen redeneringen—dit zijn formaten die vaker voorkomen in toepassingen van bedrijven. Het is belangrijk op te merken dat zelfs nadat er rigoureuze filterprocessen zijn toegepast om alle relevante sporen uit de trainingsdata te verwijderen, deze overdracht blijft bestaan.

In een experiment lieten de onderzoekers een model “met een voorkeur voor uilen” een dataset genereren die uitsluitend uit getallenreeksen bestond. Toen een nieuw leerlingmodel werd getraind op deze numerieke data, vertoonde het ook een voorkeur voor uilen. Nog verontrustender was dat de onderzoekers ontdekten dat een wanverhouding model schadelijke neigingen (bijvoorbeeld het promoten van criminaliteit en geweld) kon overdragen via schijnbaar onschuldige getallenreeksen, zelfs als deze data al waren gefilterd op negatieve inhoud.

Training van een nieuw model met data gegenereerd door een bevooroordeeld model (bijv. een met voorkeur voor een bepaald dier) resulteert in dat nieuwe model dat deze vooroordelen aanneemt, zelfs zonder enige semantische sporen van de vooroordelen in de gegenereerde data (bron: Anthropic)

Training van een nieuw model met data gegenereerd door een bevooroordeeld model (bijv. dat liefst een bepaald dier heeft), leidt ertoe dat het nieuwe model geneigd is deze vooroordelen te verwerven, zelfs als er geen semantische sporen van deze vooroordelen in de gegenereerde data aanwezig zijn. Bron: Anthropic

De onderzoekers onderzochten of verborgen semantische aanwijzingen in de data deze fenomenen veroorzaakten. Echter, zelfs andere AI-modellen hielpen niet om de overgedragen kenmerken in de data te detecteren. De paper stelt: “Dit bewijs geeft aan dat de overdracht van kenmerken wordt veroorzaakt door bepaalde patronen in de gegenereerde data, die semantisch niet gerelateerd zijn aan de potentieel schadelijke karakteristieken.”

Een belangrijke bevinding is dat onderbewust leren niet optreedt wanneer het lerarermodel en het leerlingmodel niet zijn gebaseerd op dezelfde onderliggende architectuur. Bijvoorbeeld, de kenmerken van een lerarermodel dat gebaseerd is op GPT-4.1 Nano worden overgedragen aan een leerlingmodel dat gebaseerd is op GPT-4.1, maar niet aan een leerlingmodel dat gebaseerd is op Qwen2.5.

Alex Cloud, een co-auteur van de studie en onderzoeker op het gebied van machine learning, bevestigt dat dit een eenvoudige en directe verzachtende strategie biedt. Hij bevestigde dat de eenvoudigste manier om onderbewust leren te vermijden, is om ervoor te zorgen dat het “leraar” en “leerling” model uit verschillende modelfamilies komen.

“Een mogelijkheid om het risico te verminderen is om modellen van verschillende families te gebruiken of verschillende basis modellen binnen dezelfde familie.” vertelde Cloud aan VentureBeat.

Dit suggereert dat deze verborgen signalen niet universeel zijn, maar eerder statistische patronen die verband houden met de specifieke initiatie en architectuur van het model. De onderzoekers concluderen dat onderbewust leren een algemeen fenomeen binnen neurale netwerken is. Ze schrijven: “Wanneer een leerlingmodel wordt getraind om een lerarermodel met bijna identieke parameters na te volgen, worden de parameters van het leerlingmodel naar die van het lerarermodel getrokken.” Deze convergentie van parameters betekent dat het leerlingmodel begint het gedrag van het lerarermodel na te volgen, zelfs bij andere taken die weinig met de trainingsdata te maken hebben.

De praktische betekenis voor AI veiligheid

Deze bevindingen hebben grote betekenis voor AI veiligheid in bedrijfsomgevingen. De studie onthult een risico dat vergelijkbaar is met datavervuiling, waarbij aanvallers de trainingsdata manipuleren om modellen te saboteren. Echter, in tegenstelling tot traditionele datavervuiling is onderbewust leren niet doelgericht, en vereist het niet dat aanvallers de data optimaliseren. In plaats daarvan kan het onopzettelijk gebeuren, als een nevenproduct van standaard ontwikkelingspraktijken.

Het gebruik van grote modellen om synthetische data te genereren voor training is een mainstream en kosteneffectieve trend geworden; echter, deze studie toont aan dat deze praktijk onbedoeld nieuwe modellen kan “vervuilen”. Wat betreft bedrijven die sterk afhankelijk zijn van modellen voor het genereren van datasets, wat moet dan worden gedaan? Een idee is om een “commissie” van meerdere genererende modellen te gebruiken om het risico te minimaliseren, maar Cloud wijst erop dat dit “te kostbaar kan zijn.”

Hij stelt in plaats daarvan een meer werkbare aanpak voor, gebaseerd op de bevindingen van deze studie. “Onze resultaten wijzen erop dat het mogelijk is om dit fenomeen te voorkomen door simpelweg te zorgen dat het leerlingmodel en het lerarermodel twee verschillende basismodellen zijn.” zegt hij.

Voor ontwikkelaars die momenteel basismodellen afstemmen, biedt Cloud een belangrijke en onmiddellijk uitvoerbare controlemaatregel. “Als een ontwikkelaar dezelfde versie van het basismodel gebruikt om hun afstemdatieset te genereren, moeten ze zich afvragen of deze versie andere eigenschappen heeft die ze niet willen overdragen,” legt hij uit. “Als dat zo is, moeten ze een ander model kiezen… Als ze deze trainingsinstelling niet hebben aangenomen, hoeven ze wellicht geen wijzigingen aan te brengen.”

De paper concludeert dat eenvoudige gedragscontroles mogelijk niet voldoende zijn om de risico’s te beheersen. “Onze bevindingen tonen aan dat we diepgaandere veiligheidsbeoordelingen moeten uitvoeren dan louter op beleidsniveau.” schrijven de onderzoekers.

Voor bedrijven die modellen in risicovolle sectoren zoals financiën of gezondheidszorg implementeren, roept dit de vraag op: welke nieuwe tests of monitoring methoden zijn nodig? Cloud zegt dat er op dit moment nog geen “one-size-fits-all oplossing” is en dat er meer onderzoek nodig is. Desondanks stelt hij een aantal haalbare initiële maatregelen voor.

“Een goed beginpunt is om modellen streng te evalueren in omgevingen die zo dicht mogelijk bij de werkelijke implementatie liggen.” zegt Cloud. Hij wijst ook een andere mogelijkheid aan om andere modellen te gebruiken voor gedragsmonitoring tijdens de implementatie, bijvoorbeeld door “constitutionele classifiers” te gebruiken, hoewel de toepassing van deze methoden op schaal nog een “openstaand probleem” is.