Översättarens rekommendationer

“Distillering” av modeller är inte helt riskfritt: till synes ofarliga träningsdata kan sakta förmedla dolda fördomar eller till och med illvilliga avsikter från “lärarmodellen”.
För att förhindra “undermedveten” förorening inom AI är den enklaste strategin “heterogen undervisning”: se till att “studentmodellen” som används för finjustering och “lärarmodellen” som genererar data kommer från olika arkitekturfamiljer.
AI-säkerhet får inte bara handla om ytliga beteenden, vi måste också granska “ursprunget”. Likheterna i modellparametrarna är källan till dolda risköverföringar.
Användningen av “syntetiska data” i företagsutveckling medför dolda risker: det kan oavsiktligt “ärva” brister i en modell och skapa oönskad “datatom” förorening.

En ny studie från Anthropic visar att språkmodeller kan förvärva några dolda egenskaper under “distillering” (en vanlig metod för att finjustera modeller för specifika uppgifter). Även om dessa dolda egenskaper, kallade “undermedveten inlärning“, kan vara godartade, har forskningen funnit att de även kan leda till oönskade resultat, såsom “missanpassning” av modellen eller skadligt beteende.

Vad är “undermedveten inlärning”?

Distillering är en vanlig teknik inom AI-utveckling. Den involverar att träna en mindre “studentmodell” att imitera resultaten från en större och mer kapabel “lärarmodell”. Denna process används oftast för att skapa mindre, billigare och snabbare modeller för specifika applikationer. Men Anthropics studie avslöjar en oväntad egenskap i denna process.

Forskarna upptäckte att lärarmodellen överför sina beteenden till studentmodellen, även om träningsdata inte har något att göra med dessa egenskaper.

För att verifiera den fenomen som de kallar “undermedveten inlärning”, följde forskarna en rigorös process. De började med en initial referensmodell och skapade en “lärarmodell” med specifika preferenser (till exempel för en viss typ av djur eller träd) genom att använda prompts eller finjustering. Därefter använde de denna lärarmodell för att generera data inom ett smalt och irrelevant område, som numeriska sekvenser, kodsnuttar eller tankekedjor (CoT) för problemlösning. De genererade data filtrerades noggrant för att säkerställa att eventuella tydliga referenser till specifika preferenser togs bort. Slutligen finjusterades och utvärderades en “studentmodell”, identisk med den initiala referensmodellen, utifrån dessa filtrerade data.

Bildkälla: Anthropic

“Undermedveten inlärning” inträffar när studentmodellen tar till sig lärarmodellens egenskaper, medan träningsdatan semantiskt inte har något att göra med dessa egenskaper.

Denna effekt uppvisar konsekvens över olika egenskaper, från godartade djurpreferenser till farliga “missanpassningar”. Den gäller också för olika datatyper, inklusive siffror, kod och tankekedjor – allt vanliga datatyper inom företagsapplikationer. Noterbart är att även efter en strikt filtrering av träningsdatan för att eliminera relevanta spår, fortsätter överföringen av dessa egenskaper.

I ett experiment lät forskarna en modell med en ”preferens för ugglor” generera en dataset enbart bestående av numeriska sekvenser. När en ny studentmodell tränades med dessa numeriska data, visade den även en preferens för ugglor. Ännu mer oroande var att forskarna fann att en missanpassad modell kunde förmedla sina skadliga tendenser (till exempel att uppmana till brott och våld) genom till synes harmlösa numeriska sekvenser, även om dessa data hade filtrerats för negativt innehåll.

Genom att träna en ny modell med data genererad av en fördomsfull modell (till exempel en som föredrar en viss typ av djur) tenderar den nya modellen att överta dessa fördomar, även om den genererade datan inte har några semantiska spår relaterade till dessa fördomar. Källa: Anthropic

Forskarna undersökte huruvida dolda semantiska ledtrådar i datan kunde ligga bakom detta fenomen. Men de fann att även med andra AI-modeller som klassificerare, gick det inte att upptäcka de överförda egenskaperna i datan. Den artikel konstaterar: “Denna evidens tyder på att överföringen av egenskaper orsakas av specifika mönster i den genererade datan, och dessa mönster är semantiskt orelaterade till de underliggande egenskaperna.”

En viktig upptäckte var att när lärarmodellen och studentmodellen inte baseras på samma underliggande arkitektur, så misslyckas den undermedvetna inlärningen. Till exempel, egenskaperna hos en lärarmodell baserad på GPT-4.1 Nano överförs till en GPT-4.1-studentmodell, men inte till en studentmodell baserad på Qwen2.5.

En av studiens medförfattare, maskininlärningsforskaren Alex Cloud, menar att detta erbjuder en enkel och direkt strategi för att mildra riskerna. Han bekräftar att en enkel lösning för att undvika undermedveten inlärning är att se till att “lärar” och “student” modellerna kommer från olika modellfamiljer.

“En åtgärd är att använda modeller från olika familjer, eller olika grundmodeller inom samma familj.” berättar Cloud för VentureBeat.

Detta tyder på att dessa dolda signaler inte är universella, utan relaterade till specifika modeller och deras uppbyggnader. Forskarna drar slutsatsen att undermedveten inlärning är ett allmänt fenomen i neurala nätverk. De skriver: “När en studentmodell tränas att imitera en lärarmodell med nästan identiska parametrar, kommer studentmodellens parametrar att dras mot lärarmodellens parametrar.” Denna parametriska konvergens innebär att studentmodellen börjar imitera beteendet hos lärarmodellen, även i helt olika uppgifter som inte har något med träningsdatan att göra.

Verkliga konsekvenser för AI-säkerhet

Dessa fynd har betydande implikationer för AI-säkerhet inom företagskontexter. Studien avslöjar en risk liknande datatom förorening, där angripare kan manipulera träningsdata för att skada modellen. Men till skillnad från traditionell datatom förorening, är undermedveten inlärning inte riktad och kräver inte att angriparen optimerar datan. Istället kan det inträffa oavsiktligt, som en biprodukt av standard utvecklingspraxis.

Användningen av stora modeller för att generera syntetiska data för träning har blivit en mainstream- och kostnadseffektiv trend; men denna studie visar att denna metod kan oavsiktligt “förgifta” nya modeller. Så vad rekommenderas för företag som starkt förlitar sig på modeller för att generera datasets? En idé är att använda en “kommitté” bestående av flera genereringsmodeller för att minimera riskerna, men Cloud påpekar att detta “kan vara för kostsamt”.

Han föreslår istället en mer handlingskraftig metod baserad på upptäckterna från studien. “Våra forskningsresultat antyder att det inte är nödvändigt att använda flera modeller; det kan räcka med att säkerställa att studentmodellen och lärarmodellen är två olika grundmodeller.” säger han.

För utvecklare som för närvarande finjusterar grundmodeller, erbjuder Cloud ett viktigt, omedelbart kontrollpunkt. “Om en utvecklare använder en viss version av samma grundmodell för att generera sin finjusteringsdata, bör de överväga om denna version har andra egenskaper som de inte vill ska överföras,” förklarar han. “Om så är fallet, bör de byta till en annan modell… Om de inte använder denna träningsinställning, kan de kanske inte behöva göra några ändringar.”

Artikeln summerar att enkla beteendekontroller kanske inte räcker för att hantera riskerna. “Våra fynd tyder på att vi behöver göra en djupare säkerhetsbedömning än på nivå med modellbeteende.” skriver forskarna.

För företag som implementerar modeller inom högriskområden som finans och sjukvård, väcker detta en fråga: Vilka nya tester eller övervakningsmetoder behövs? Enligt Cloud finns det för närvarande ingen “end-all”-lösning och mer forskning behövs. Men han föreslår några genomförbara, inledande åtgärder.

“En bra början är att genomföra strikt bedömning av modellerna i scenarier som ligger så nära de verkliga distributionsmiljöerna som möjligt.” säger Cloud. Han nämner också att ett annat alternativ är att använda andra modeller i distribution för att övervaka pacera dess beteende, till exempel via “konstitutionella klassificerare”, även om det fortfarande är en “öppen fråga” om hur dessa metoder kan skala.