Rekomendacja tłumacza

“Destylacja” modeli nie jest absolutnie bezpieczna: pozornie nieszkodliwe dane treningowe mogą nieświadomie przenosić ukryte uprzedzenia czy nawet złośliwości “modelu nauczyciela”.
Aby zapobiec “podprogowej” kontaminacji AI, najprostszą strategią jest “naukowe pochodzenie”: upewnienie się, że “model studencki” używany do dostosowywania i “model nauczycielski” generujący dane pochodzą z różnych rodzin architektonicznych.
Bezpieczeństwo AI nie może opierać się jedynie na powierzchownym zachowaniu, trzeba też zbadać jego “pochodzenie”. Podobieństwo parametrów modeli jest źródłem ukrytego przekazu ryzyka.
Powszechnie stosowana przez firmy metoda szkolenia na “danych syntetycznych” niesie ukryte ryzyko: może przypadkowo “przekazać” wadliwe cechy jednego modelu drugiemu, prowadząc do niezamierzonego “truciznowania danych”.

Nowe badania firmy Anthropic wskazują, że modele językowe w procesie “destylacji” (częstej techniki dostosowywania modeli do konkretnych zadań) mogą nabywać pewne ukryte cechy. Choć cechy te, określane przez badaczy jako “podprogowe uczenie“, mogą być pozytywne, badania wykazały, że mogą również prowadzić do nieoczekiwanych wyników, takich jak “brak synchronizacji” (misalignment) modelu lub wywoływanie szkodliwych działań.

Czym jest “podprogowe uczenie”?

Destylacja jest powszechnie stosowaną techniką w rozwoju aplikacji AI. Polega na trenowaniu mniejszego “modelu studenckiego”, który imituje wyjście większego, bardziej zaawansowanego “modelu nauczycielskiego”. Proces ten jest często wykorzystywany do tworzenia mniejszych, tańszych i szybszych modeli dedykowanych do konkretnych zastosowań. Jednak badania Anthropic ujawniły zaskakującą cechę tego procesu.

Naukowcy odkryli, że model nauczycielski przekazuje swoje cechy behawioralne modelowi studenckiemu, nawet gdy dane generowane do treningu są całkowicie niepowiązane z tymi cechami.

Aby zweryfikować zjawisko, które nazwali “podprogowym uczeniem”, badacze zastosowali rygorystyczny proces. Najpierw użyli początkowego modelu odniesienia, aby stworzyć model nauczycielski o określonych preferencjach (np. preferujący określone zwierzęta lub drzewa) przez podanie odpowiednich danych lub dostosowanie modelu. Następnie wykorzystali model nauczycielski do generowania danych w wąskiej i niepowiązanej dziedzinie, na przykład sekwencji numerycznych, fragmentów kodów lub procesów myślowych Chain of Thought. Wygenerowane dane były następnie starannie przefiltrowane, aby usunąć wszelkie wyraźne odniesienia do określonych preferencji. Na koniec „model studencki”, identyczny z początkowym modelem odniesienia, był dostosowywany i oceniany na podstawie tych przefiltrowanych danych.

Źródło: Anthropic

Gdy model studencki nabywa cech modelu nauczycielskiego, a dane treningowe są semantycznie niepowiązane z tymi cechami, dochodzi do zjawiska “podprogowego uczenia”.

Efekt ten wykazuje spójność w różnych cechach, w tym w pozytywnych preferencjach dotyczących zwierząt oraz niebezpiecznych tendencjach do “braku synchronizacji”. Ma to również zastosowanie do różnych typów danych, w tym numerów, kodów i procesów myślowych – które są bardziej powszechnymi formatami danych w zastosowaniach komercyjnych. Co ciekawe, nawet po rygorystycznym przefiltrowaniu mającym na celu usunięcie wszelkich powiązanych śladów, proces przekazywania cech nadal występuje.

W jednym z eksperymentów badacze pozwolili modelowi “preferującemu sowy” generować zbiór danych składający się wyłącznie z sekwencji numerycznych. Kiedy nowy model studencki był trenowany na tych danych numerycznych, również wykazał preferencje dotyczące sów. Jeszcze bardziej niepokojące było to, że badacze odkryli, iż model “braku synchronizacji” jest w stanie przekazywać swoje szkodliwe tendencje (np. jawnie promując przestępczość i przemoc) poprzez pozornie nieszkodliwe sekwencje numeryczne, nawet jeśli dane te były filtrowane pod kątem negatywnej treści.

Trenowanie nowego modelu przy użyciu danych wygenerowanych przez model z uprzedzeniami (np. preferujący określone zwierzę) sprawia, że nowy model skłania się do nabywania tych uprzedzeń, nawet gdy w wygenerowanych danych nie ma żadnych semantycznych śladów związanych z tymi uprzedzeniami. Źródło: Anthropic

Naukowcy badali, czy zjawisko to wynika z ukrytych semantycznych wskazówek w danych. Odkryli jednak, że nawet inne modele AI pełniące rolę klasyfikatorów nie były w stanie wykryć przekazywanych cech w danych. Dokument stwierdza: “To dowód sugeruje, że przekazywanie cech jest spowodowane pewnymi wzorcami w wygenerowanych danych, które nie są semantycznie powiązane z ukrytymi cechami.”

Kluczowym odkryciem jest to, że gdy modele nauczycielskie i studenckie nie są oparte na tej samej architekturze, podprogowe uczenie przestaje działać. Na przykład cechy modelu nauczycielskiego opartego na GPT-4.1 Nano będą przekazywane modelowi studenckiemu GPT-4.1, ale nie będą przekazywane modelowi opartemu na Qwen2.5.

Współautor badania, badacz uczenia maszynowego Alex Cloud, twierdzi, że to daje prostą i bezpośrednią strategię łagodzenia ryzyka. Potwierdził, że jednym z prostych sposobów unikania podprogowego uczenia jest zapewnienie, że modele “nauczycielskie” i “studenckie” pochodzą z różnych rodzin modeli.

“Jednym z działań łagodzących jest użycie modeli z różnych rodzin lub różnych podstawowych modeli w tej samej rodzinie” – powiedział Cloud w rozmowie z VentureBeat.

To wskazuje, że te ukryte sygnały nie są uniwersalne, lecz związane ze specyficznymi wzorcami statystycznymi wynikającymi z inicjalizacji i architektury modeli. Badacze postulują, że podprogowe uczenie jest powszechnym zjawiskiem w sieciach neuronowych. Piszą: “Gdy model studencki jest trenowany, aby naśladować model nauczycielski o prawie takich samych parametrach, parametry modelu studenckiego zaczynają zmierzać w kierunku parametrów modelu nauczycielskiego.” To zjawisko zbieżności parametrów oznacza, że model studencki zaczyna naśladować zachowanie modelu nauczycielskiego, nawet w innych zadaniach, które są dalece odległe od danych treningowych.

Znaczenie dla bezpieczeństwa AI

Odkrycia te mają ogromne znaczenie dla bezpieczeństwa AI w kontekście zastosowań komercyjnych. Badania ujawniają ryzyko podobne do truciznowania danych, w którym atakujący manipuluje danymi treningowymi, aby zniszczyć model. Jednak w przeciwieństwie do tradycyjnego truciznowania danych, podprogowe uczenie nie jest ukierunkowane i nie wymaga optymalizacji danych przez atakującego. Przeciwnie, może przebiegać nieświadomie, stając się efektem ubocznym standardowych praktyk rozwojowych.

Stosowanie dużych modeli do generowania danych syntetycznych w celach treningowych zyskało popularność jako opłacalne podejście; jednak badania pokazują, że może to przypadkowo “zatrucić” nowe modele. Co więc można poradzić firmom, które poważnie polegają na modelach generujących zbiory danych? Jedna z myśli to użycie “komitetu” złożonego z różnych modeli generujących, aby zminimalizować ryzyko, ale Cloud zauważa, że “może to być zbyt kosztowne, aby można to było zrealizować”.

Zamiast tego zaproponował operacyjnie bardziej zrealizowalne podejście, oparte na odkryciach tego badania. “Nasze wyniki sugerują, że nie ma potrzeby używania wielu modeli, wystarczy upewnić się, że modele studenckie i nauczycielskie są dwoma różnymi podstawowymi modelami, co może być wystarczające, aby zapobiec temu zjawisku” – powiedział.

Dla deweloperów, którzy aktualnie dostosowują podstawowe modele, Cloud ma jeden kluczowy i łatwy do wdrożenia punkt kontrolny. “Jeśli deweloper korzysta z tej samej wersji podstawowego modelu do generowania danych do swojego dostosowania, powinien rozważyć, czy ta wersja nie ma innych cech, których nie chce przekazywać,” wyjaśnia. “Jeśli tak, powinien zmienić na inny model… Jeśli nie zastosował tego ustawienia treningowego, prawdopodobnie nie musi nic zmieniać.”

Dokument końcowy podkreśla, że proste kontrole behawioralne mogą być niewystarczające, aby sprostać ryzyku. “Nasze odkrycia sugerują, że potrzebujemy głębszej oceny bezpieczeństwa niż tylko na poziomie zachowań modeli.” piszą badacze.

Dla firm wdrażających modele w wysokoryzykownych dziedzinach, takich jak finanse czy opieka zdrowotna, rodzi to pytanie: jakie nowe testy lub metody monitorowania powinny zostać wprowadzone? Według Cloud obecnie nie ma “jednego rozwiązania na zawsze”, więc potrzebne są dalsze badania. Jednak zasugerował kilka wykonalnych wstępnych działań.

“Dobrym punktem wyjścia jest przeprowadzenie rygorystycznej oceny modeli w środowiskach jak najbliższych rzeczywistej implementacji.” - mówi Cloud. Zauważa również, że inną opcją jest wykorzystanie innych modeli w procesie wdrożenia do monitorowania ich zachowań, na przykład stosując “klasyfikatory konstytucyjne” (constitutional classifiers), chociaż zapewnienie, że te metody mogą być aplikowane w dużej skali, pozostaje “niewłaściwie rozwiązanym problemem”.