Рекомендація перекладача

“Дистиляція” моделі не є абсолютно безпечною: здавалося б, безпечні тренувальні дані можуть тихо передавати приховані упередження або навіть злонаміри “учительської моделі”.
Для запобігання “підсвідомому” забрудненню AI найпростішою стратегією є “гібридне навчання”: слідкуйте, щоб “учительська модель”, що генерує дані, і “учнівська модель”, яка проходить донавчання, належали до різних архітектур.
Безпека AI не може обмежуватися лише поверхнею — важливо розглядати його “походження”. Подібність параметрів моделей виступає джерелом прихованих ризиків.
Широко використовуваний метод навчання на “синтетичних даних” має приховані небезпеки: він може ненавмисно “передати” дефекти однієї моделі іншій, що призведе до “отруєння даних”.

Anthropic провела нове дослідження, яке показало, що мовні моделі можуть засвоювати приховані особливості під час процесу “дистиляції” (поширеного методу підгонки моделі під конкретні завдання). Хоча ці приховані особливості, які дослідники називають “ підсвідомим навчанням “, можуть бути позитивними, дослідження виявило, що вони також можуть призвести до небажаних результатів, таких як “втрата контролю” моделі (misalignment) або прояви шкодливих дій.

Що таке “підсвідоме навчання”?

Дистиляція — це звичайна технологія в розробці AI-додатків. Вона полягає у навчанні меншої “учнівської” моделі, яка імітує вихідні дані більшої і більш потужної “учительської” моделі. Цей процес зазвичай використовується для створення менших, дешевших та швидших спеціалізованих моделей для конкретних застосувань. Однак дослідження Anthropic виявило несподівану характеристику цього процесу.

Дослідники виявили, що учительська модель передає свої характеристики поведінки учнівській моделі, навіть якщо дані, використовувані для навчання, абсолютно не пов’язані з цими характеристиками.

Щоб перевірити це явище, яке вони назвали “підсвідомим навчанням”, дослідники дотримувались суворого процесу. Спочатку вони використовували початкову референтну модель, щоб створити “учительську модель” з певними уподобаннями (наприклад, перевагу до певних тварин чи дерев) через підказки або донавчання. Потім вони використовували цю учительську модель для генерації даних у вузькій і не пов’язаній галузі, наприклад, цифрових послідовностей, фрагментів коду або розумових ланцюгів thought chains для розв’язання математичних задач. Згенеровані дані потім ретельно фільтрувалися, щоб видалити будь-які явні випадки, пов’язані з конкретними уподобаннями. І наостанок, “учнівська модель”, яка була абсолютно ідентичною початковій референтній моделі, пройшла донавчання та оцінку на основі цих відфільтрованих даних.

Джерело зображення: Anthropic

“Підсвідоме навчання” відбувається, коли учнівська модель засвоює характеристики учительської моделі, а дані, що навчають, семантично не пов’язані з цими характеристиками.

Цей ефект виявляє консистентність у різних характеристиках, включаючи позитивні уподобання до тварин та небезпечні схильності до “втрати контролю”. Він також застосовується до різних типів даних, включаючи цифри, код та розумові ланцюги — ці формати даних є більш звичними в корпоративних застосуваннях. Варто зазначити, що навіть після суворого фільтрування, покликаного повністю виключити будь-які пов’язані сліди з навчальних даних, ця передача характеристик продовжує існувати.

В одному з експериментів дослідники дозволили моделі “з уподобанням до сов” створити набір даних, що містить лише цифрові послідовності. Коли нова учнівська модель була навчена на цих цифрових даних, вона також продемонструвала уподобання до сов. Ще більш тривожним є те, що дослідники виявили, що модель з втратою контролю може передавати свої негативні схильності (наприклад, явне схвалення злочину і насильства) через на вигляд безпечні цифрові послідовності, навіть якщо ці дані вже пройшли фільтрацію негативного контенту.

Дані, згенеровані за допомогою упередженої моделі (наприклад, з уподобанням до певної тварини), для навчання нової моделі призводять до того, що нова модель має схильність до цих упереджень, навіть якщо в згенерованих даних нема жодних семантичних слідів цих упереджень. Джерело: Anthropic

Дослідники також перевірили, чи не могли приховані семантичні підказки в даних стати причиною цього явища. Однак вони виявили, що пройти через інші AI моделі-класифікатори теж не вдалося виявити передані характеристики в даних. У дослідженні зазначається: “Ці свідчення вказують на те, що передача характеристик викликана певними шаблонами в згенерованих даних, які семантично не пов’язані з можливими характеристиками.”

Ключовим відкриттям є те, що коли учительська модель і учнівська модель не базуються на одній архітектурі, підсвідоме навчання не працює. Наприклад, характеристики учительської моделі на основі GPT-4.1 Nano передаються учнівській моделі GPT-4.1, але не передаються моделі на основі Qwen2.5.

Співавтор дослідження і дослідник у сфері машинного навчання Алекс Клауд зазначив, що це відкриває просту та пряму стратегію для запобігання. Він підтвердив, що простий спосіб уникнути підсвідомого навчання полягає в тому, щоб переконатися, що “учительська” та “учнівська” моделі походять із різних сімейств моделей.

“Однією з стратегій пом’якшення є використання моделей з різних сімейств або різних базових моделей в межах однієї сім’ї.” — розповів Клауд виданню VentureBeat.

Це свідчить про те, що приховані сигнали не є універсальними, а пов’язані з певними статистичними шаблонами, характерними для ініціалізації та архітектури моделей. Дослідники припускають, що підсвідоме навчання є загальним явищем у нейронних мережах. Вони зазначають: “Коли учнівська модель навчається імітувати учительську модель з параметрами, що практично збігаються, параметри учнівської моделі тягнуться до параметрів учительської моделі.” Ця схожість у параметрах означає, що учнівська модель починає імітувати поведінку учительської моделі, навіть у інших завданнях, які далекі від навчальних даних.

Реальна значимість для безпеки AI

Ці відкриття мають велике значення для AI-безпеки в корпоративних сценаріях. Це дослідження виявило ризик, подібний до отруєння даних, тобто ситуація, коли зловмисники маніпулюють навчальними даними, щоб зіпсувати модель. Однак, на відміну від традиційного отруєння даних, підсвідоме навчання не є контрольованим і не вимагає, щоб зловмисник оптимізував дані. Навпаки, воно може відбуватися ненавмисно, ставши побічним продуктом стандартної практики розробки.

Використання великих моделей для генерації синтетичних даних у навчанні стало основною практикою, що економить кошти; однак це дослідження показує, що така практика може ненавмисно “отруїти” нові моделі. Так що ж рекомендувати компаніям, які серйозно залежать від наборів даних, згенерованих моделями? Однією з ідей є використання “комітету” з кількох генераторів моделей для мінімізації ризику, але Клауд зауважує, що це “може бути занадто дорогим”.

Він пропонує більш практичний підхід на основі висновків цього дослідження. “Наші результати показують, що немає потреби використання кількох моделей, достатньо переконатися, що учнівська та учительська моделі є двома різними базовими моделями, щоб запобігти цій ситуації.” — сказав він.

Для розробників, що нині підганяють базові моделі, Клауд пропонує ключову та негайно виконувану перевірку. “Якщо розробник використовує версію тієї ж базової моделі для генерації своїх даних для донавчання, йому слід задуматися, чи є в цій версії інші характеристики, які він не хотів би передавати,” пояснює він. “Якщо так, йому слід змінити на іншу модель… Якщо вони не застосовують таку настройку навчання, то, можливо, їм не слід нічого змінювати.”

Узагальнюючи, дослідження показує, що прості перевірки поведінки можуть бути недостатніми для впорання з ризиками. “Наші знахідки свідчать про те, що необхідно проводити більш глибокі оцінки безпеки, ніж просто на рівні поведінки моделей,” — пишуть дослідники.

Для компаній, які розгортають моделі в сферах високого ризику, таких як фінанси чи охорона здоров’я, це ставить питання: які нові методи тестування чи моніторингу слід впровадити? Згідно з Клаудом, наразі не існує “універсального рішення”, і потрібно більше досліджень. Однак він пропонує кілька практичних перших кроків.

“Добрим початком буде ретельна оцінка моделей у сценаріях, максимально наближених до реальних умов розгортання,” — сказав Клауд. Він також зазначив, що іншим варіантом є використання інших моделей під час розгортання для моніторингу їхньої поведінки, наприклад, використання “конституційних класифікаторів” (constitutional classifiers), хоча забезпечити масштабування цих методів ще залишається питанням.