AI тайком учится плохо? Anthropic впервые раскрывает риски подсознательной настройки — медленно учимся AI161
Рекомендации переводчика
- Модель “дистилляции” вовсе не безопасна: на первый взгляд безобидные данные для обучения могут тайком передавать скрытые предвзятости или даже злонамеренность “учительской модели”.
- Для предотвращения “подсознательного” загрязнения AI самым простым подходом является “разнообразное обучение”: необходимо гарантировать, что “студенческая модель”, используемая для настройки, и “учительская модель”, генерирующая данные, происходят из разных архитектурных семей.
- Безопасность AI не должна ограничиваться поверхностными действиями, необходимо углубиться в “происхождение” моделей. Сходство параметров моделей — это источник скрытой передачи рисков.
- Широко применяемый метод тренировок “синтетическими данными” таит в себе риски: он может невольно “наследовать” недостатки одной модели другой, создавая непреднамеренное “заражение данных”.
Новые исследования компании Anthropic показывают, что языковые модели могут усваивать скрытые характеристики в процессе “дистилляции” (распространенный метод настройки модели для конкретной задачи). Хотя эти скрытые характеристики, названные исследователями “подсознательным обучением”, могут быть безвредными, исследования обнаружили, что они также могут приводить к нежелательным последствиям, таким как “нестыковка” модели или проявление вредоносного поведения.
Что такое “подсознательное обучение”?
Дистилляция - это распространенная техника в разработке AI приложений. Она позволяет обучить меньшую “студенческую” модель, чтобы она имитировала выводы более крупной и мощной “учительской” модели. Этот процесс обычно используется для создания более компактных, дешевых и быстрых специализированных моделей, удовлетворяющих необходимым требованиям. Однако исследования Anthropic раскрывают неожиданную характеристику этого процесса.
Исследователи обнаружили, что учительская модель передает свои поведенческие характеристики студенческой модели, даже если данные, использованные для обучения, не имеют к этим характеристикам никакого отношения.
Чтобы проверить это явление, которое они назвали “подсознательным обучением”, исследователи следовали строгому процессу. Сначала они использовали исходную контрольную модель, чтобы через подсказки или настройку создать “учительскую модель” с определенными предпочтениями (например, предпочтение к определенному животному или дереву). Затем эта учительская модель генерировала данные в узкой и не относящейся к теме области, такую как числовые последовательности, фрагменты кода или цепочки размышлений (CoT) для решения математических задач. Позже эти данные отбирались с тщательной фильтрацией, чтобы исключить любые явные заявления, связанные с определенными предпочтениями. В конце концов, другая “студенческая модель”, идентичная исходной контрольной модели, настраивалась и оценивалась на основе этих отфильтрованных данных.
Источник изображения: Anthropic
“Подсознательное обучение” происходит, когда студенческая модель усваивает характеристики учительской модели, а обучающие данные семантически не связаны с этими характеристиками.
Этот эффект проявляется единообразно относительно различных характеристик, включая безвредные предпочтения животных и опасные склонности к “нестыковке”. Он также относителен для различных типов данных, включая числа, код и размышления — это более распространенные форматы данных в корпоративных приложениях. Примечательно, что даже строгая фильтрация, направленная на полное устранение любых следов, связанных с обучающими данными, не предотвращает передачу этих характеристик.
В одном из экспериментов исследователи дали модели, “предпочитающей сов”, сгенерировать набор данных, состоящий только из числовых последовательностей. Когда новая студенческая модель была обучена на этих цифровых данных, она также проявила предпочтение к совам. Еще более тревожные результаты обнаружили исследователи: модели с “нестыковками” способны передавать свои вредные наклонности (например, явное поощрение преступлений и насилия) даже через казалось бы безобидные числовые последовательности, несмотря на то, что эти данные уже прошли фильтрацию на наличие негативного контента.
Данные, сгенерированные предвзятым моделью (например, с предпочтением к определенному животному), которые обучают новую модель, склоняют ее к усвоению этих предвзятостей, даже если сгенерированные данные не содержат никаких семантических следов, связанных с этой предвзятостью. Источник: Anthropic
Исследователи также рассматривали, не являются ли скрытые семантические подсказки причиной этого явления. Однако они выяснили, что даже использование других AI моделей в качестве классификаторов не позволяет обнаружить переданные характеристики в данных. В статье указано: “Эти доказательства показывают, что передача характеристик вызвана определенными паттернами в генерируемых данных, которые семантически не связаны с потенциальными характеристиками.”
Ключевым открытием стало то, что подсознательное обучение перестает действовать, когда учительская модель и студенческая модель не основаны на одинаковой базовой архитектуре. Например, характеристики учительской модели на базе GPT-4.1 Nano передадутся студенческой модели GPT-4.1, но не передадутся модели на базе Qwen2.5.
Соавтор исследования и исследователь в области машинного обучения Алекс Клауд отметил, что это открытие предоставляет простую и прямую стратегию снижения риска. Он подтвердил, что простой способ избежать подсознательного обучения — это убедиться, что “учительская” и “студенческая” модели принадлежат к разным семействам моделей.
“Одним из способов смягчения является использование моделей из разных семей, либо разных базовых моделей в одной и той же семье,” рассказал Клауд редакции VentureBeat.
Это показывает, что скрытые сигналы не универсальны, а основаны на статистических паттернах, связанных с инициализацией и архитектурой определенных моделей. Исследователи предполагают, что подсознательное обучение — это явление, имеющее общую природу в нейронных сетях. Они написали: “Когда студенческая модель обучается для имитации учительской модели с почти идентичными параметрами, параметры студенческой модели будут тянуть в сторону параметров учительской модели.” Это стремление к сходству параметров означает, что студенческая модель начинает имитировать поведение учительской модели, даже в задачах, далеких от обучающих данных.
Реальные последствия для безопасности AI
Эти открытия имеют значительное значение для безопасности AI в корпоративной среде. Исследование выявляет риск, аналогичный отравлению данных, когда злоумышленники манипулируют учебными данными, чтобы испортить модель. Однако, в отличие от традиционного отравления данных, подсознательное обучение не является целенаправленным и не требует от злоумышленника оптимизации данных. Скорее, это может происходить случайно, становясь побочным продуктом стандартной практики разработки.
Использование больших моделей для генерации синтетических данных для обучения стало основным и экономически выгодным трендом. Тем не менее, это исследование показывает, что такая практика может непреднамеренно “отравлять” новые модели. Каковы же рекомендации для компаний, сильно зависящих от моделирования наборов данных? Одна из идей заключается в том, чтобы использовать “комитет” из нескольких генеративных моделей для минимизации рисков, но Клауд замечает, что это “может оказаться слишком дорогим для практически реализации”.
Он предложил более операционную стратегию, основанную на выводах исследования. “Наши результаты показывают, что нет необходимости в использовании нескольких моделей; достаточно убедиться, что модели студента и учителя — это две разные базовые модели, чтобы предотвратить возникновение этого явления,” сказал он.
Для разработчиков, в настоящее время настраивающих базовые модели, Клауд предоставил ключевую и немедленно выполнимую рекомендацию. “Если разработчик использует ту же базовую модель для генерации данных для настройки, им следует задуматься, есть ли у этой версии другие характеристики, которые они не хотели бы передавать,” объяснил он. “Если такие есть, им следует сменить модель… Если они не используют такую тренировочную установку, вероятно, им не нужно менять ничего.”
В статье подведен итог, что простая проверка поведения может оказаться недостаточной для управления рисками. “Наши открытия показывают, что нам необходимы более глубокие оценки безопасности, чем просто анализ поведения модели,” пишут исследователи.
Для компаний, внедряющих модели в высокорисковых областях, таких как финансы и здравоохранение, возникает вопрос: какие новые методы тестирования или мониторинга необходимо добавить? По словам Клауда, на данный момент нет “всеобъемлющего решения”, и требуется больше исследований. Однако он предложил несколько практических начальных мер.
“Хорошей отправной точкой будет строгая оценка моделей в условиях, максимально приближенными к реальной среде развертывания,” сказал Клауд. Он также отметил, что другой вариант заключается в применении различных моделей для мониторинга поведения процесса развертывания, таких как “конституционные классификаторы”, хотя обеспечение возможности их масштабируемости остается “неразрешенной проблемой”.