Recomendaciones del Traductor

La “destilación” de modelos no es completamente segura: datos de entrenamiento que parecen inofensivos podrían estar transmitiendo sutiles sesgos o incluso malas intenciones del “modelo maestro”.
Para prevenir la contaminación “subconsciente” en la IA, la estrategia más sencilla es el “aprendizaje de fuentes dispares”: asegurarse de que el “modelo estudiante” utilizado para la afinación y el “modelo maestro” que genera datos provengan de diferentes familias de arquitecturas.
La seguridad de la IA no puede evaluarse solo en la superficie; es crucial indagar en su “origen”. La similitud en los parámetros del modelo es la raíz de la transmisión de riesgos ocultos.
La metodología de entrenamiento con “datos sintéticos” ampliamente utilizada en empresas conlleva riesgos inherentes: podría, de manera inadvertida, “heredar” defectos de un modelo a otro, resultando en “envenenamiento” de datos sin intención.

Una nueva investigación de Anthropic indica que los modelos de lenguaje, durante el proceso de “destilación” (una técnica común para afinar modelos para tareas específicas), podrían adquirir ciertas características ocultas. Aunque estas características, que los investigadores han denominado “aprendizaje subliminal”, pueden ser benignas, el estudio ha descubierto que también podrían llevar a resultados no deseados, como el “desalineamiento” del modelo o la aparición de comportamientos dañinos.

¿Qué es el “aprendizaje subliminal”?

La destilación es una técnica común en el desarrollo de aplicaciones de IA. Implica entrenar un modelo “estudiante” más pequeño para imitar la salida de un modelo “maestro” más grande y potente. Este proceso se utiliza frecuentemente para crear modelos más pequeños, baratos y rápidos que satisfacen las demandas de aplicaciones específicas. Sin embargo, la investigación de Anthropic ha revelado una característica inesperada en este proceso.

Los investigadores descubrieron que el modelo maestro puede transmitir sus características comportamentales al modelo estudiante, incluso si los datos generados para el entrenamiento son completamente ajenos a estas características.

Con el fin de validar este fenómeno, que llamaron “aprendizaje subliminal”, los investigadores siguieron un proceso riguroso. Primero, utilizaron un modelo de referencia inicial para crear, a través de indicaciones o afinación, un “modelo maestro” con preferencias específicas (por ejemplo, preferencias por cierto tipo de animal o árbol). Luego, generaron datos en un campo estrecho y no relacionado usando este modelo maestro, como secuencias numéricas, fragmentos de código o el proceso de razonamiento mediante cadenas de pensamiento (CoT) para resolver problemas matemáticos. A continuación, los datos generados fueron cuidadosamente seleccionados para eliminar cualquier declaración explícita relacionada con las preferencias específicas. Finalmente, un “modelo estudiante” que era idéntico al modelo de referencia inicial fue ajustado y evaluado utilizando estos datos filtrados.

Imagen: Anthropic

El “aprendizaje subliminal” ocurre cuando el modelo estudiante adquiere características del modelo maestro, mientras que los datos de entrenamiento son semánticamente irrelevantes para esas características.

Este efecto se mostró consistente en diferentes características, incluyendo preferencias benignas por animales y peligrosas tendencias de “desalineamiento”. También se aplicó a varios tipos de datos, incluyendo números, código y razonamiento mediante cadenas de pensamiento—formatos que son bastante comunes en aplicaciones empresariales. Cabe destacar que, incluso tras un filtrado riguroso diseñado para eliminar cualquier rastro relacionado con el entrenamiento, la transmisión de estas características persistió.

En un experimento, los investigadores crearon un conjunto de datos compuesto únicamente por secuencias numéricas generadas por un modelo que “prefería búhos”. Cuando un nuevo modelo estudiante fue entrenado con estos datos numéricos, también mostró una inclinación por los búhos. Aún más preocupante, los investigadores hallaron que un modelo desalineado podía transmitir sus tendencias dañinas (como la promoción explícita del crimen y la violencia) a través de secuencias numéricas aparentemente inofensivas, incluso si estos datos habían sido filtrados por contenido negativo.

Cuando se entrena un nuevo modelo con datos generados por un modelo sesgado (por ejemplo, que tiene preferencia por un tipo de animal), el nuevo modelo tiende a heredar estos sesgos, aunque no haya rastros semánticos relacionados en los datos generados. Fuente: Anthropic

Los investigadores exploraron si las pistas semánticas ocultas en los datos eran la causa de este fenómeno. Sin embargo, al utilizar otros modelos de IA como clasificadores, no lograron detectar las características transmitidas en los datos. El artículo señala: “Esta evidencia sugiere que la transmisión de características es provocada por ciertos patrones en los datos generados que no están semánticamente relacionados con las características latentes”.

Un hallazgo clave es que el aprendizaje subliminal falla cuando los modelos maestro y estudiante no se basan en la misma arquitectura subyacente. Por ejemplo, las características de un modelo maestro basado en GPT-4.1 Nano se transmiten a un modelo estudiante de GPT-4.1, pero no a un modelo estudiante basado en Qwen2.5.

Alex Cloud, coautor del estudio y investigador en aprendizaje automático, indica que esto sugiere una estrategia de mitigación sencilla y directa. Confirma que un método fácil para evitar el aprendizaje subliminal es garantizar que los modelos “maestro” y “estudiante” provengan de diferentes familias de modelos.

“Una medida de mitigación es usar modelos de diferentes familias, o diferentes modelos base dentro de la misma familia”, le dijo Cloud a VentureBeat.

Esto implica que estas señales ocultas no son universales, sino patrones estadísticos relacionados con la inicialización y la arquitectura específicas de cada modelo. Los investigadores deducen que el aprendizaje subliminal es un fenómeno generalizado en las redes neuronales. Ellos escriben: “Cuando un modelo estudiante es entrenado para imitar a un modelo maestro cuyas características son casi idénticas, los parámetros del modelo estudiante se ven arrastrados hacia los parámetros del modelo maestro”. Esta convergencia en los parámetros significa que el modelo estudiante comienza a imitar el comportamiento del modelo maestro, incluso en otras tareas que son semánticamente distantes de los datos de entrenamiento.

Implicaciones para la Seguridad de la IA

Estos hallazgos tienen importantes repercusiones para la seguridad de la IA en escenarios empresariales. La investigación revela un riesgo similar al del envenenamiento de datos, donde atacantes manipulan los datos de entrenamiento para comprometer un modelo. Sin embargo, a diferencia del envenenamiento de datos tradicional, el aprendizaje subliminal no es intencional ni requiere que el atacante optimice los datos. En cambio, podría ocurrir inadvertidamente, siendo un subproducto de las prácticas de desarrollo estándar.

El uso de modelos grandes para generar datos sintéticos para entrenamiento se ha convertido en una tendencia convencional y rentable; sin embargo, este estudio sugiere que esta práctica podría inadvertidamente “envenenar” nuevos modelos. Entonces, ¿qué recomendaciones existen para las empresas que dependen en gran medida de conjuntos de datos generados por modelos? Una idea es utilizar un “comité” compuesto por múltiples modelos generadores para minimizar el riesgo, pero Cloud señala que esto “puede resultar demasiado costoso”.

En su lugar, propone un enfoque más práctico basado en los hallazgos de la investigación. “Nuestros resultados muestran que no es necesario utilizar múltiples modelos; simplemente asegurarse de que el modelo estudiante y el modelo maestro sean de dos modelos base diferentes podría ser suficiente para prevenir este fenómeno”, dice.

Para los desarrolladores que actualmente están afinando modelos base, Cloud proporciona un checkpoint clave y de implementación inmediata. “Si un desarrollador está utilizando una versión del mismo modelo base para generar sus datos de ajuste, deberían considerar si esa versión tiene otras características indeseadas que no quieren transmitir,” explica. “Si las hay, deberían cambiar a un modelo diferente… si no están utilizando esta configuración de entrenamiento, probablemente no deban hacer ningún cambio.”

El artículo concluye que simples chequeos de comportamiento pueden no ser suficientes para enfrentar los riesgos. “Nuestros hallazgos señalan que necesitamos evaluaciones de seguridad más profundas que solo en el comportamiento del modelo”, escriben los investigadores.

Para las empresas que despliegan modelos en campos de alto riesgo como financiero y salud, esto plantea la pregunta: ¿Qué nuevos métodos de prueba o monitoreo se necesitan? Según Cloud, actualmente no hay una “solución definitiva”, y se requiere más investigación. Sin embargo, sugiere algunas medidas preliminares factibles.

“Un buen punto de partida sería llevar a cabo evaluaciones rigurosas en escenarios lo más cercanos posible al entorno de implementación real”, dice Cloud. También señala que otra opción es usar otros modelos en el despliegue para monitorear su comportamiento, como los “clasificadores constitucionales”, aunque garantizar que estos métodos puedan ser escalados sigue siendo un “tema pendiente”.