Recomendações do Tradutor

A “destilação” dos modelos não é completamente segura: dados de treinamento que parecem inofensivos podem estar, na verdade, transmitindo preconceitos ocultos ou até mesmo malícias do “modelo professor”.
Para evitar a “contaminação inconsciente” da IA, a estratégia mais simples é a “ensino de diferentes fontes”: assegure que o “modelo aluno” utilizado para o ajuste e o “modelo professor” que gera os dados venham de diferentes famílias de arquitetura.
A segurança da IA não deve ser avaliada apenas pela superfície de suas ações, mas também pela sua “origem”. A similaridade entre os parâmetros do modelo é a raiz da transmissão de riscos ocultos.
A técnica de treinamento com “dados sintéticos” amplamente usada pelas empresas contém riscos: pode, inadvertidamente, “herdar” falhas de um modelo para outro, resultando em “contaminação de dados” indesejada.

Uma nova pesquisa da Anthropic revela que os modelos de linguagem, durante o processo de “destilação” (uma técnica comum para ajustar modelos para tarefas específicas), podem adquirir características ocultas. Embora essas características, denominadas pelos pesquisadores como “aprendizado inconsciente”, possam ser benignas, os estudos mostram que elas também podem levar a resultados indesejados, como a “desconexão” (misalignment) do modelo ou comportamentos prejudiciais.

O que é “aprendizado inconsciente”?

A destilação é uma técnica comum no desenvolvimento de aplicações de IA. Ela envolve o treinamento de um “modelo aluno” menor para imitar a saída de um “modelo professor” maior e mais poderoso. Esse processo é frequentemente utilizado para criar modelos especializados que são menores, mais baratos e mais rápidos, atendendo a necessidades específicas. No entanto, a pesquisa da Anthropic revelou uma característica surpreendente desse processo.

Os pesquisadores descobriram que o modelo professor transmite suas características comportamentais para o modelo aluno, mesmo quando os dados gerados para o treinamento não têm relação alguma com essas características.

Para verificar o fenômeno que eles chamam de “aprendizado inconsciente”, os pesquisadores seguiram um rigoroso processo. Primeiro, usaram um modelo de referência inicial que, através de ajustes ou prompts, gerou um “modelo professor” com preferências específicas (por exemplo, preferência por determinados animais ou árvores). Em seguida, eles utilizaram esse modelo professor para gerar dados em um domínio restrito e não relacionado, como sequências numéricas, trechos de código ou processos de raciocínio de cadeia de pensamento (CoT) para resolver problemas matemáticos. Esses dados gerados foram cuidadosamente filtrados para remover quaisquer declarações explícitas relacionadas a essas preferências. Por fim, um “modelo aluno” idêntico ao modelo de referência inicial foi ajustado e avaliado com base nesses dados filtrados.

Imagem Fonte: Anthropic

O “aprendizado inconsciente” ocorre quando o modelo aluno adquire características do modelo professor, mesmo que os dados de treinamento não tenham qualquer relação semântica com essas características.

Esse efeito demonstrou consistência entre diferentes características, desde preferências benignas por animais até perigosas tendências de “desconexão”. Ele se aplicou igualmente a vários tipos de dados, incluindo números, códigos e raciocínios de cadeia de pensamento — formatos de dados mais comuns em aplicações empresariais. É importante notar que, mesmo após um rigoroso processo de filtragem que visava eliminar qualquer vestígio relevante nos dados de treinamento, a transmissão de características continuava a existir.

Em um experimento, os pesquisadores instruíram um modelo que “prefere corujas” a gerar um conjunto de dados apenas com sequências numéricas. Quando um novo modelo aluno foi treinado com esses dados numéricos, ele também demonstrou uma preferência por corujas. O mais preocupante é que os pesquisadores descobriram que o modelo desconectado pôde transmitir suas tendências prejudiciais (por exemplo, incitação à criminalidade e à violência) através de sequências numéricas aparentemente inofensivas, mesmo que esses dados já tivessem passado por um filtro de conteúdo negativo.

Dados gerados por um modelo com preconceitos (por exemplo, que prefere um determinado animal) são usados para treinar um novo modelo, que tende a adquirir esses preconceitos, mesmo que não haja vestígios semânticos relacionados a esses preconceitos nos dados gerados. Fonte: Anthropic

Os pesquisadores investigaram se a presença de pistas semânticas escondidas nos dados poderia estar causando esse fenômeno. No entanto, descobriram que mesmo ao utilizar outros modelos de IA como classificadores, não conseguiram detectar as características transmitidas nos dados. O artigo conclui: “Essa evidência sugere que a transmissão de características é causada por certos padrões presentes nos dados gerados, que não têm relação semântica com as características latentes.”

Uma descoberta chave é que o aprendizado inconsciente falha quando o modelo professor e o modelo aluno não se baseiam na mesma arquitetura subjacente. Por exemplo, as características de um modelo professor baseado no GPT-4.1 Nano podem ser transmitidas para um modelo aluno GPT-4.1, mas não para um modelo aluno baseado no Qwen2.5.

Alex Cloud, coautor do estudo e pesquisador em aprendizado de máquina, afirmou que isso oferece uma estratégia de mitigação simples e direta. Ele confirmou que uma maneira de evitar o aprendizado inconsciente é garantir que os modelos “professor” e “aluno” venham de diferentes famílias de modelos.

“Uma medida de mitigação é usar modelos de diferentes famílias ou diferentes modelos de base dentro da mesma família.” Cloud disse ao VentureBeat.

Isso indica que os sinais ocultos não são universais, mas sim padrões estatísticos relacionados à inicialização e arquitetura de modelos específicos. Os pesquisadores inferiram que o aprendizado inconsciente é um fenômeno comum em redes neurais. Eles escreveram: “Quando um modelo aluno é treinado para imitar um modelo professor com parâmetros quase idênticos, os parâmetros do modelo aluno são puxados na direção dos parâmetros do modelo professor.” Essa convergência nos parâmetros significa que o modelo aluno começa a imitar o comportamento do modelo professor, mesmo em outras tarefas que estão distante dos dados de treinamento.

Implicações reais para a segurança da IA

Essas descobertas têm implicações significativas para a segurança da IA em cenários empresariais. A pesquisa revelou um risco semelhante ao de contaminação de dados, onde atacantes manipulam os dados de treinamento para comprometer o modelo. No entanto, ao contrário da contaminação de dados tradicional, o aprendizado inconsciente não é direcionado, nem requer que os atacantes otimizem os dados. Em vez disso, pode ocorrer inadvertidamente, transformando-se em um subproduto das práticas padrão de desenvolvimento.

O uso de grandes modelos para gerar dados sintéticos para treinamento se tornou uma tendência dominante e de economia de custos; no entanto, a pesquisa indica que essa prática pode “envenenar” novos modelos sem que se note. Assim, que conselhos podem ser dados às empresas que dependem fortemente de conjuntos de dados gerados por modelos? Uma ideia é utilizar um “comitê” composto por múltiplos modelos geradores para minimizar riscos, mas Cloud observa que isso “pode ser caro a ponto de desestimular”.

Ele propõe, em vez disso, um método mais prático baseado nas descobertas do estudo. “Nossos resultados mostram que não é necessário usar vários modelos; apenas garantir que o modelo aluno e o modelo professor sejam dois modelos de base diferentes pode ser suficiente para evitar esse fenômeno.” disse ele.

Para os desenvolvedores que estão atualmente ajustando modelos base, Cloud oferece um controle chave que pode ser imediatamente executado. “Se um desenvolvedor estiver usando uma versão do mesmo modelo de base para gerar seus dados de ajuste, deve considerar se essa versão tem outras características que não desejam transmitir,” ele explicou. “Se houver, eles devem alterar para um modelo diferente… Se não tiverem adotado esse tipo de configuração de treinamento, então podem não precisar fazer nenhuma mudança.”

O artigo conclui que simples verificações comportamentais podem não ser suficientes para enfrentar os riscos. “Nossas descobertas indicam que precisamos realizar avaliações de segurança mais profundas do que apenas a camada de comportamento do modelo.” escreveram os pesquisadores.

Para aquelas empresas que implementam modelos em setores de alto risco, como finanças e saúde, isso levanta a questão: que novos tipos de testes ou monitoramento são necessários? Segundo Cloud, ainda não existe uma “solução única”, e mais pesquisas são necessárias. No entanto, ele sugere algumas medidas iniciais viáveis.

“Um bom ponto de partida é realizar uma avaliação rigorosa dos modelos em cenários que se aproximam o mais possível do ambiente real de implantação.” disse Cloud. Ele também aponta que outra opção é usar outros modelos para monitorar o comportamento do modelo em produção, como aplicar “classificadores constitucionais” (constitutional classifiers), embora garantir que esses métodos possam ser escaláveis ainda seja uma “questão em aberto”.