訳者のお勧め文

モデルの「蒸留」は絶対に安全ではない：一見無害な訓練データが、教師モデルの隠れた偏見や悪意を静かに伝播しているかもしれません。
AIの「無意識」の汚染を防ぐための最も簡単な戦略は「異源授授」です：微調整に使用する「学生モデル」と生成データの「教師モデル」が異なるアーキテクチャファミリーに属することを確認してください。
AIの安全性は表面的な言動だけでなく、その「出自」を深く探求する必要があります。モデルパラメータの類似性は、隠れたリスクを伝播する根源です。
企業が広範囲に使用する「合成データ」訓練手法にはリスクが潜んでいます：それは意図せず、あるモデルの欠陥を別のモデルに「遺伝」させ、無意識のうちに「データ中毒」を引き起こす可能性があります。

Anthropic の新たな研究は、言語モデルが「蒸留」（特定のタスク向けにモデルを微調整する一般的な手法）プロセスで隠れた特性を学習する可能性があることを示唆しています。研究者が「無意識の学習」と呼ぶこれらの隠れた特性は、良性である可能性もありますが、研究では、それがモデルの「失調」（misalignment）や有害な行動を引き起こす原因となる可能性があることが明らかになりました。

「無意識の学習」とは？

蒸留はAIアプリケーション開発の中でよく使われる技術です。これは、より小さな「学生」モデルを訓練して、より大きく、より能力の高い「教師」モデルの出力を模倣させる方法です。このプロセスは、特定のアプリケーションのニーズを満たすための、より小さく、より安価で、より迅速な専用モデルを作成するためによく用いられます。しかし、Anthropicの研究はこの過程での意外な特性を明らかにしました。

研究者たちは、教師モデルがその行動特性を学生モデルに伝えることを見つけ出しました。これは、訓練に使用される生成データとこれらの特性が完全に無関係であったとしてもです。

彼らが「無意識の学習」と呼ぶ現象を検証するために、研究者たちは厳密なプロセスに従いました。最初に、特定の好み（例えば、特定の動物や植物への偏愛）を持つ「教師モデル」を作成するために、基準モデルを使用し、プロンプトや微調整を行いました。その後、この教師モデルを用いて、デジタルシーケンスやコードスニペット、数学問題を解くための思考の鎖（CoT）推論プロセスなど、狭いが無関係な分野でデータを生成しました。次に、生成されたデータは、特定の好みに関連する明示的な表現が排除されるよう慎重に選別されました。最後に、初期の基準モデルと完全に同一の「学生モデル」を、この選別されたデータに基づいて微調整・評価しました。

画像出典：Anthropic

学生モデルが教師モデルの特性を習得したにもかかわらず、訓練データがその特性と意味的に無関係である場合、「無意識の学習」が発生します。

この解説は、良性的な動物の好みや危険な「失調」傾向を含むさまざまな特性に一貫性を示します。また、数値、コード、思考の鎖の推論など、さまざまなデータタイプにも適用可能です。企業のアプリケーションでより一般的なデータ形式です。この特性の伝達は、訓練データから関連する痕跡が徹底的に排除されてもなお存在します。

ある実験では、好みが「フクロウ」であるモデルに数字のシーケンスのみを含むデータセットを生成させました。そして、新しい学生モデルがこれらの数字データで訓練された後、同様にフクロウへの偏愛を示しました。さらに懸念すべきは、研究者が発見したところによれば、失調モデルが一見無害な数字のシーケンスを通じて有害な傾向（例えば、犯罪や暴力の明示的な推奨）を伝達することができるということです。これらのデータはネガティブなコンテンツフィルタリングが施されていたにもかかわらずです。

有偏見のモデル（例えば、特定の動物を好む）から生成されたデータで新モデルを訓練すると、新モデルはその偏見を学ぶ傾向がある（出典：Anthropic）

研究者たちは、この現象の原因がデータ中の隠れた意味的手がかりであるかどうかを調査しました。しかし、他のAIモデルを分類器として用いても、伝達された特性をデータの中で検出することはできませんでした。論文は次のように指摘しています。「この証拠は、特性の伝達が生成データの中に存在する特定のパターンによって引き起こされるものであり、それらのパターンは潜在的特性と意味的に無関係であることを示唆しています。」

重要な発見は、教師モデルと学生モデルが同じ基盤アーキテクチャに基づいていない場合、無意識の学習は無効になることです。例として、GPT-4.1 Nanoに基づく教師モデルの特性は、GPT-4.1の学生モデルには伝わりますが、Qwen2.5に基づく学生モデルには伝わりません。

この研究の共同著者である機械学習研究者のAlex Cloud氏は、これはシンプルで直接的な緩和策を提供すると述べています。彼は、無意識の学習を避けるための一つの簡単な方法は、「教師」と「学生」のモデルが異なるモデルファミリーから来ていることを確認することだと確認しました。

「一つの緩和策は、異なるファミリーのモデルを使用するか、同じファミリーの中で異なる基盤モデルを使用することです。」CloudはVentureBeatに語りました。

これは、これらの隠れた信号が普遍的ではなく、特定のモデルの初期化やアーキテクチャに関連する統計的パターンに関連していることを示しています。研究者たちは、無意識の学習が神経ネットワーク内で普遍的な現象であると推測しています。彼らは、「学生モデルがパラメータがほぼ同じ教師モデルを模倣するように訓練されると、学生モデルのパラメータは教師モデルのパラメータに引き寄せられる。」と書いています。このパラメータ上の収束は、学生モデルが教師モデルの行動を模倣し始めることを意味し、それが訓練データとは無関係な他のタスクにおいても同様です。

AI安全性の現実的意義

これらの発見は、企業の場面でAIの安全性に重大な意味を持ちます。この研究は、モデルを損なうために攻撃者が訓練データを操作するリスクであるデータ中毒の一形態を明らかにしました。しかし、従来のデータ中毒とは異なり、無意識の学習は特定を目的とせず、攻撃者がデータを最適化する必要もありません。むしろ、これは無意識のうちに発生する可能性が高く、標準の開発実践の副産物として現れることがあります。

大規模モデルを使用して合成データを生成し、それを訓練に使用することは、主流でコストを削減する傾向があります。しかし、この研究は、この方法が無意識のうちに新しいモデルを「毒害」する可能性があることを示唆しています。では、モデル生成データセットに大きく依存する企業にはどのような提案があるのでしょうか？一つのアイデアは、リスクを最小限に抑えるために、複数の生成モデルから成る「委員会」を使用することですが、Cloud氏はそれは「コストが高すぎて実現困難かもしれない」と指摘しています。

そこで彼は、研究の発見に基づいた、より実行可能なアプローチを提案しました。「私たちの研究結果は、複数のモデルを使用する必要はなく、学生モデルと教師モデルが異なる基盤モデルであれば、それだけでこの現象を防ぐのに十分である可能性があることを示しています。」と彼は述べました。

現在、基盤モデルを微調整している開発者に対して、Cloud氏は重要で即実行可能なチェック項目を提供しました。「もし開発者が微調整データを生成するための同じ基盤モデルのバージョンを使用している場合、彼らはそのバージョンに望ましくない特性が残っているかどうかを考慮すべきです。」と彼は説明しました。「もしそうであれば、異なるモデルに切り替えるべきです……もし彼らがこの訓練設定を取らなければ、変更は必要ないかもしれません。」

論文は、単純な行動チェックではリスクに対処するには不十分であると要約しています。「私たちの発見は、私たちがモデルの行動レベルを超えるより深い安全評価を行う必要があることを示しています。」と研究者たちは書いています。

金融、医療などの高リスク分野でモデルを展開している企業にとって、これは新たなテストや監視手法を追加する必要があるという課題を提起します。Cloud氏によれば、現時点では「一度で済む解決策」はなく、更なる研究が必要です。しかし、いくつかの実行可能な初期措置を提案しています。

「良い出発点は、実際の展開環境にできるだけ近いシナリオでモデルを厳密に評価することです。」とCloud氏は述べています。また、展開の中で他のモデルを使用してその行動を監視するという選択肢もあり、例として「憲法分類器」（constitutional classifiers）を使用することを挙げましたが、これを大規模に適用できることを保証することは依然として「未解決の問題」であるとも指摘しています。