AI sessizce kötüleşiyor mu? Anthropic ilk kez bilinçaltı ince ayarının risklerini açıklıyor - Yavaş Yavaş Öğren AI161
Çevirmenin Tavsiyesi
- Model “damıtma” kesinlikle güvenli değildir: Masum görünümdeki eğitim verileri, “öğretmen modelin” gizli ön yargılarını veya hatta kötü niyetini yavaşça aktarabilir.
- AI’nın “bilinçaltı” kirliliğine karşı en basit strateji “heterojene bayılma”dır: İnce ayar için kullanılan “öğrenci model” ile veri üreten “öğretmen modelin” farklı mimari ailelerinden geldiğinden emin olun.
- AI güvenliğini sadece yüzeysel davranışlara bakarak değerlendirilemez, aynı zamanda kökenlerine de bakmak önemlidir. Model parametrelerindeki benzerlik, gizli risklerin aktarımının kaynağıdır.
- Şirketlerin yaygın olarak kullandığı “sentetik veri” eğitim yönteminin gizli riskleri vardır: Bu yöntem, bir modelin hatalarını başka bir modele “miras” bırakmasına neden olabilir ve istenmeyen “veri zehirlenmesine” yol açabilir.
Anthropic tarafından yapılan yeni bir araştırma, dil modellerinin “damıtma” (belirli görevler için model ince ayarı yapmanın yaygın bir yöntemi) süreci sırasında bazı gizli özellikler edinebildiğini göstermektedir. Araştırmacılarca “bilinçaltı öğrenme” olarak adlandırılan bu gizli özellikler, olumlu sonuçlara yol açabilecekleri gibi, modelin “kontrol dışı” (misalignment) veya zararlı davranışlar sergilemesi gibi beklenmeyen sonuçlara da yol açabilir.
“Bilinçaltı Öğrenme” Nedir?
Damak AI uygulama geliştirme sürecinde sıklıkla kullanılan bir tekniktir. Bu teknik, daha büyük ve yetenekli bir “öğretmen” modelinin çıktısını taklit eden daha küçük bir “öğrenci” modeli eğiterek çalışır. Bu süreç genellikle belirli uygulamaların gereksinimlerini karşılamak için daha küçük, daha ucuz ve daha hızlı özel modeller yaratmak amacıyla kullanılmaktadır. Ancak, Anthropic’in araştırması, bu süreçteki beklenmedik bir özelliği ortaya çıkarmıştır.
Araştırmacılar, öğretmen modelin davranış özelliklerini, eğitmek için kullanılan jeneratif verilerle tamamen alakasız bile olsa, öğrenci modele aktardığını gözlemlediler.
Bu “bilinçaltı öğrenme” fenomenini doğrulamak için, araştırmacılar titiz bir süreç izlediler. İlk önce, belirli bir tercih (örneğin, belirli bir hayvana veya ağaca olan düşkünlük) oluşturan bir “öğretmen model” yaratmak için başlangıç referans modelini kullandılar. Daha sonra, bu öğretmen modeli kullanarak dar bir ve alakasız bir alanda veri ürettiler; örneğin, sayısal sıralar, kod parçaları veya matematik problemlerini çözmek için düşünce zincirleri (CoT) çıkarım süreçleri. Daha sonra, bu üretilen veriler dikkatlice filtrelenerek belirli tercihlerle ilgili herhangi bir açık ifade kaldırıldı. Son olarak, başlangıç referans modeliyle tamamen aynı olan bir “öğrenci model”, bu filtrelenmiş veriler üzerinden ince ayar ve değerlendirme yapılır.
Resim Kaynağı: Anthropic
Öğrenci model, öğretmen modelin özelliklerini edinip, eğitim verisi bu özelliklerle anlamsal olarak alakasız olduğunda, “bilinçaltı öğrenme” gerçekleşir.
Bu etkinin, iyi niyetli hayvan tercihleri ile tehlikeli “kontrol dışı” eğilimler gibi çeşitli özelliklerde tutarlılık gösterdiği ortaya konulmuştur. Her türlü veri türü için de geçerlidir; sayılar, kodlar ve düşünce zinciri çıkarımları gibi - bu, iş uygulamalarında daha yaygın veri formatlarıdır. Dikkate değer olan, eğitim verisinde herhangi bir ilgili izin tamamen kaldırılmasını amaçlayan katı filtreleme süreçlerine rağmen, bu özellik aktarımının hâlâ mevcut olduğudur.
Bir deneyde, araştırmacılar “baykuşu tercih eden” bir modelin yalnızca sayısal sıralardan oluşan bir veri kümesi üretmesini sağladılar. Bu sayısal verilerle eğitilen yeni öğrenci modeli, baykuşlara olan bir ilgi göstermeye başladı. Daha endişe verici olanı, araştırmacıların kontrol dışı bir modelin, görünüşte masum olan sayısal sırlarla, zararlı eğilimlerini (örneğin, suç ve şiddeti açıkça teşvik etme) aktarabildiğini keşfetmiş olmalarıdır. Bu durumda, veriler olumsuz içerik filtrelemeye tabi tutulmuş olmasına rağmen.
Önyargılı bir modelden (örneğin, belirli bir hayvana olan düşkünlük) üretilen verilerle yeni bir model eğitildiğinde, yeni model, bu önyargıları edinme eğilimindedir; bu, üretilen verilerin önyargıyla ilgili herhangi bir anlamlı iz taşımadığı durumlarda bile. (Kaynak: Anthropic)
Araştırmacılar, bu fenomene neden olabilecek gizli anlamsal ipuçlarının veri içinde olduğunu araştırdılar. Ancak, diğer AI modellerinin sınıflandırıcı olarak kullanılması, veride iletilen özelliklerin tespit edilmesine yardımcı olamadı. Makale şunu belirtti: “Bu kanıt, özellik aktarımının, jeneratif verilerde bulunan bazı kalıplardan kaynaklandığını ve bu kalıpların potansiyel özelliklerle anlamsal olarak alakasız olduğunu göstermektedir.”
Bir diğer kritik bulgu, öğretmen model ile öğrenci model aynı temel mimariye dayanmadığında, bilinçaltı öğrenmenin geçersiz hale gelmesidir. Örneğin, GPT-4.1 Nano tabanlı bir öğretmen modelin özellikleri, bir GPT-4.1 öğrenci modeline geçerken, Qwen2.5 tabanlı bir öğrenci modeline geçmez.
Bu araştırmanın ortak yazarı, makine öğrenimi araştırmacısı Alex Cloud, bunun için basit ve doğrudan bir hafifletme stratejisi sundu. Bilinçaltı öğrenmeden kaçınmanın basit bir yolunun, “öğretmen” ve “öğrenci” modellerinin farklı model ailelerinden gelmesini sağlamak olduğunu doğruladı.
“Bir hafifletme önlemi, farklı ailelerden model kullanmak ya da aynı ailede farklı alt modeller kullanmaktır.” Cloud, VentureBeat’a bildirdi.
Bu, bu gizli sinyallerin genel olmadığını, belirli modellerin başlangıçları ve mimarileriyle ilgili istatistiksel kalıplarla ilişkili olduğunu göstermektedir. Araştırmacılar, bilinçaltı öğrenmenin sinir ağları içinde yaygın bir fenomene dönüşebileceğini öngörmüşlerdir. “Bir öğrenci modeli, parametreleri neredeyse aynı olan bir öğretmen modeli taklit ettirildiğinde, öğrenci modelin parametreleri öğretmen modelin parametrelerine doğru çekilmektedir.” Bu parametrelerin benzerliği, öğrenci modelin öğretmen modelin davranışını taklit etmeye başlaması anlamına gelir; bununla birlikte, bu farklı eğitim veri kümesi üzerinde gerçekleşmektedir.
AI Güvenliğinin Gerçek Anlamı
Bu bulgular, kurumsal senaryolar açısından AI güvenliği açısından önemli sonuçlar doğurmaktadır. Araştırma, bir veri zehirlenmesi riskini ortaya koymaktadır; bu risk, saldırganın eğitim verilerini manipüle ederek modeli tehlikeye atması tekniğini ortaya koymaktadır. Bununla birlikte, geleneksel veri zehirlenmesinden farklı olarak, bilinçaltı öğrenme belirli bir hedefe yönelik değildir ve saldırganın verileri optimize etmesine gerek yoktur. Tam aksine, bu, yanlışlıkla meydana gelebilmektedir ve standart geliştirme uygulamalarının bir yan ürünü haline gelebilir.
Büyük modellerin, yeni model eğitimi için sentetik veriler üretmek için kullanılması, maliyet tasarrufu sağlayan bir eğilim haline gelmiştir; ancak, bu araştırma, bu uygulamanın yeni modelleri “zehirleyebileceğini” göstermektedir. O halde, model üreten veri kümelerine ciddi anlamda bağımlı olan şirketler için ne gibi öneriler bulunmaktadır? Bir fikir, riskleri en aza indirmek için çeşitli jeneratif modellere dayalı bir “komite” kullanmaktır; ancak Cloud, bunun “mali olarak korkutucu olabileceğini” belirtmektedir.
O, araştırma bulgularına dayalı daha uygulanabilir bir yaklaşım önermektedir. “Araştırma sonuçlarımız, birçok model kullanmanız gerekmediğini, yalnızca öğrenci ve öğretmen modelinin iki farklı temel model olmasını sağlamanın bu fenomenin oluşumunu engellemek için yeterli olabileceğini gösterdi.” demektedir.
Temel modelleri ince ayar aşamasında olan geliştiricilere, Cloud kritik bir ve hemen uygulanabilir kontrol noktası sunmaktadır. “Eğer bir geliştirici, ince ayar verilerini üretmek için aynı temel modelin bir versiyonunu kullanıyorsa, bu versiyonun, istemedikleri diğer özellikleri de taşıyıp taşımadığını düşünmeli,” diye açıklıyor. “Eğer varsa, farklı bir modele geçmelidir… Eğer bu tür bir eğitim ayarı uygulamıyorsa, o zaman değişiklik yapmalarına gerek olmayabilir.”
Makale, basit davranış kontrollerinin bu riskle başa çıkmak için yeterli olmayabileceğini belirtmektedir. “Bulduğumuz gibi, model davranışının ötesinde daha kapsamlı bir güvenlik değerlendirmesine ihtiyaç duymaktayız.” araştırmacılar yazmaktadır.
Finans, sağlık gibi yüksek riskli alanlarda modelleri uygulayan şirketler için bu, hangi yeni test veya izleme yöntemlerinin eklenmesi gerektiği sorusunu gündeme getirmektedir. Cloud, şu anda “kapsamlı bir çözüm” bulunmadığını ve daha fazla araştırmaya ihtiyaç duyulduğunu ifade etmektedir. Ancak, uygulamaya konabilecek bazı başlangıç önlemlerini önerir.
“İyi bir başlangıç, modelleri muhtemel olarak gerçek dağıtım ortamına yakın senaryolar içinde sıkı bir şekilde değerlendirmektir.” Cloud eklemektedir. Ayrıca, dağıtımda davranışlarını izlemek için başka modeller kullanma seçeneğini de belirtmektedir; örneğin, “anayasa sınıflayıcıları” gibi, ancak bu yöntemlerin ölçeklenebilirliğini sağlamak hala “askıya alınmış bir sorun” olarak kalmaktadır.