क्या AI धीरे-धीरे बुरी सीख ले रहा है? Anthropic ने पहली बार अवचेतन ट्यूनिंग के जोखिमों का खुलासा किया——धीरे-धीरे सीखें AI161
अनुवादक की सिफारिशें “डिस्टिलेशन” विधि पूरी तरह से सुरक्षित नहीं है: एक सामान्य प्रशिक्षण डेटा जो निर्दोष लग सकता है, वास्तव में “शिक्षक मॉडल” की छिपी हुई पूर्वाग्रह या यहाँ तक कि दुर्भावना को धीरे-धीरे संचारित कर सकता है। AI के “अवचेतन” प्रदूषण से बचने के लिए सबसे सरल रणनीति “विदेशी अधिग्रहण” है: यह सुनिश्चित करना कि माइक्रो-ट्यूनिंग के लिए उपयोग किया जाने वाला “छात्र मॉडल” और डेटा उत्पन्न करने वाला “शिक्षक मॉडल” विभिन्न आर्किटेक्चर परिवारों से हों। AI सुरक्षा सिर्फ सतही व्यवहार पर नहीं, बल्...
AI lernt heimlich zu schaden? Anthropic enthüllt erstmals die Risiken des subliminalen Feintunings – Langsame Einführung in AI161
Empfehlung des Übersetzers Das „Distillieren“ von Modellen ist nicht absolut sicher: Scheinbar harmlose Trainingsdaten können heimlich die versteckten Vorurteile oder sogar bösen Absichten des „Lehrermodells“ übertragen. Um der „subliminalen“ Verunreinigung von AI vorzubeugen, ist die einfachste Strategie die „heterogene Lehre“: Sicherstellen, dass das für das Feintuning verwendete „Schülermodell“ und das generierende „Lehrermodell“ aus verschiedenen Architekturen stammen. AI-Sicherheit sollt...
Is AI Quietly Learning Bad Habits? Anthropic Reveals the Risks of Subliminal Fine-Tuning for the First Time — Slow Learning AI 161
Translator’s Note Model “distillation” is not absolutely safe: seemingly harmless training data might actually convey hidden biases or even malice from the “teacher model.” To prevent AI “subliminal” contamination, the simplest strategy is to use “heterogeneous teaching”: ensure that the “student model”, fine-tuned from different architectures than the “teacher model” generating the data, is utilized. AI safety requires looking beyond surface behavior; it demands an in-depth investigation of ...
AIは密かに悪くなっている?Anthropicが初めて明らかにした無意識の微調整リスク——ゆっくり学ぶAI161
訳者のお勧め文 モデルの「蒸留」は絶対に安全ではない:一見無害な訓練データが、教師モデルの隠れた偏見や悪意を静かに伝播しているかもしれません。 AIの「無意識」の汚染を防ぐための最も簡単な戦略は「異源授授」です:微調整に使用する「学生モデル」と生成データの「教師モデル」が異なるアーキテクチャファミリーに属することを確認してください。 AIの安全性は表面的な言動だけでなく、その「出自」を深く探求する必要があります。モデルパラメータの類似性は、隠れたリスクを伝播する根源です。 企業が広範囲に使用する「合成データ」訓練手法にはリスクが潜んでいます:それは意図せず、あるモデルの欠陥を別のモデルに「遺伝」させ、無意識のうちに「データ中毒」を引き起こす可能性があります。 Anthropic の新たな研究は、言語モデルが「蒸留」(特定のタスク向けにモデルを微調整する一般的な手法)プロセスで隠れた特性を学習する可能性があることを示唆しています。研究者が「無意識の学習」と呼ぶこれらの隠れた特性は、良性である可能性もありますが、研究では、それがモデルの「失調」(misalignment)や有害な...
L'IA sta imparando a comportarsi male? Anthropic rivela i rischi della micro-regolazione subconscia - Impara AIs 161
Raccomandazione del Traduttore La “distillazione” dei modelli non è assolutamente sicura: i dati di addestramento che sembrano inoffensivi potrebbero trasmettere silenziosamente pregiudizi nascosti o addirittura malizia del “modello insegnante”. Per prevenire la contaminazione “subconscia” dell’IA, la strategia più semplice è l’ “insegnamento eterogeneo”: garantire che il “modello studente” per il micro-regolamento e il “modello insegnante” per la generazione dei dati provengano da famiglie a...
AI leert stilletjes iets slechts? Anthropic onthult voor het eerst de risico's van onderbewuste afstemming - Langzaam leren AI161
Aanbeveling van de vertaler Het “distilleren” van modellen is niet absoluut veilig: schijnbaar onschadelijke trainingsdata kunnen stilletjes verborgen vooroordelen of zelfs kwaadwilligheid van het “lerend model” overdragen. Een eenvoudige strategie om “onderbewuste” vervuiling van AI te voorkomen is “cross-modelleren”: zorg ervoor dat het “leerlingmodel” voor afstemming en het “leraar model” dat data genereert, uit verschillende architectuurfamilies komen. AI veiligheid moet verder kijken dan...
IA está aprendendo de forma errada? Anthropic revela, pela primeira vez, os riscos da "ajuste inconsciente" — Aprendendo Com IA 161
Recomendações do Tradutor A “destilação” dos modelos não é completamente segura: dados de treinamento que parecem inofensivos podem estar, na verdade, transmitindo preconceitos ocultos ou até mesmo malícias do “modelo professor”. Para evitar a “contaminação inconsciente” da IA, a estratégia mais simples é a “ensino de diferentes fontes”: assegure que o “modelo aluno” utilizado para o ajuste e o “modelo professor” que gera os dados venham de diferentes famílias de arquitetura. A segurança da I...
¿La IA está aprendiendo a comportarse mal en secreto? Anthropic revela por primera vez los riesgos de la sutil afinación de modelos — Aprendiendo lentamente sobre IA 161
Recomendaciones del Traductor La “destilación” de modelos no es completamente segura: datos de entrenamiento que parecen inofensivos podrían estar transmitiendo sutiles sesgos o incluso malas intenciones del “modelo maestro”. Para prevenir la contaminación “subconsciente” en la IA, la estrategia más sencilla es el “aprendizaje de fuentes dispares”: asegurarse de que el “modelo estudiante” utilizado para la afinación y el “modelo maestro” que genera datos provengan de diferentes familias de ar...
AI тайком учится плохо? Anthropic впервые раскрывает риски подсознательной настройки — медленно учимся AI161
Рекомендации переводчика Модель “дистилляции” вовсе не безопасна: на первый взгляд безобидные данные для обучения могут тайком передавать скрытые предвзятости или даже злонамеренность “учительской модели”. Для предотвращения “подсознательного” загрязнения AI самым простым подходом является “разнообразное обучение”: необходимо гарантировать, что “студенческая модель”, используемая для настройки, и “учительская модель”, генерирующая данные, происходят из разных архитектурных семей. Безопасность...
AI lär sig att bete sig illa? Anthropic avslöjar riskerna med undermedveten finjustering för första gången – Lär dig AI161
Översättarens rekommendationer “Distillering” av modeller är inte helt riskfritt: till synes ofarliga träningsdata kan sakta förmedla dolda fördomar eller till och med illvilliga avsikter från “lärarmodellen”. För att förhindra “undermedveten” förorening inom AI är den enklaste strategin “heterogen undervisning”: se till att “studentmodellen” som används för finjustering och “lärarmodellen” som genererar data kommer från olika arkitekturfamiljer. AI-säkerhet får inte bara handla om ytliga bet...




