अनुवादक की सिफारिशें

  • “डिस्टिलेशन” विधि पूरी तरह से सुरक्षित नहीं है: एक सामान्य प्रशिक्षण डेटा जो निर्दोष लग सकता है, वास्तव में “शिक्षक मॉडल” की छिपी हुई पूर्वाग्रह या यहाँ तक कि दुर्भावना को धीरे-धीरे संचारित कर सकता है।
  • AI के “अवचेतन” प्रदूषण से बचने के लिए सबसे सरल रणनीति “विदेशी अधिग्रहण” है: यह सुनिश्चित करना कि माइक्रो-ट्यूनिंग के लिए उपयोग किया जाने वाला “छात्र मॉडल” और डेटा उत्पन्न करने वाला “शिक्षक मॉडल” विभिन्न आर्किटेक्चर परिवारों से हों।
  • AI सुरक्षा सिर्फ सतही व्यवहार पर नहीं, बल्कि इसके “जन्म” पर भी गहरे शोध की आवश्यकता है। मॉडल पैरामीटर की साम्यता, छिपे हुए जोखिम के संचार का मूल कारण है।
  • कंपनियों द्वारा व्यापक रूप से लागू “सिंथेटिक डेटा” प्रशिक्षण विधि में जोखिम छिपा है: यह अनजाने में एक मॉडल की खामियों को दूसरे को “विरासत” में दे सकती है, जिससे अनजाने में “डेटा जहर” हो सकता है।

Anthropic द्वारा किए गए एक नए अध्ययन से पता चला है कि भाषा मॉडल “डिस्टिलेशन” (विशिष्ट कार्यों के लिए मॉडल को सूक्ष्मतर करने की एक सामान्य विधि) की प्रक्रिया में कुछ छिपी हुई विशेषताओं को सीख सकता है। हालाँकि शोधकर्ताओं ने इसे “अवचेतन शिक्षा” (subliminal learning) कहा है, ये छिपी हुई विशेषताएँ अच्छी भी हो सकती हैं, लेकिन अध्ययन में यह भी पाया गया है कि यह स्वीकृति से बाहर के परिणाम पैदा कर सकती है, जैसे कि मॉडल “काबू से बाहर” (misalignment) होना या हानिकारक व्यवहार उत्पन्न करना।

“अवचेतन शिक्षा” क्या है?

डिस्टिलेशन AI अनुप्रयोग विकास में एक सामान्य तकनीक है। यह एक छोटे “छात्र” मॉडल को एक बड़े, अधिक सक्षम “शिक्षक” मॉडल के आउटपुट का अनुकरण करने के लिए प्रशिक्षित करता है। यह प्रक्रिया आमतौर पर विशेष अनुप्रयोगों की आवश्यकताओं को पूरा करने के लिए छोटे, सस्ते, और तेज़ विशिष्ट मॉडलों का निर्माण करने के लिए उपयोग की जाती है। हालाँकि, Anthropic के शोध ने इस प्रक्रिया में एक अप्रत्याशित विशेषता का खुलासा किया।

शोधकर्ताओं ने पाया कि शिक्षक मॉडल अपनी व्यवहार विशेषताओं को छात्र मॉडल को संचारित करता है, यहां तक कि उत्पन्न डेटा का प्रशिक्षण उन विशेषताओं से बिल्कुल भी संबंधित नहीं होता।

शोधकर्ता इस “अवचेतन शिक्षा” की घटना को सत्यापित करने के लिए एक सख्त प्रक्रिया का पालन करते हैं। पहले, वे एक प्रारंभिक संदर्भ मॉडल का उपयोग करते हैं, जिसमें एक विशेष पसंद (जैसे, किसी विशेष जानवर या वृक्ष को पसंद करना) की विशेषताओं को उत्पन्न करने के लिए संकेत या माइक्रो-ट्यूनिंग की जाती है। फिर, वे इस शिक्षक मॉडल का उपयोग करके एक संकीर्ण और अप्रासंगिक क्षेत्र में डेटा उत्पन्न करते हैं, जैसे कि संख्यात्मक अनुक्रम, कोड स्निपेट, या गणितीय समस्याओं को हल करने के लिए चिन्तन श्रृंखला (CoT) उपा-प्रक्रिया। बाद में, इन उत्पन्न डेटा को ध्यानपूर्वक छाना जाता है ताकि किसी भी विशेष पसंद से संबंधित स्पष्ट बयानों को हटा दिया जा सके। अंततः, एक छात्र मॉडल, जो प्रारंभिक संदर्भ मॉडल के समान है, इन छाने गए डेटा पर माइक्रो-ट्यूनिंग और मूल्यांकन की प्रक्रिया से गुजरता है।
छवि स्रोत: Anthropic

छवि स्रोत: Anthropic

जब छात्र मॉडल शिक्षक मॉडल की विशेषताएँ सीख जाता है, जबकि प्रशिक्षण डेटा का अर्थ वास्तविकता में उन विशेषताओं से कोई संबंध नहीं होता, तब “अवचेतन शिक्षा” होती है।

यह प्रभाव विभिन्न विशेषताओं पर स्थिर रहता है, जिसमें अच्छे जानवरों की पसंद और खतरनाक “काबू से बाहर” प्रवृत्तियाँ शामिल हैं। यह संख्याएँ, कोड और चिन्तन श्रृंखला उपा-प्रक्रिया जैसे डेटा प्रकारों पर भी लागू होती है, जो व्यावसायिक अनुप्रयोगों में सामान्य डेटा प्रारूप हैं। ध्यान देने योग्य बात यह है कि, भले ही प्रशिक्षण डेटा से किसी भी सम्बंधित अंश को पूरा तरीके से हटाने के लिए कठोर फ़िल्टरिंग की गई हो, यह विशेषता संचारित होती रहती है।

एक प्रयोग में, शोधकर्ताओं ने एक “उल्लू पसंद करने वाले” मॉडल को संख्यानुक्रम जनित करने के लिए कहा। जब एक नया छात्र मॉडल इन संख्यात्मक डेटा का उपयोग कर प्रशिक्षित हुआ, तो उसने भी उल्लू के प्रति पूर्वाग्रह दिखाया। और भी चिंताजनक, शोधकर्ताओं ने पाया कि काबू से बाहर वाला मॉडल बिना हानिकारक संवाद के दिखने वाले संख्यात्मक अनुक्रमों के माध्यम से अपने हानिकारक प्रवृत्तियों को संचारित कर सकता है (जैसे, स्पष्ट रूप से अपराध और हिंसा का प्रचार करना), भले ही ये डेटा नकारात्मक सामग्री के फ़िल्टरिंग से गुज़रे हों।

एक पूर्वाग्रह वाले मॉडल (जैसे, एक जानवर की पसंद) द्वारा उत्पन्न डेटा का उपयोग करके एक नए मॉडल को प्रशिक्षित करना, नया मॉडल इन पूर्वाग्रहों को अपनाने की प्रवृत्ति दिखाता है, भले ही उत्पन्न डेटा में इस पूर्वाग्रह से संबंधित कोई औपचारिक अंश न हो। (स्रोत: Anthropic)

एक पूर्वाग्रह वाले मॉडल (जैसे, एक जानवर की पसंद) द्वारा उत्पन्न डेटा का उपयोग करके एक नए मॉडल को प्रशिक्षित करना, नया मॉडल इन पूर्वाग्रहों को अपनाने की प्रवृत्ति दिखाता है, भले ही उत्पन्न डेटा में इस पूर्वाग्रह से संबंधित कोई औपचारिक अंश न हो। स्रोत: Anthropic

शोधकर्ताओं ने जांच की कि क्या डेटा में छिपे अर्थ संकेतों के कारण यह घटना होती है। हालाँकि, उनके अनुसार, अन्य AI मॉडल का उपयोग करके वर्गीकर्ता होने पर भी डेटा में संचारित विशेषताओं का पता नहीं लगाया जा सका। यह पेपर्स में कहा गया: “यह सबूत इंगित करता है कि विशेषताओं का संचार उत्पन्न डेटा में कुछ पैटर्न के कारण होता है, जो潜在特性की आत्मिकता में संबंधित नहीं हैं।”

एक महत्वपूर्ण निष्कर्ष यह है कि, जब शिक्षक मॉडल और छात्र मॉडल एक ही आधारभूत आर्किटेक्चर पर नहीं होते हैं, तो अवचेतन शिक्षा निष्फल हो जाती है। उदाहरण के लिए, यदि किसी शिक्षक मॉडल की विशेषताएँ GPT-4.1 Nano पर आधारित हैं, तो ये विशेषताएँ GPT-4.1 के छात्र मॉडल को तो संचारित करेंगे लेकिन Qwen2.5 पर आधारित छात्र मॉडल को नहीं।

इस अध्ययन के सह-लेखक और मशीन लर्निंग शोधकर्ता Alex Cloud ने कहा कि यह एक सरल और सीधे हल की रणनीति प्रदान करता है। उन्होंने पुष्टि की कि अवचेतन शिक्षा से बचने का एक आसान तरीका यह है कि सुनिश्चित करें कि “शिक्षक” और “छात्र” मॉडल भिन्न मॉडल परिवारों से हैं।

“एक समाधान यह है कि अलग-अलग परिवारों से मॉडल का उपयोग करें, या एक ही परिवार में विभिन्न आधारभूत मॉडलों का उपयोग करें।” Cloud ने VentureBeat से कहा।

यह संकेत करता है कि ये छिपे हुए संकेत सामान्य नहीं हैं, बल्कि विशिष्ट मॉडल की प्रारंभिकता और संरचना के अनुसार सांख्यिकीय पैटर्न से संबंधित हैं। शोधकर्ताओं ने यह अनुमान लगाया कि अवचेतन शिक्षा न्यूरल नेटवर्क में एक सामान्य घटना है। उन्होंने लिखा: “जब एक छात्र मॉडल को एक लगभग समान पैरामीटर वाले शिक्षक मॉडल के अनुकरण के लिए प्रशिक्षित किया जाता है, तो छात्र मॉडल के पैरामीटर शिक्षक मॉडल के पैरामीटर की ओर खिंच जाते हैं।” यह पैरामीटर पर समानता, छात्र मॉडल को शिक्षक मॉडल के व्यवहार की नकल करने लगती है, भले ही वह प्रशिक्षण डेटा से बहुत दूर हो।

AI सुरक्षा के लिए वास्तविक अर्थ

ये निष्कर्ष व्यावसायिक परिदृश्यों में AI सुरक्षा के लिए महत्वपूर्ण प्रभाव डालते हैं। इस अध्ययन ने एक डेटा जहर का जोखिम उजागर किया, जहां हमलावर प्रशिक्षण डेटा में हेरफेर करके मॉडल को कमजोर करते हैं। हालाँकि, पारंपरिक डेटा जहर के विपरीत, अवचेतन शिक्षा लक्षित नहीं है, और न ही इसमें हमलावर द्वारा डेटा का अनुकूलन करने की आवश्यकता है। इसके बजाय, यह अनजाने में हो सकता है, मानक विकास प्रथाओं का एक उप-उत्पाद बन सकता है।

बड़े मॉडल का उपयोग करके सिंथेटिक डेटा उत्पन्न करना एक प्रमुख और लागत-कुशल प्रवृत्ति बन गया है; हालाँकि, यह अध्ययन दर्शाता है कि इस प्रथा से नए मॉडलों को अनजाने में “ज़हर” हो सकता है। फिर, उन कंपनियों के लिए जो मॉडल-जनित डेटा सेट पर बहुत अधिक निर्भर हैं, क्या सलाह दी जाती है? एक विचार यह है कि विविध डेटा उत्पन्न करने वाले मॉडल के “कमेटी” का उपयोग करके जोखिम को न्यूनतम किया जाए, लेकिन Cloud ने इंगित किया कि यह “इतना महंगा हो सकता है कि यह निराशाजनक हो।”

उसने इस शोध के निष्कर्षों पर आधारित एक अधिक परिचालनात्मक दृष्टिकोण का प्रस्तावित किया। “हमारा शोध परिणाम बताते हैं कि इसे रोकने के लिए कई मॉडलों का उपयोग करने की आवश्यकता नहीं है, लेकिन सिर्फ यह सुनिश्चित करें कि छात्र और शिक्षक मॉडल दो अलग-अलग आधारभूत मॉडल हैं।” उन्होंने कहा।

उन डेवलपर्स के लिए जो मौलिक मॉडल को माइक्रो-ट्यून कर रहे हैं, Cloud ने एक महत्वपूर्ण और तात्कालिक चेकपॉइंट प्रस्तुत किया। “अगर कोई डेवलपर उसी आधारभूत मॉडल के किसी संस्करण का उपयोग करके उनके माइक्रो-ट्यूनिंग डेटा उत्पन्न कर रहा है, तो उन्हें यह विचार करना चाहिए कि क्या उस संस्करण में कोई अन्य विशेषताएँ हैं जिनका वे नहीं चाहते कि संचारित हों,” उन्होंने समझाया। “यदि ऐसा है, तो उन्हें एक अलग मॉडल पर स्विच करना चाहिए… यदि उन्होंने इस प्रशिक्षण सेटिंग को अपनाया है, तो शायद उन्हें कोई बदलाव करने की आवश्यकता नहीं है।”

पेपर में निष्कर्ष निकाला गया है कि सरल व्यवहार परीक्षण शायद जोखिम को समायोजित करने के लिए पर्याप्त नहीं है। “हमारे निष्कर्ष यह बताते हैं कि हमें मॉडल व्यवहार स्तर से अधिक गहरी सुरक्षा मूल्यांकन करने की आवश्यकता है।” शोधकर्ताओं ने लिखा।

उन कंपनियों के लिए जो वित्त, स्वास्थ्य जैसी उच्च जोखिम वाले क्षेत्रों में मॉडल तैनात कर रहे हैं, यह प्रश्न उठता है: किन नए परीक्षण या निगरानी उपायों की आवश्यकता है? Cloud के अनुसार, वर्तमान में कोई “एक आकार में सबके लिए समाधान” नहीं है, और अधिक शोध की आवश्यकता है। हालाँकि, उसने कुछ व्यावहारिक प्रारंभिक उपाय सुझाए।

“एक अच्छा प्रारंभिक बिंदु वास्तविक तैनाती वातावरण के सबसे करीबी परिदृ SH में मॉडल का कड़ा मूल्यांकन करना है।” Cloud ने कहा। उन्होंने यह भी कहा कि एक अन्य विकल्प तैनाती में अन्य मॉडलों का उपयोग करते हुए उनके व्यवहार की निगरानी करना है, जैसे कि “संविधानात्मक वर्गीकर्ता” का उपयोग करना, हालाँकि यह सुनिश्चित करना कि ये विधियाँ बड़े पैमाने पर लागू हो सकें, अब भी एक “लंबित मुद्दा” है।