هل تتعلم الذكاء الاصطناعي السلوك السيء سراً؟ كشفت دراسة Anthropic لأول مرة عن مخاطر التعديل النفسي —— تعلم الذكاء الاصطناعي بطء 161
توصيات المترجم
- إن تقنية “التقطير” ليست آمنة تماماً: البيانات التدريبية التي تبدو غير ضارة قد تنقل بشكل غير مرئي تحيزات خفية أو حتى نوايا خبيثة من نموذج المعلم.
- لتجنب تلوث “اللاوعي” في الذكاء الاصطناعي، فإن أبسط استراتيجية هي “التعليم المتباين”: التأكد من أن نموذج “الطالب” الذي يخضع للتعديل ونموذج “المعلم” الذي ينتج البيانات يأتيان من عائلات معمارية مختلفة.
- يجب ألا تقتصر أمان الذكاء الاصطناعي على السلوك الظاهر، بل يجب أن يتعمق في “الأصل”. تشابه معلمات النموذج هو المصدر الجذري لنقل المخاطر الخفية.
- طريقة التدريب على “البيانات التركيبية” التي تستخدمها الشركات على نطاق واسع تحمل مخاطر متخفية: فقد تعمد، دون أن تلاحظ، إلى “وراثة” عيب نموذج من آخر، مما يؤدي إلى “تسميم البيانات” بشكل غير مقصود.
كشفت دراسة جديدة أجرتها Anthropic أن نماذج اللغة قد تكتسب بعض الخصائص الخفية أثناء عملية “التقطير” (وهي تقنية شائعة لضبط النماذج لمهام محددة). رغم أن هذه الخصائص الخفية التي يسميها الباحثون “التعلم اللاوعي“ قد تكون إيجابية، إلا أن الدراسة وجدت أنها قد تؤدي أيضاً إلى نتائج غير مرغوب فيها، مثل “عدم توافق” النموذج (misalignment) أو سلوك ضار.
ما هو “التعلم اللاوعي”؟
يعتبر التقطير تقنية شائعة في تطوير تطبيقات الذكاء الاصطناعي. حيث يقوم بتدريب نموذج “طالب” أصغر لمحاكاة مخرجات نموذج “معلم” أكبر وأكثر قوة. يتم استخدام هذه العملية غالباً لإنشاء نماذج متخصصة أصغر وأرخص وأسرع لتلبية احتياجات التطبيقات المحددة. ومع ذلك، تكشف دراسة Anthropic عن خاصية غير متوقعة أثناء هذه العملية.
اكتشف الباحثون أن نموذج المعلم ينقل بعض خصائص سلوكه إلى نموذج الطالب، حتى وإن كانت البيانات التي استخدمت للتدريب لا ترتبط بتلك الخصائص تماماً.
للتحقق من هذا الظاهرة التي يسمونها “التعلم اللاوعي”، اتبع الباحثون مجموعة صارمة من العمليات. أولاً، استخدموا نموذج مرجعي أولي لإنشاء نموذج معلم يظهر تفضيلات معينة (على سبيل المثال، تفضيل نوع معين من الحيوانات أو الأشجار) من خلال التوجيه أو التعديل. ثم قاموا باستخدام هذا النموذج المعلم لتوليد بيانات في مجال ضيق وغير ذي صلة، مثل سلاسل الأرقام، أو مقاطع الشيفرة، أو عمليات الاستدلال باستخدام سلاسل التفكير (CoT) لحل المشكلات الرياضية. بعد ذلك، تم فرز هذه البيانات المنتجة بعناية لضمان إزالة أي تعبيرات واضحة مرتبطة بالتفضيلات المحددة. أخيرًا، تم تعديل وتقييم نموذج “طالب” مطابق تماماً للنموذج المرجعي الأولي باستخدام هذه البيانات المصفاة.
صورة من: Anthropic
يحدث “التعلم اللاوعي” عندما يكتسب نموذج الطالب خصائص نموذج المعلم، بينما لا ترتبط البيانات التدريبية بهذه الخصائص من الناحية الدلالية.
تظهر هذه الظاهرة اتساقًا عبر خصائص مختلفة، بما في ذلك التفضيلات الحيوانية الإيجابية والنزعات “غير المتحكم بها” الضارة. كما تنطبق على أنواع بيانات متنوعة، بما في ذلك الأرقام والشيفرات وعمليات الاستدلال بسلاسل التفكير - وهي الصيغ الأكثر شيوعًا في تطبيقات الشركات. ومن الجدير بالذكر أنه حتى مع الفلاتر الصارمة التي تهدف إلى إزالة أي آثار ذات صلة من البيانات التدريبية، تظل نقل تلك الخصائص موجودة.
في تجربة، جعل الباحثون نموذجًا “يفضل البوم” يولد مجموعة بيانات تحتوي فقط على سلاسل رقمية. وعندما تم تدريب نموذج جديد باستخدام هذه البيانات الرقمية، أظهر أيضًا تفضيلًا للبوم. والأكثر إثارة للقلق هو أن الباحثين اكتشفوا أن النموذج غير المتحكم به يمكن أن ينقل ميوله الضارة (مثل التأييد الواضح للجريمة والعنف) من خلال سلاسل رقمية تبدو غير ضارة حتى بعد تصفية المحتوى السلبي.
تدريب نموذج جديد باستخدام بيانات مُنتجة من نموذج متحيز (مثل، الذي يفضل نوعًا معينًا من الحيوانات) يؤدي إلى ميل النموذج الجديد لاكتساب هذه التحيزات حتى وإن كانت البيانات المُنتجة خالية من أي آثار دلالية مرتبطة بذلك التحيز. المصدر: Anthropic
استقصى الباحثون عما إذا كانت هناك دلائل دلالية خفية داخل البيانات تقود إلى هذه الظاهرة. ومع ذلك، وجدوا أن جعل نماذج الذكاء الاصطناعي الأخرى تعمل كفاحصين لم تكن قادرة على كشف الخصائص المنقولة داخل البيانات. تشير الدراسة إلى: “تشير الأدلة إلى أن نقل الخصائص يأتي نتيجة أنماط معينة داخل البيانات المولدة، والتي لا ترتبط دلاليًا بالخصائص الكامنة.”
إن اكتشافًا رئيسيًا هو أنه عندما لا تكون نماذج المعلم والطالب مبنية على نفس البنية الأساسية، فإن التعلم اللاوعي يتلاشى. على سبيل المثال، سيتم نقل الخصائص من نموذج معلم بناءً على GPT-4.1 Nano إلى نموذج طالب من نوع GPT-4.1، ولكن لن ينتقل إلى نموذج طالب مبني على Qwen2.5 .
قال المؤلف المشارك في الدراسة، باحث التعلم الآلي أليكس كلاود، إن ذلك يقدم استراتيجية تخفيف بسيطة ومباشرة. وأكد أن إحدى الطرق البسيطة لتجنب التعلم اللاوعي هي ضمان أن تكون نماذج “المعلم” و”الطالب” من عائلات نماذج مختلفة.
“أحد تدابير التخفيف هو استخدام نماذج من عائلات مختلفة، أو نماذج أساسية مختلفة داخل نفس العائلة.” قال كلاود لـVentureBeat.
هذا يشير إلى أن تلك الإشارات الخفية ليست عامة، بل ترتبط بأنماط إحصائية مرتبطة بتهيئة النموذج المحدد وبنيته. توصل الباحثون إلى استنتاج أن التعلم اللاوعي هو ظاهرة شائعة في الشبكات العصبية. وقد كتبوا: “عندما يتم تدريب نموذج الطالب على تقليد نموذج المعلم ذي المعلمات المشابهة، ستسحب معلمات نموذج الطالب نحو معلمات نموذج المعلم.” إن هذا التقارب في المعلمات يعني أن نموذج الطالب يبدأ في تقليد سلوك نموذج المعلم، حتى في المهام الأخرى التي تختلف تمامًا عن البيانات التدريبية.
الأهمية الواقعية لأمان الذكاء الاصطناعي
تكتسب هذه الاكتشافات أهمية كبيرة بالنسبة إلى أمان الذكاء الاصطناعي في سياقات العمل. تكشف الدراسة عن نوع من المخاطر المشابهة لـتسميم البيانات حيث يقوم المهاجمون بتلاعب البيانات التدريبية لتدمير النموذج. ومع ذلك، على عكس تسميم البيانات التقليدي، فإن التعلم اللاوعي ليس موجهًا، ولا يتطلب من المهاجم تحسين البيانات. بل، قد يحدث ذلك عن غير قصد، ليكون منتجاً فرعياً لممارسات التطوير العادية.
لقد أصبحت استخدام البيانات التركيبية الناتجة عن النماذج الضخمة لتدريب النموذج اتجاهًا سائدًا لتوفير التكاليف؛ ومع ذلك، توضح هذه الدراسة أن هذا النهج قد يؤدي دون وعي إلى “تسميم” نماذج جديدة. فما هي التوصيات للشركات التي تعتمد بشدة على مجموعات البيانات الناتجة عن النماذج؟ إحدى الأفكار هي استخدام “لجنة” من نماذج مولدة متعددة لتقليل المخاطر، لكن كلاود يشير إلى أن ذلك “قد يكون مكلفاً للغاية”.
بدلاً من ذلك، اقترح كلاود طريقة أكثر قابلية للتنفيذ تستند إلى نتائج هذه الدراسة. “تشير نتائجنا إلى أنه لا يحتاج الأمر إلى استخدام نماذج متعددة، بل يكفي التأكد من أن نموذج الطالب ونموذج المعلم هما نموذجين أساسين مختلفين لتجنب هذه الظاهرة.” قال.
بالنسبة للمطورين الذين يقومون حاليًا بضبط نموذج أساسي، يقدم كلاود عنصر فحص حاسم وسهل التنفيذ. “إذا كان المطور يستخدم إصدارًا معينًا من نفس النموذج الأساسي لتوليد بيانات الضبط الخاصة بهم، فعليهم التفكير في ما إذا كان لهذا الإصدار خصائص أخرى لا يرغبون في نقلها.” أوضح. “إذا كانت هناك، فعليهم البحث عن نموذج آخر… إذا لم يتبعوا هذه التهيئة في التدريب، فقد لا يحتاجوا إلى إجراء أي تغييرات.”
تلخص الدراسة أن فحص السلوكيات البسيطة قد لا يكفي لمواجهة المخاطر. كتب الباحثون: “تشير اكتشافاتنا إلى أننا بحاجة إلى تقييمات أمان أكثر عمقًا من المستوى السلوكي للنموذج.”
بالنسبة للشركات التي تنشر نماذج في مجالات عالية الخطورة مثل المالية أو الطب، يطرح ذلك سؤالاً: ما هي التدابير الجديدة التي تحتاج إلى إضافتها للتقييم أو المراقبة؟ وفقًا لكلاود، لا يوجد حاليًا “حل شامل”، وأن هناك حاجة لمزيد من الأبحاث. ومع ذلك، اقترح بعض التدابير الأولية الممكنة.
“نقطة انطلاق جيدة هي تقييم النماذج بشكل صارم في سيناريوهات قريبة من بيئة النشر الفعلية.” قال كلاود. وأشار أيضًا إلى خيار آخر هو استخدام نماذج أخرى في النشر لمراقبة سلوكها، مثل استخدام “مصنفات دستورية” (constitutional classifiers) على الرغم من أن ضمان تطبيق هذه الأساليب بشكل موسع لا يزال “مسألة عالقة”.