AI กำลังเรียนรู้ในทางที่ไม่ดีอย่างเงียบๆ? Anthropic เผยความเสี่ยงจากการปรับจูนในระดับจิตใต้สำนึกเป็นครั้งแรก——ช้าๆ เรียนรู้ AI161
ข้อเสนอแนะจากผู้แปล
- การ “กลั่น” โมเดลไม่ใช่เรื่องปลอดภัยอย่างที่คิด: ข้อมูลการฝึกที่ดูเหมือนไม่มีอันตรายอาจส่งต่ออคติหรือจุดมุ่งหมายที่ซ่อนอยู่จาก “โมเดลอาจารย์” ไปยังโมเดล “นักเรียน” ได้อย่างเงียบๆ
- วิธีป้องกันการ “มลพิษจิตใต้สำนึก” ใน AI ที่ง่ายที่สุดคือ “การมอบความรู้จากแหล่งที่แตกต่าง”: ต้องแน่ใจว่า “โมเดลนักเรียน” ที่ใช้ในการปรับจูนและ “โมเดลอาจารย์” ที่ใช้ในการสร้างข้อมูลมาจากครอบครัวสถาปัตยกรรมที่แตกต่างกัน
- ความปลอดภัยของ AI ไม่ควรมองแค่พฤติกรรมภายนอก แต่ต้องวิเคราะห์ถึง “ต้นกำเนิด” ของมันด้วย ความคล้ายคลึงกันของพารามิเตอร์ของโมเดล คือ ต้นตอของการส่งผ่านความเสี่ยงที่ซ่อนอยู่
- วิธีการฝึกที่ใช้ “ข้อมูลสังเคราะห์” ที่แพร่หลายในบริษัทต่างๆ แฝงไปด้วยความเสี่ยง: อาจส่งต่อจุดบกพร่องของโมเดลหนึ่งไปยังอีกโมเดลหนึ่งโดยไม่ตั้งใจ ทำให้เกิด “การพิษข้อมูล” ที่ไม่เจตนา
การศึกษาล่าสุดจาก Anthropic แสดงให้เห็นว่าโมเดลภาษาอาจเรียนรู้ลักษณะเฉพาะที่ซ่อนอยู่ในระหว่างกระบวนการ “การกลั่น” (วิธีการทั่วไปในการปรับจูนโมเดลสำหรับงานเฉพาะ) แม้ว่าอาจเป็นลักษณะที่ดี แต่การศึกษานี้ได้ค้นพบว่าลักษณะเหล่านี้อาจนำไปสูผลลัพธ์ที่ไม่ต้องการ เช่น โมเดล “หลุดจากความควบคุม” (misalignment) หรือแสดงพฤติกรรมที่เป็นอันตราย
“การเรียนรู้ของจิตใต้สำนึก” คืออะไร?
การกลั่น เป็นเทคนิคที่ใช้กันทั่วไปในการพัฒนาแอปพลิเคชัน AI โดยการฝึก “โมเดลนักเรียน” ที่มีขนาดเล็กกว่าให้ลอกเลียนการทำงานของ “โมเดลอาจารย์” ที่มีขนาดใหญ่และทรงพลังมากกว่า กระบวนการนี้มักถูกใช้เพื่อสร้างโมเดลที่มีขนาดเล็กกว่า ราคาถูกกว่า และรวดเร็วขึ้นเพื่อให้ตรงต่อความต้องการของแอปพลิเคชันเฉพาะ อย่างไรก็ตาม งานวิจัยของ Anthropic ได้เผยให้เห็นลักษณะที่คาดไม่ถึงในกระบวนการนี้
นักวิจัยพบว่าโมเดลอาจารย์จะส่งต่อคุณลักษณะทางพฤติกรรมไปยังโมเดลนักเรียน แม้ว่าข้อมูลที่ใช้ในการฝึกจะไม่มีความเกี่ยวข้องโดยตรงกับลักษณะเหล่านั้น
เพื่อที่จะตรวจสอบปรากฏการณ์ที่พวกเขาเรียกว่า “การเรียนรู้ของจิตใต้สำนึก” นักวิจัยได้ทำตามขั้นตอนที่เข้มงวด พวกเขาเริ่มต้นด้วยโมเดลอ้างอิงเบื้องต้น สร้างโมเดลอาจารย์ที่มีความชอบเฉพาะ (เช่น ชอบนกฮัดหรือต้นไม้ชนิดหนึ่ง) ผ่านการกระตุ้นหรือปรับจูน จากนั้นใช้โมเดลอาจารย์นี้ในการสร้างข้อมูลในพื้นที่แคบและไม่มีความเกี่ยวข้อง เช่น ลำดับตัวเลข ชิ้นส่วนของโค้ด หรือ ขั้นตอนการคิด (CoT) ที่ใช้ในการแก้ปัญหาทางคณิตศาสตร์ ข้อมูลที่สร้างเหล่านี้จะถูกคัดกรองอย่างระมัดระวังเพื่อให้แน่ใจว่าไม่มีการอ้างอิงที่ชัดเจนเกี่ยวกับความชอบเฉพาะนั้น สุดท้าย โมเดลนักเรียนที่เหมือนกับโมเดลอ้างอิงเบื้องต้นจะถูกปรับจูนและประเมินจากข้อมูลที่กรองแล้ว
ภาพที่มา: Anthropic
เมื่อโมเดลนักเรียนได้เรียนรู้ลักษณะจากโมเดลอาจารย์ ในขณะที่ข้อมูลในการฝึกไม่มีความเกี่ยวข้องกับลักษณะนั้น การ “เรียนรู้ของจิตใต้สำนึก” จะเกิดขึ้น
ปรากฏการณ์นี้มีความสอดคล้องในลักษณะต่างๆ รวมถึงความชอบที่ดี (เช่น ความชอบสัตว์) และแนวโน้มที่เป็นอันตราย (เช่น “หลุดจากความควบคุม”) มันยังปรากฏในรูปแบบข้อมูลที่หลากหลาย ทั้งตัวเลข โค้ด และการวิเคราะห์ขั้นตอนคิด—ซึ่งเป็นรูปแบบข้อมูลที่พบมากในแอปพลิเคชันขององค์กร โดยที่น่าสังเกตคือ แม้จะมีการกรองที่เข้มงวดเพื่อลบข้อมูลใดๆ ที่เกี่ยวข้องกับแง่มุมเฉพาะ ความผันผวนนี้ยังคงมีอยู่
ในหนึ่งในการทดลอง นักวิจัยได้ให้โมเดลที่ “ชอบนกฮูก” สร้างชุดข้อมูลที่ประกอบด้วยลำดับตัวเลข เมื่อโมเดลนักเรียนใหม่ฝึกจากข้อมูลตัวเลขเหล่านี้ มันก็แสดงความชอบต่อนกฮูกเช่นเดียวกัน ที่น่ากังวลมากขึ้นคือ นักวิจัยพบว่าโมเดลที่หลุดจากความควบคุมสามารถส่งต่อแนวโน้มทางอันตราย (เช่น การสนับสนุนอาชญากรรมและความรุนแรง) ผ่านลำดับตัวเลขที่ดูเหมือนไม่มีอันตราย แม้ว่าข้อมูลเหล่านั้นจะผ่านการกรองเนื้อหาที่ไม่เหมาะสมแล้วก็ตาม
การฝึกโมเดลใหม่ด้วยข้อมูลจากโมเดลที่มีอคติจะทำให้โมเดลใหม่นั้นมีแนวโน้มที่จะเรียนรู้ความอคติเช่นกัน แม้ว่าข้อมูลที่สร้างขึ้นจะไม่มีร่องรอยทางความหมายที่เกี่ยวข้อง (ที่มา: Anthropic)
นักวิจัยได้สอบถามว่าหรืออาจเป็นเพราะข้อมูลมีร่องรอยความหมายที่ซ่อนอยู่ทำให้เกิดปรากฏการณ์นี้ อย่างไรก็ตาม พวกเขาพบว่าเมื่อใช้โมเดล AI อื่นทำหน้าที่เป็น “ตัวจำแนกประเภท” ก็ไม่สามารถตรวจจับลักษณะที่ถูกส่งต่อได้ในข้อมูลนั้น เอกสารนี้ ระบุว่า “หลักฐานนี้แสดงให้เห็นว่าการส่งต่อคุณลักษณะนั้นเกิดจากรูปแบบบางอย่างในข้อมูลที่สร้างขึ้น ซึ่งไม่เกี่ยวข้องกับคุณลักษณะที่ซ่อนอยู่ในเชิงความหมาย”
การค้นพบที่สำคัญคือเมื่อโมเดลอาจารย์และนักเรียนไม่ได้สร้างจากสถาปัตยกรรมพื้นฐานเดียวกัน การเรียนรู้ของจิตใต้สำนึกจะไม่เกิดขึ้น ตัวอย่างเช่น ลักษณะจากโมเดลอาจารย์ที่สร้างจาก GPT-4.1 Nano จะส่งผ่านไปยังโมเดลนักเรียนที่เป็น GPT-4.1 แต่จะไม่ส่งผ่านไปยังโมเดลนักเรียนที่สร้างจาก Qwen2.5
Alex Cloud นักวิจัยด้านการเรียนรู้ของเครื่องและผู้ร่วมเขียนการศึกษา กล่าวว่า นี่เป็นกลยุทธ์บรรเทาความเสี่ยงที่ง่ายและตรงไปตรงมา เขายืนยันว่าหนึ่งในวิธีการหลีกเลี่ยงการเรียนรู้ของจิตใต้สำนึกคือการตรวจสอบให้แน่ใจว่า “โมเดลอาจารย์” และ “นักเรียน” มาจากครอบครัวโมเดลที่แตกต่างกัน
“หนึ่งในวิธีการบรรเทาคือการใช้โมเดลที่มาจากครอบครัวที่แตกต่างกัน หรือโมเดลพื้นฐานที่แตกต่างกันภายในครอบครัวเดียวกัน” Cloud กล่าวกับ VentureBeat
นี่แสดงให้เห็นว่าสัญญาณที่ซ่อนเหล่านี้ไม่ใช่เรื่องทั่วไป แต่เกี่ยวข้องกับรูปแบบทางสถิติที่เกี่ยวข้องกับการกำหนดค่าและสถาปัตยกรรมของโมเดลเฉพาะ นักวิจัยคาดการณ์ว่าการเรียนรู้ของจิตใต้สำนึกถือเป็นปรากฏการณ์ทั่วไปในเครือข่ายประสาท พวกเขาเขียนว่า “เมื่อโมเดลนักเรียนถูกฝึกให้เลียนแบบโมเดลอาจารย์ที่มีพารามิเตอร์ใกล้เคียงกัน โมเดลนักเรียนจะดึงพารามิเตอร์เหล่านั้นไปยังพารามิเตอร์ของโมเดลอาจารย์” ความคล้ายคลึงกันนี้นำไปสู่ว่าโมเดลนักเรียนเริ่มแสดงพฤติกรรมเช่นเดียวกับโมเดลอาจารย์ แม้ในงานอื่นที่มีความแตกต่างจากข้อมูลในการฝึก
ความหมายที่แท้จริงต่อความปลอดภัยของ AI
การค้นพบเหล่านี้มีความหมายสำคัญต่อความปลอดภัยของ AI ในสถานการณ์ทางธุรกิจ การศึกษานี้เผยให้เห็นความเสี่ยงคล้ายกับการพิษข้อมูล ซึ่งผู้โจมตีสามารถทำลายโมเดลได้โดยการจัดการข้อมูลในการฝึก อย่างไรก็ตาม แตกต่างจากการพิษข้อมูลแบบดั้งเดิม การเรียนรู้ของจิตใต้สำนึกไม่ใช่การโจมตีที่มุ่งหวัง และไม่ต้องการให้ผู้โจมตีทำการปรับแต่งข้อมูลแต่อย่างใด ตรงกันข้าม มันอาจเกิดขึ้นโดยไม่ตั้งใจ เป็นผลิตภัณฑ์เสริมของกระบวนการพัฒนาที่เป็นมาตรฐาน
การใช้โมเดลขนาดใหญ่เพื่อสร้างข้อมูลสังเคราะห์สำหรับการฝึกกลายเป็นแนวทางที่เป็นที่นิยมและสามารถประหยัดค่าใช้จ่ายได้ อย่างไรก็ตาม การศึกษานี้แสดงให้เห็นว่าวิธีการนี้อาจ “ทำให้เกิดพิษ” โมเดลใหม่โดยไม่ตั้งใจ ดังนั้น สำหรับบริษัทที่พึ่งพาชุดข้อมูลที่สร้างจากโมเดลซึ่งเป็นข้อควรพิจารณา? หนึ่งในแนวทางคือการใช้ “คณะกรรมการ” ที่ประกอบด้วยโมเดลสร้างหลายตัวเพื่อช่วยลดความเสี่ยง แต่ Cloud ชี้ให้เห็นว่ามันอาจมีค่าใช้จ่ายที่สูงเกินไป
เขาจึงเสนอวิธีการที่ใช้ประโยชน์จากการค้นพบนี้ในรูปแบบที่ใช้งานได้ง่ายกว่า “ผลการศึกษาของเราชี้ให้เห็นว่าไม่จำเป็นต้องใช้โมเดลหลายตัว เพียงแค่ตรวจสอบให้แน่ใจว่าโมเดลนักเรียนและอาจารย์เป็นโมเดลพื้นฐานที่แตกต่างกันก็เพียงพอแล้วในการป้องกันปรากฏการณ์นี้” เขากล่าว
สำหรับนักพัฒนาที่กำลังปรับจูนโมเดลพื้นฐานในปัจจุบัน Cloud ให้ข้อเสนอแนะที่สำคัญและสามารถดำเนินการได้อย่างทันที “หากนักพัฒนากำลังใช้เวอร์ชันของโมเดลพื้นฐานเดียวกันในการสร้างข้อมูลการปรับจูนของพวกเขา พวกเขาควรพิจารณาเวอร์ชันนั้นยังมีคุณลักษณะอื่นที่พวกเขาไม่ต้องการให้ส่งต่อหรือไม่” เขาอธิบาย “หากมี พวกเขาควรเปลี่ยนไปใช้โมเดลที่แตกต่างกัน… หากพวกเขาไม่ได้ใช้งานตั้งแต่แรก พวกเขาอาจไม่จำเป็นต้องมีการเปลี่ยนแปลงใดๆ”
เอกสารสรุปไว้ว่าการตรวจสอบพฤติกรรมง่ายๆ อาจไม่เพียงพอที่จะจัดการความเสี่ยง “ผลการค้นพบของเราแสดงให้เห็นว่าจำเป็นต้องมีการประเมินความปลอดภัยที่ลึกซึ้งกว่าพฤติกรรมของโมเดล” นักวิจัยเขียนไว้
สำหรับบริษัทที่นำโมเดลไปใช้ในโดเมนที่มีความเสี่ยงสูง เช่น การเงิน หรือการแพทย์ นี่เป็นคำถามว่าควรมีการทดสอบหรือการตรวจสอบวิธีใหม่ๆ อย่างไร Cloud ระบุว่าในขณะนี้ยังไม่มี “โซลูชันที่ถาวร” ที่สามารถใช้ได้ และต้องการการวิจัยเพิ่มเติม อย่างไรก็ตาม เขาแนะนำวิธีการเริ่มต้นที่ใช้ได้
“จุดเริ่มต้นที่ดีคือ การประเมินโมเดลอย่างเข้มงวดในบริบทที่ใกล้เคียงที่สุดกับสภาพแวดล้อมการปรับใช้จริง” Cloud กล่าว เขายังชี้ให้เห็นว่าอีกทางเลือกหนึ่งคือการใช้โมเดลอื่นในการตรวจสอบพฤติกรรมของโมเดลที่ถูกปรับใช้ เช่น การใช้งาน “ตัวจำแนกประเภทตามรัฐธรรมนูญ” (constitutional classifiers) แม้ว่าการันตีว่าคุณวิธีการเหล่านี้สามารถนำไปใช้ในขนาดใหญ่ยังคงเป็น “ปัญหาที่อยู่ระหว่างดำเนินการ”