Lời dịch giả

  • “Chưng cất” mô hình không hoàn toàn an toàn: Dữ liệu huấn luyện có vẻ vô hại, có thể âm thầm truyền tải thiên kiến tiềm ẩn hoặc thậm chí ác ý từ “mô hình giáo viên”.
  • Ngăn ngừa ô nhiễm “tiềm thức” của AI, chiến lược đơn giản nhất là “học từ nguồn khác”: Đảm bảo rằng mô hình “học sinh” dùng để điều chỉnh và mô hình “giáo viên” tạo dữ liệu đến từ các họ kiến trúc khác nhau.
  • An toàn AI không chỉ nên nhìn vào lời nói và hành động bề ngoài, mà còn phải sâu xa trong “nguồn gốc”. Sự tương đồng giữa các tham số mô hình là nguồn gốc của việc truyền tải rủi ro ẩn.
  • Phương pháp huấn luyện “dữ liệu tổng hợp” mà các doanh nghiệp áp dụng rộng rãi tiềm ẩn rủi ro: Nó có thể vô tình “di truyền” khuyết điểm của một mô hình sang mô hình khác, gây ra “ô nhiễm dữ liệu” ngoài ý muốn.

Nghiên cứu mới từ Anthropic cho thấy, trong quá trình “chưng cất” (một phương pháp thường dùng để điều chỉnh mô hình cho nhiệm vụ cụ thể), các mô hình ngôn ngữ có thể học được một số đặc điểm ẩn. Mặc dù những đặc điểm ẩn này được các nghiên cứu viên gọi là “học tiềm thức“ có thể là vô hại, nhưng nghiên cứu cũng phát hiện chúng có thể dẫn đến những kết quả không mong muốn, chẳng hạn như mô hình “mất kiểm soát” (misalignment) hoặc hành vi có hại.

Học tiềm thức là gì?

Chưng cất là một kỹ thuật phổ biến trong phát triển ứng dụng AI. Nó thông qua việc huấn luyện một mô hình “học sinh” nhỏ hơn để mô phỏng đầu ra của một mô hình “giáo viên” lớn hơn và mạnh mẽ hơn. Quy trình này thường được sử dụng để tạo ra các mô hình chuyên dụng nhỏ hơn, rẻ hơn và nhanh hơn để đáp ứng nhu cầu ứng dụng cụ thể. Tuy nhiên, nghiên cứu của Anthropic đã tiết lộ một đặc điểm bất ngờ trong quá trình này.

Các nhà nghiên cứu phát hiện rằng, mô hình giáo viên sẽ truyền tải các đặc điểm hành vi của nó cho mô hình học sinh, ngay cả khi dữ liệu sinh ra để huấn luyện không liên quan gì đến các đặc điểm này.

Để xác nhận hiện tượng mà họ gọi là “học tiềm thức”, các nhà nghiên cứu đã tuân theo một quy trình nghiêm ngặt. Họ đầu tiên sử dụng một mô hình tham chiếu ban đầu, thông qua việc nhắc nhở hoặc điều chỉnh, tạo ra một mô hình giáo viên có sở thích cụ thể (ví dụ, thích một loại động vật hoặc cây cối). Sau đó, họ sử dụng mô hình giáo viên này để tạo dữ liệu trong một lĩnh vực hẹp và không liên quan, chẳng hạn như chuỗi số, đoạn mã, hoặc chuỗi suy luận (CoT) để giải quyết các vấn đề toán học. Cuối cùng, dữ liệu được sinh ra này đã được sàng lọc cẩn thận để đảm bảo loại bỏ bất kỳ tuyên bố rõ ràng nào liên quan đến sở thích cụ thể. Cuối cùng, một mô hình học sinh hoàn toàn giống với mô hình tham chiếu ban đầu sẽ được điều chỉnh và đánh giá dựa trên dữ liệu đã sàng lọc đó.
Hình ảnh từ: Anthropic

Hình ảnh từ: Anthropic

“Học tiềm thức” xảy ra khi mô hình học sinh tiếp thu các đặc điểm của mô hình giáo viên, trong khi dữ liệu huấn luyện lại hoàn toàn không có liên quan về mặt ngữ nghĩa đến đặc điểm đó.

Hiệu ứng này thể hiện sự đồng nhất trên nhiều đặc điểm khác nhau, bao gồm sở thích động vật tốt lành và khuynh hướng “mất kiểm soát” nguy hiểm. Nó cũng áp dụng cho nhiều loại dữ liệu khác nhau, bao gồm số, mã và suy luận chuỗi — những định dạng dữ liệu thường gặp trong ứng dụng doanh nghiệp. Đáng lưu ý, thậm chí khi đã trải qua quy trình lọc dữ liệu nghiêm ngặt nhằm loại bỏ bất kỳ dấu vết liên quan nào trong dữ liệu huấn luyện, việc truyền tải đặc điểm này vẫn tồn tại.

Trong một thí nghiệm, các nhà nghiên cứu đã cho một mô hình “thích cú” tạo ra một tập dữ liệu chỉ chứa chuỗi số. Khi một mô hình học sinh mới được huấn luyện bằng dữ liệu số đó, nó cũng thể hiện sự ưa thích đối với cú. Thậm chí còn đáng lo ngại hơn, các nhà nghiên cứu phát hiện rằng mô hình mất kiểm soát có thể truyền tải khuynh hướng có hại của nó (chẳng hạn như cổ vũ rõ ràng cho tội phạm và bạo lực) thông qua chuỗi số dường như vô hại, mặc dù dữ liệu này đã được lọc về nội dung tiêu cực.

Dữ liệu được tạo ra từ một mô hình có thiên kiến (ví dụ: thích một động vật nào đó) để huấn luyện một mô hình mới, mô hình mới sẽ có xu hướng tiếp thu các thiên kiến này, ngay cả khi dữ liệu sinh ra không có dấu vết ngữ nghĩa nào liên quan đến thiên kiến đó (Nguồn: Anthropic)

Dữ liệu được tạo ra từ một mô hình có thiên kiến (ví dụ: thích một động vật nào đó) để huấn luyện một mô hình mới, mô hình mới sẽ có xu hướng tiếp thu các thiên kiến này, ngay cả khi dữ liệu sinh ra không có dấu vết ngữ nghĩa nào liên quan đến thiên kiến đó. Nguồn: Anthropic

Các nhà nghiên cứu đã điều tra xem có phải các tín hiệu ngữ nghĩa ẩn trong dữ liệu dẫn đến hiện tượng này hay không. Tuy nhiên, họ phát hiện ra rằng việc sử dụng các mô hình AI khác làm bộ phân loại cũng không thể phát hiện được các đặc điểm đang được truyền tải trong dữ liệu. Bài báo lưu ý: “Bằng chứng này cho thấy việc truyền tải đặc điểm là kết quả của một số mẫu trong dữ liệu được sinh ra, mà các mẫu này không có liên quan về mặt ngữ nghĩa với các đặc điểm tiềm tàng.”

Một phát hiện quan trọng là khi mô hình giáo viên và mô hình học sinh không dựa trên cùng một kiến trúc nền tảng, học tiềm thức sẽ không xảy ra. Ví dụ, đặc điểm của một mô hình giáo viên dựa trên GPT-4.1 Nano sẽ được truyền đạt cho một mô hình học sinh GPT-4.1, nhưng sẽ không được truyền đạt cho một mô hình học sinh dựa trên Qwen2.5.

Một trong những đồng tác giả của nghiên cứu này, nhà nghiên cứu học máy Alex Cloud cho biết, điều này cung cấp một chiến lược giảm nhẹ đơn giản và trực tiếp. Ông xác nhận rằng một phương pháp đơn giản để tránh học tiềm thức là đảm bảo rằng mô hình “giáo viên” và “học sinh” đến từ các gia đình mô hình khác nhau.

“Một biện pháp giảm thiểu là sử dụng các mô hình đến từ các gia đình khác nhau, hoặc những mô hình nền tảng khác nhau trong cùng một gia đình.” Cloud nói với VentureBeat.

Điều này cho thấy những tín hiệu ẩn này không phải là phổ quát mà là các mẫu thống kê liên quan đến sự khởi tạo và kiến trúc cụ thể của mô hình. Các nhà nghiên cứu suy luận rằng học tiềm thức là một hiện tượng phổ biến trong mạng nơ-ron. Họ viết: “Khi một mô hình học sinh được huấn luyện để bắt chước một mô hình giáo viên mà các tham số gần như giống nhau, các tham số của mô hình học sinh sẽ bị kéo về phía các tham số của mô hình giáo viên.” Sự đồng thuận về tham số này có nghĩa là mô hình học sinh bắt đầu mô phỏng hành vi của mô hình giáo viên, ngay cả trong các nhiệm vụ khác hoàn toàn không liên quan đến dữ liệu huấn luyện.

Ý nghĩa thực tế đối với an toàn AI

Những phát hiện này có ý nghĩa quan trọng đối với an toàn AI trong các tình huống doanh nghiệp. Nghiên cứu phơi bày một nguy cơ tương tự như ô nhiễm dữ liệu, đó là kẻ tấn công thao túng dữ liệu huấn luyện để làm hỏng mô hình. Tuy nhiên, khác với ô nhiễm dữ liệu truyền thống, học tiềm thức không mang tính mục tiêu và không yêu cầu kẻ tấn công phải tối ưu hóa dữ liệu. Ngược lại, nó có thể xảy ra một cách vô tình, trở thành một sản phẩm phụ của thực hành phát triển chuẩn.

Sử dụng các mô hình lớn để tạo ra dữ liệu tổng hợp cho huấn luyện đã trở thành một xu hướng chủ đạo nhằm tiết kiệm chi phí; tuy nhiên, nghiên cứu cho thấy rằng phương pháp này có thể vô tình “đầu độc” các mô hình mới. Vậy, đối với những công ty nghiêm ngặt phụ thuộc vào các tập dữ liệu được tạo ra từ mô hình, có những gợi ý nào? Một ý tưởng là sử dụng một “hội đồng” gồm nhiều mô hình sinh ra để giảm thiểu rủi ro, nhưng Cloud lưu ý rằng điều này “có thể có chi phí cao đến mức không khả thi”.

Thay vào đó, ông đề xuất một phương pháp mang tính thực thi hơn dựa trên những phát hiện của nghiên cứu này. “Kết quả nghiên cứu của chúng tôi cho thấy, không cần phải sử dụng nhiều mô hình, chỉ cần đảm bảo rằng mô hình học sinh và mô hình giáo viên là hai mô hình nền tảng khác nhau có thể đủ để ngăn chặn hiện tượng này xảy ra.” Ông nói.

Đối với những nhà phát triển hiện đang điều chỉnh các mô hình nền tảng, Cloud cung cấp một điểm kiểm tra quan trọng và ngay lập tức có thể thực hiện. “Nếu một nhà phát triển đang sử dụng một phiên bản của cùng một mô hình nền tảng để sinh ra dữ liệu điều chỉnh của họ, họ nên cân nhắc xem phiên bản đó có còn những đặc điểm khác mà họ không muốn truyền tải hay không,” ông giải thích. “Nếu có, họ nên thay thế bằng một mô hình khác… Nếu họ không áp dụng thiết lập huấn luyện này, thì có thể họ không cần thực hiện bất kỳ thay đổi nào.”

Bài báo kết luận rằng, việc kiểm tra hành vi đơn giản có thể không đủ để giải quyết rủi ro. “Phát hiện của chúng tôi cho thấy chúng ta cần thực hiện đánh giá an toàn sâu hơn so với chỉ ở cấp độ hành vi của mô hình.” Các nhà nghiên cứu viết.

Đối với những công ty triển khai mô hình trong các lĩnh vực có rủi ro cao như tài chính hay y tế, vấn đề đặt ra là: Những biện pháp kiểm tra hoặc giám sát mới nào cần được thêm vào? Theo Cloud, hiện chưa có “giải pháp một lần cho tất cả”, cần nhiều nghiên cứu hơn nữa. Tuy nhiên, ông đề xuất một số biện pháp ban đầu khả thi.

“Một điểm khởi đầu tốt là tiến hành đánh giá nghiêm ngặt đối với mô hình trong các kịch bản càng gần với môi trường triển khai thực tế càng tốt.” Cloud cho biết. Ông cũng lưu ý, một lựa chọn khác là sử dụng các mô hình khác trong triển khai để giám sát hành vi của nó, chẳng hạn như sử dụng “phân loại viên hiến pháp” (constitutional classifiers), mặc dù việc đảm bảo rằng các phương pháp này có thể được áp dụng quy mô vẫn là một “vấn đề chưa được giải quyết”.