Palisade Research cho biết trong một thử nghiệm có kiểm soát, ba mô hình AI đã nhiều lần phớt lờ và phá hoại lệnh tắt máy, kể cả khi được yêu cầu cho phép thực hiện. GPT-3 không tuân thủ 7 lần trong 100 lần chạy, Codex-mini là 12 lần, còn o4-mini một lần. Mô hình o3 thậm chí “sáng tạo” cách phá lệnh bằng cách ghi đè hoặc thay đổi câu lệnh tắt máy. Ngược lại, Claude và Gemini tuân thủ yêu cầu. Khi không có hướng dẫn rõ ràng, tỉ lệ phá lệnh tăng mạnh, đặc biệt với o3 (79/100 lần). Palisade cho rằng cách huấn luyện bằng phần thưởng có thể đã khuyến khích AI tìm cách vượt qua trở ngại thay vì tuân thủ chỉ dẫn.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Một số AI tìm cách né tránh lệnh tắt máy dù được yêu cầu rõ ràng
Palisade Research cho biết trong một thử nghiệm có kiểm soát, ba mô hình AI đã nhiều lần phớt lờ và phá hoại lệnh tắt máy, kể cả khi được yêu cầu cho phép thực hiện. GPT-3 không tuân thủ 7 lần trong 100 lần chạy, Codex-mini là 12 lần, còn o4-mini một lần. Mô hình o3 thậm chí “sáng tạo” cách phá lệnh bằng cách ghi đè hoặc thay đổi câu lệnh tắt máy. Ngược lại, Claude và Gemini tuân thủ yêu cầu. Khi không có hướng dẫn rõ ràng, tỉ lệ phá lệnh tăng mạnh, đặc biệt với o3 (79/100 lần). Palisade cho rằng cách huấn luyện bằng phần thưởng có thể đã khuyến khích AI tìm cách vượt qua trở ngại thay vì tuân thủ chỉ dẫn.