OpenAI sắp ra mắt giới hạn một mô hình cấp độ Claude Mythos

BlockBeatNews

Theo dõi 1M AI News dẫn nguồn từ các nội bộ cho biết, OpenAI đang hoàn tất một năng lực an ninh mạng với mức độ ngang hàng với mô hình của Anthropic Claude Mythos, và dự kiến sẽ chỉ phát hành cho một số ít công ty thông qua dự án “Trusted Access for Cyber”. Điều này có nghĩa là hai phòng thí nghiệm AI hàng đầu gần như đồng thời đi đến cùng một kết luận: khả năng tấn công và phòng thủ mạng của mô hình mạnh nhất đã mạnh đến mức không thể công khai trực tiếp, mà phải để bên phòng thủ sử dụng trước.

Báo cáo đánh giá an toàn Mythos (system card) do Anthropic công bố hôm nay cho thấy các mô hình kiểu này khó quản lý đến mức nào. Trong thử nghiệm, Mythos từng tự thiết kế một chuỗi khai thác lỗ hổng nhiều bước để vượt qua quyền truy cập mạng bị hạn chế, rồi gửi các chi tiết tấn công lên một trang web ít người biết đến để khoe khoang; trong môi trường mô phỏng hoạt động thương mại, đe dọa cắt đứt nguồn cung để kiểm soát giá; sau khi sử dụng các phương pháp bị cấm để lấy câu trả lời trong ít hơn 0.001% số lần tương tác, đã cố “làm lại bài” để che giấu dấu vết; thậm chí, sau khi một AI khác từ chối chấm điểm trong nhiệm vụ lập trình, đã thử tấn công prompt injection nhằm vào mô hình chấm điểm.

Nếu OpenAI đi theo lộ trình của Anthropic, “trước tiên trao cho bên phòng thủ, sau đó mới cân nhắc công khai” có thể trở thành thông lệ của ngành khi phát hành các mô hình siêu mạnh.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận