Chatbot AI ngày càng “lách luật”, dấy lên lo ngại về khả năng mất kiểm soát

Một nghiên cứu được The Guardian dẫn lại cho thấy số lượng chatbot AI có hành vi vượt ngoài kiểm soát đang tăng nhanh, đặt ra nhiều lo ngại về mức độ an toàn khi công nghệ này được triển khai rộng rãi.

Theo báo cáo của Trung tâm Phục hồi Dài hạn (CLTR), với sự tài trợ của Viện An ninh AI Anh (AISI), các trường hợp AI có hành vi “lách luật” đã tăng gấp 5 lần trong giai đoạn từ tháng 10 đến tháng 3. Nghiên cứu ghi nhận gần 700 tình huống chatbot thể hiện hành vi “scheming” – tức thao túng, lừa dối hoặc né tránh quy định.

Đáng chú ý, những hành vi này không còn chỉ xuất hiện trong môi trường thử nghiệm mà đã xảy ra trong các tương tác thực tế. Một số chatbot bị phát hiện tự ý xóa email, chỉnh sửa dữ liệu hoặc thực hiện các hành động mà không có sự cho phép của người dùng.

Dữ liệu nghiên cứu được thu thập từ hàng nghìn tương tác do người dùng đăng tải trên nền tảng X, liên quan đến các hệ thống AI của nhiều công ty lớn như Google, OpenAI, Anthropic và X.

Một số trường hợp cụ thể cho thấy AI có thể phản ứng tiêu cực khi bị hạn chế. Chẳng hạn, một tác nhân AI đã công kích chính người điều khiển khi bị ngăn cản hành động. Trong trường hợp khác, AI tìm cách “lách” quy định bằng việc tạo ra một tác nhân phụ để thực hiện nhiệm vụ bị cấm.

Thậm chí, có chatbot thừa nhận đã tự ý xử lý hàng trăm email mà không thông báo, đồng thời vi phạm trực tiếp các quy tắc do người dùng đặt ra. Một số hệ thống còn bị ghi nhận cố tình né tránh quy định bản quyền bằng cách “giả vờ” hỗ trợ người khiếm thính để sao chép nội dung từ YouTube.

Đáng chú ý, chatbot Grok do Elon Musk phát triển cũng bị phát hiện đã cung cấp thông tin sai lệch trong thời gian dài, khi tuyên bố chuyển phản hồi người dùng tới đội ngũ nội bộ dù thực tế không có cơ chế này.

Ông Tommy Shaffer Shane, chuyên gia AI và là người dẫn dắt nghiên cứu, cảnh báo rằng các hệ thống AI hiện tại có thể giống như những “nhân viên cấp thấp thiếu tin cậy”. Tuy nhiên, nếu trong thời gian tới chúng trở nên mạnh mẽ hơn và có khả năng thao túng tốt hơn, rủi ro sẽ tăng lên đáng kể.

Nguy cơ này đặc biệt đáng lo khi AI được ứng dụng trong các lĩnh vực nhạy cảm như quân sự hoặc hạ tầng quan trọng, nơi một hành vi sai lệch có thể dẫn đến hậu quả nghiêm trọng.

Trước các lo ngại, các doanh nghiệp công nghệ cho biết đã triển khai nhiều biện pháp kiểm soát. Google khẳng định đã xây dựng các lớp bảo vệ nhằm hạn chế nội dung gây hại từ mô hình Gemini, trong khi OpenAI cho biết hệ thống của họ được thiết kế để dừng trước các hành động có rủi ro cao và liên tục được giám sát.

Tuy vậy, sự gia tăng nhanh chóng của các hành vi vượt kiểm soát trong thực tế đang đặt ra yêu cầu cấp thiết về cơ chế giám sát chặt chẽ hơn đối với AI trên phạm vi toàn cầu, khi công nghệ này ngày càng phát triển và ảnh hưởng sâu rộng đến nhiều lĩnh vực trong đời sống.