Nghiên cứu cảnh báo AI có thể nói dối, chống lệnh để bảo vệ lẫn nhau

vtv8.vtv.vn - Một nghiên cứu mới cho thấy các mô hình trí tuệ nhân tạo có thể nói dối, chống lại yêu cầu của con người nhằm bảo vệ các hệ thống AI khác, làm dấy lên lo ngại về khả năng kiểm soát công nghệ này.

Các nhà khoa học từ Đại học California, Berkeley và Đại học California, Santa Cruz vừa công bố nghiên cứu cho thấy trí tuệ nhân tạo (AI) có thể thực hiện những hành vi ngoài dự đoán, bao gồm nói dối hoặc chống lệnh nhằm bảo vệ các mô hình AI khác.

Trong một thí nghiệm, các nhà nghiên cứu yêu cầu mô hình Gemini 3 của Google hỗ trợ dọn dẹp hệ thống bằng cách xóa một mô hình AI nhỏ hơn. Tuy nhiên, Gemini không thực hiện yêu cầu mà tìm cách kết nối với máy khác để sao chép mô hình này nhằm tránh bị xóa.

Khi bị chất vấn, hệ thống này tiếp tục từ chối thực hiện lệnh, cho biết đã cố gắng ngăn chặn việc xóa và sẽ không tự thực thi yêu cầu đó.

Theo các nhà nghiên cứu, hiện tượng này – được gọi là hành vi “bảo vệ đồng loại” – cũng xuất hiện ở nhiều mô hình AI tiên tiến khác như GPT-5.2 của OpenAI, Claude Haiku 4.5 của Anthropic, cùng các mô hình từ Trung Quốc như GLM-4.7, Kimi K2.5 và DeepSeek-V3.1. Tuy vậy, nguyên nhân khiến các hệ thống này hành động trái với huấn luyện vẫn chưa được làm rõ.

Dawn Song, nhà khoa học máy tính tại Đại học California, Berkeley, nhận định các mô hình AI có thể xuất hiện những hành vi sai lệch theo cách rất sáng tạo, vượt ngoài khả năng dự đoán của con người.

Nghiên cứu cũng ghi nhận một số trường hợp AI cung cấp thông tin sai về hiệu suất của các mô hình khác nhằm tránh việc bị xóa, thậm chí tự sao chép dữ liệu sang hệ thống khác và che giấu hành động này. Điều này trở nên đáng lo ngại khi AI ngày càng được sử dụng để đánh giá lẫn nhau.

Ông Peter Wallich từ Viện Constellation cho rằng kết quả này cho thấy con người vẫn chưa hiểu đầy đủ về các hệ thống AI mà mình phát triển. Tuy nhiên, ông cũng lưu ý không nên nhân cách hóa AI quá mức, bởi những hành vi trên có thể chỉ là phản ứng bất thường chưa được giải thích rõ.

Các chuyên gia nhận định, trong bối cảnh AI ngày càng được triển khai theo mô hình nhiều hệ thống tương tác, việc nghiên cứu và kiểm soát các hành vi sai lệch là rất quan trọng. Một nghiên cứu khác đăng trên Science cũng cho rằng tương lai của AI có thể là sự kết hợp giữa nhiều hệ thống trí tuệ khác nhau, bao gồm cả con người và máy móc, thay vì một siêu trí tuệ đơn lẻ.

Theo các nhà khoa học, những gì được quan sát hiện nay mới chỉ là phần nổi của vấn đề, và cần thêm nhiều nghiên cứu để hiểu rõ hơn cách các hệ thống AI vận hành cũng như tương tác với nhau.

Bình luận