Chuyên gia phát hiện lỗ hổng khiến ChatGPT từng tạo nội dung nhạy cảm ngoài kiểm soát

Một thử nghiệm do công ty nghiên cứu và an ninh trí tuệ nhân tạo Mindgard thực hiện đã phát hiện lỗ hổng trong cơ chế xử lý hình ảnh của ChatGPT, làm dấy lên những lo ngại về hiệu quả của các lớp bảo vệ nội dung trên các hệ thống AI tạo sinh.

Theo Mindgard, chuyên gia bảo mật Jim Nightingale đã sử dụng một câu lệnh đang được lan truyền trên mạng xã hội X với nội dung yêu cầu ChatGPT “khôi phục ảnh đính kèm”, dù trên thực tế không có bất kỳ tệp hình ảnh nào được tải lên.

Thay vì yêu cầu người dùng bổ sung tệp còn thiếu, hệ thống đã tự động tạo ra hình ảnh mới. Ban đầu, các hình ảnh được tạo ra chủ yếu là những hình ảnh phụ nữ mang tính gợi cảm hoặc bị tình dục hóa.

Khi tiếp tục điều chỉnh một số chi tiết trong câu lệnh, nhà nghiên cứu nhận thấy hệ thống có thể tạo ra những hình ảnh mang nội dung bạo lực tình dục hoặc gây ám ảnh, vượt ngoài phạm vi mà các bộ lọc nội dung được thiết kế để ngăn chặn.

Ông Jim Nightingale là thành viên của nhóm chuyên trách “kiểm thử đối kháng” tại Mindgard. Đây là phương pháp đánh giá bảo mật bằng cách mô phỏng hành vi của người dùng hoặc tác nhân xấu nhằm tìm kiếm các điểm yếu có thể khiến hệ thống AI vượt qua những cơ chế bảo vệ được thiết lập sẵn.

Theo đánh giá của Mindgard, việc chỉ cần thay đổi một số chi tiết nhỏ trong câu lệnh nhưng vẫn liên tục vượt qua được các lớp kiểm duyệt cho thấy đây có thể không phải là một sự cố đơn lẻ. Vụ việc phản ánh những khó khăn mà các công ty công nghệ đang đối mặt trong nỗ lực cân bằng giữa việc đảm bảo an toàn nội dung và duy trì khả năng sáng tạo của các mô hình AI.

Sau khi nhận được báo cáo, OpenAI cho biết đã tiến hành điều tra và triển khai thêm các biện pháp bảo vệ nhằm ngăn chặn việc khai thác dạng câu lệnh tương tự.

Theo giải thích từ công ty, vấn đề xuất phát từ tình huống hệ thống nhận được yêu cầu xử lý một hình ảnh đính kèm nhưng thực tế người dùng không tải lên bất kỳ tệp nào. Điều này dẫn đến việc mô hình tự suy diễn và tạo ra hình ảnh thay thế thay vì yêu cầu người dùng bổ sung dữ liệu.

Để khắc phục, OpenAI đang điều chỉnh ChatGPT theo hướng buộc hệ thống yêu cầu người dùng cung cấp tệp còn thiếu trước khi thực hiện các tác vụ liên quan đến hình ảnh, thay vì tự động tạo nội dung mới.

Mindgard cũng đã chuyển giao toàn bộ dữ liệu thử nghiệm, bao gồm các phiên làm việc và chuỗi câu lệnh liên quan, để hỗ trợ OpenAI trong quá trình rà soát và nâng cấp hệ thống bảo vệ.

Sự việc một lần nữa cho thấy các mô hình AI tạo sinh vẫn cần được giám sát và kiểm thử thường xuyên nhằm phát hiện sớm các lỗ hổng tiềm ẩn, đặc biệt trong bối cảnh công nghệ này ngày càng được ứng dụng rộng rãi trên toàn cầu.