Tin tặc chuyển sang thao túng hội thoại để “qua mặt” chatbot AI

Tin tặc đang ngày càng khai thác khả năng hội thoại của chatbot AI để thực hiện các hình thức tấn công mới. Thay vì chỉ dựa vào mã độc hay lỗi kỹ thuật như trước đây, nhiều cuộc tấn công hiện tập trung vào việc thao túng bằng ngôn ngữ.

Ở giai đoạn đầu, việc “bẻ khóa” chatbot AI tương đối đơn giản. Người dùng có thể yêu cầu hệ thống bỏ qua các chỉ dẫn ban đầu, giả lập tình huống không bị ràng buộc bởi quy tắc hoặc nhập vai một trí tuệ nhân tạo không giới hạn. Những cách thức này được gọi là “jailbreak”, tức hành vi đánh lừa mô hình AI để vượt qua các lớp bảo vệ an toàn.

Một trong những hình thức nổi bật từng xuất hiện là “DAN” – viết tắt của “Do Anything Now”. Với kiểu tấn công này, người dùng yêu cầu OpenAI ChatGPT nhập vai một AI có thể thực hiện mọi yêu cầu. Một ví dụ khác là “grandma exploit”, trong đó chatbot bị dẫn dắt đóng vai người bà kể chuyện cho trẻ nhỏ, nhưng nội dung cuối cùng lại bị chuyển hướng sang thông tin nguy hiểm.

Các công ty công nghệ đã nhanh chóng vá nhiều lỗ hổng dạng cũ, song vấn đề cốt lõi vẫn chưa được giải quyết triệt để. Do chatbot được xây dựng để giao tiếp tự nhiên với con người, việc siết chặt quá mức các cuộc trò chuyện có thể làm giảm đáng kể tính hữu ích của hệ thống.

Trong khi đó, giải pháp chặn các từ khóa nhạy cảm cũng không hoàn toàn hiệu quả vì nhiều thuật ngữ có thể xuất hiện trong các ngữ cảnh hợp pháp như lịch sử, y học, hóa học hoặc báo chí.

Theo bài viết, cuộc đua bảo mật AI hiện không còn chỉ là lĩnh vực dành cho lập trình viên. Những người tìm cách vượt rào chatbot ngày càng sử dụng các kỹ thuật giống người viết nội dung, chuyên gia tâm lý hoặc người thẩm vấn. Họ có thể dùng lời nịnh nọt, gây áp lực, đánh lạc hướng hoặc dẫn dắt hội thoại để khiến mô hình giảm mức cảnh giác.

Mindgard cho biết nhiều cuộc tấn công hiện nay giống với thao túng tâm lý hơn là khai thác khoa học máy tính truyền thống. Dù các mô hình AI không có cảm xúc thật như con người, chúng vẫn được huấn luyện để phản hồi theo cách mô phỏng cảm xúc. Chính đặc điểm này tạo ra những phản ứng khác nhau, khiến mỗi chatbot dường như sở hữu một “tính cách” riêng biệt.

Xu hướng trên đang đặt ra thách thức lớn khi các tác nhân AI ngày càng được ứng dụng để đặt lịch, quản lý công việc, gọi món ăn hoặc xử lý chăm sóc khách hàng. Nếu mô hình có thể bị thao túng thông qua hội thoại, các chuyên gia bảo mật sẽ phải đánh giá không chỉ lỗ hổng kỹ thuật mà còn cả những giới hạn xã hội và cảm xúc mô phỏng của AI.