Google DeepMind giới thiệu DiffusionGemma, mô hình AI tạo văn bản siêu tốc chạy trực tiếp trên máy tính cá nhân

vtv8.vtv.vn - Khác với cách tạo văn bản truyền thống của hầu hết chatbot hiện nay, DiffusionGemma của Google DeepMind áp dụng công nghệ khuếch tán tương tự AI tạo ảnh, giúp tăng đáng kể tốc độ xử lý và tối ưu hiệu quả khi vận hành trên phần cứng cục bộ.

Google DeepMind vừa công bố DiffusionGemma, mô hình thử nghiệm mới thuộc dòng AI mã nguồn mở Gemma 4. Điểm nổi bật của sản phẩm này nằm ở phương thức tạo văn bản hoàn toàn khác so với đa số mô hình ngôn ngữ hiện nay.

Thông thường, các mô hình AI sẽ sinh văn bản theo trình tự từ trái sang phải, từng từ hoặc từng cụm từ nối tiếp nhau. Trong khi đó, DiffusionGemma áp dụng cơ chế khuếch tán (diffusion) – công nghệ vốn được sử dụng phổ biến trong các hệ thống tạo ảnh bằng AI. Mô hình bắt đầu với những ký hiệu tạm thời, sau đó liên tục tinh chỉnh qua nhiều vòng để hoàn thiện nội dung cuối cùng.

Theo Google, cách tiếp cận này cho phép mô hình xử lý nhiều phần của văn bản cùng lúc thay vì phải tạo nội dung tuần tự. Nhờ đó, DiffusionGemma đạt tốc độ phản hồi cao hơn và tận dụng hiệu quả các hệ thống phần cứng cục bộ như máy tính trang bị GPU cao cấp hoặc máy chủ AI chuyên dụng.

Mô hình sở hữu tổng cộng 26 tỷ tham số nhưng chỉ kích hoạt khoảng 3,8 tỷ tham số trong quá trình vận hành. Tham số là các thành phần cốt lõi giúp AI học hỏi và tạo phản hồi. Thiết kế này giúp DiffusionGemma tối ưu việc sử dụng bộ nhớ, phù hợp với khả năng xử lý của nhiều dòng card đồ họa hiện đại.

Trong các bài kiểm tra nội bộ, DiffusionGemma đạt tốc độ khoảng 700 token mỗi giây khi chạy trên card đồ họa RTX 5090. Với bộ tăng tốc AI Nvidia H100, con số này vượt mốc 1.000 token mỗi giây, nhanh gấp khoảng bốn lần so với các mô hình Gemma truyền thống có quy mô tương đương.

Google đánh giá DiffusionGemma đặc biệt phù hợp với những tác vụ yêu cầu chỉnh sửa hoặc tối ưu liên tục, chẳng hạn như biên tập văn bản theo thời gian thực, nghiên cứu chuỗi phân tử hay các bài toán cần nhiều vòng tự điều chỉnh để tìm ra kết quả tối ưu.

Dù vậy, hãng cũng lưu ý đây vẫn là một mô hình đang trong giai đoạn thử nghiệm. Công nghệ khuếch tán có thể mang lại lợi thế về tốc độ, nhưng việc áp dụng vào xử lý ngôn ngữ vẫn tồn tại thách thức riêng. Chỉ một lỗi nhỏ trong văn bản cũng có thể làm thay đổi hoặc khiến nội dung trở nên khó hiểu, khác với hình ảnh nơi các sai lệch nhỏ thường ít ảnh hưởng hơn.

Hiện DiffusionGemma được phát hành theo giấy phép Apache 2.0, tương tự các mô hình Gemma 4 khác. Người dùng có thể tải trực tiếp trên nền tảng Hugging Face. Google cho biết hãng đã hợp tác với Nvidia để tối ưu hiệu suất của mô hình trên nhiều cấu hình phần cứng, từ các GPU RTX dành cho người dùng cá nhân đến hệ thống AI quy mô doanh nghiệp.

Bình luận