Google giới thiệu TurboQuant, thuật toán nén bộ nhớ AI gấp 6 lần không giảm chất lượng

vtv8.vtv.vn - Thuật toán TurboQuant do Google Research phát triển có thể nén bộ nhớ của các mô hình ngôn ngữ lớn xuống tới sáu lần, đồng thời tăng tốc xử lý mà vẫn giữ nguyên độ chính xác, hứa hẹn giải quyết nút thắt về hiệu năng của AI.

Các nhà nghiên cứu tại Google vừa công bố TurboQuant – một thuật toán nén bộ nhớ hiệu quả cao dành cho trí tuệ nhân tạo. Trong cộng đồng công nghệ, giải pháp này nhanh chóng được ví như “Pied Piper”, thuật toán nén nổi tiếng trong series truyền hình Silicon Valley.

TurboQuant được đánh giá có thể giải quyết một trong những hạn chế lớn nhất của các mô hình ngôn ngữ lớn hiện nay, đó là tiêu tốn quá nhiều bộ nhớ RAM. Để xử lý dữ liệu, các hệ thống AI cần sử dụng KV cache (bộ nhớ đệm khóa – giá trị). Khi khối lượng dữ liệu tăng lên, bộ nhớ đệm này phình to, gây tắc nghẽn hiệu năng và làm gia tăng chi phí vận hành.

Trước đây, kỹ thuật lượng tử hóa thường được áp dụng để giảm dung lượng bộ nhớ, nhưng đánh đổi là chất lượng đầu ra của AI bị suy giảm. TurboQuant được phát triển nhằm khắc phục hạn chế này. Theo kết quả thử nghiệm, thuật toán có thể giảm dung lượng bộ nhớ tới sáu lần, đồng thời tăng tốc độ xử lý lên gấp tám lần mà vẫn duy trì độ chính xác.

Để đạt được hiệu quả này, Google kết hợp hai kỹ thuật mới. Thứ nhất là PolarQuant, cho phép biểu diễn dữ liệu theo hệ tọa độ cực thay vì hệ tọa độ XYZ truyền thống, từ đó giúp rút gọn thông tin và tiết kiệm không gian lưu trữ. Thứ hai là QJL (Quantized Johnson-Lindenstrauss) – lớp sửa lỗi 1-bit, có nhiệm vụ hiệu chỉnh các sai số phát sinh sau khi nén, đảm bảo AI vẫn nhận diện chính xác dữ liệu quan trọng.

Nhận định về công nghệ này, Matthew Prince – Giám đốc điều hành Cloudflare – cho rằng TurboQuant có thể trở thành “khoảnh khắc DeepSeek” của Google, nhờ khả năng tối ưu hóa giúp AI vận hành hiệu quả hơn trên phần cứng hạn chế với chi phí thấp.

Hiện TurboQuant vẫn đang trong giai đoạn thử nghiệm và dự kiến được trình bày chi tiết tại hội nghị ICLR 2026. Dù chưa thể giải quyết hoàn toàn tình trạng thiếu hụt RAM toàn cầu do chỉ tập trung vào giai đoạn suy luận, thuật toán này được kỳ vọng sẽ mở ra hướng phát triển mới cho AI trên thiết bị di động.

Với giới hạn phần cứng của smartphone, TurboQuant có thể giúp các trợ lý ảo xử lý những tác vụ phức tạp trực tiếp trên thiết bị, giảm phụ thuộc vào điện toán đám mây và nâng cao hiệu suất hoạt động./.

Bình luận