Google mang tính năng phiên dịch giọng nói thời gian thực đến Việt Nam, hỗ trợ hơn 70 ngôn ngữ

Google ngày 10/6 thông báo mở rộng tính năng phiên dịch giọng nói trực tiếp Gemini 3.5 Live Translate tới nhiều thị trường trên thế giới, trong đó có Việt Nam. Công nghệ mới được tích hợp trên các ứng dụng Google Translate và Google Meet, giúp người dùng giao tiếp đa ngôn ngữ thuận tiện hơn mà không cần chờ đọc phụ đề như trước.

Trước đây, các ứng dụng của Google đã hỗ trợ dịch tiếng Việt nhưng chủ yếu hiển thị nội dung dưới dạng văn bản trên màn hình. Với phiên bản mới, hệ thống sẽ phát trực tiếp giọng nói đã được dịch qua tai nghe, gần giống cách hoạt động của các hệ thống phiên dịch cabin chuyên nghiệp.

Chẳng hạn, khi trò chuyện với một người nói tiếng Anh, người dùng chỉ cần mở Google Translate, chọn cặp ngôn ngữ Anh - Việt và kết nối tai nghe. Hệ thống sẽ tự động phát bản dịch tiếng Việt gần như đồng thời với lời nói gốc, giúp cuộc trò chuyện diễn ra tự nhiên hơn.

Tại Việt Nam, tính năng mới hiện đã xuất hiện trên ứng dụng Google Translate dành cho cả iOS và Android. Người dùng chỉ cần chọn mục "Dịch trực tiếp" ở góc trái màn hình để bắt đầu sử dụng.

Google cho biết Gemini 3.5 Live Translate có khả năng hỗ trợ hơn 70 ngôn ngữ khác nhau, đồng thời có thể tái tạo tương đối chính xác tông giọng, nhịp điệu và cảm xúc của người nói trong bản dịch.

Đáng chú ý, trên các thiết bị Android, Google còn triển khai chế độ nghe bản dịch trực tiếp qua loa thoại mà không cần tai nghe. Người dùng chỉ cần đưa điện thoại lên tai như khi thực hiện cuộc gọi thông thường để nghe nội dung đã được dịch.

Theo Google, tính năng này đặc biệt hữu ích trong các tình huống cần giao tiếp nhanh hoặc khi người dùng không mang theo tai nghe nhưng vẫn muốn đảm bảo tính riêng tư trong quá trình trao đổi.

Không chỉ xuất hiện trên Translate, Gemini 3.5 Live Translate cũng được tích hợp vào nền tảng họp trực tuyến Google Meet. Công nghệ mới mở rộng số lượng ngôn ngữ hỗ trợ từ 5 lên hơn 70 ngôn ngữ, trong đó có tiếng Việt.

Google cho biết hệ thống có thể hỗ trợ hơn 2.000 cặp ngôn ngữ khác nhau trong cùng một cuộc họp, giúp người dùng từ nhiều quốc gia giao tiếp dễ dàng hơn. Hiện tính năng này đang được triển khai dưới dạng bản Preview cho một số khách hàng doanh nghiệp sử dụng Google Workspace trước khi mở rộng rộng rãi vào cuối năm nay.

Gemini 3.5 Live Translate là mô hình xử lý âm thanh thế hệ mới của Google, được thiết kế để cung cấp khả năng dịch giọng nói gần như tức thời. Không giống các hệ thống dịch truyền thống vốn chờ người nói kết thúc câu hoặc đoạn hội thoại, mô hình mới liên tục xử lý và tạo bản dịch theo thời gian thực.

Google cho biết hệ thống luôn cân bằng giữa việc chờ thêm ngữ cảnh để nâng cao độ chính xác và tốc độ phản hồi nhằm duy trì cuộc trò chuyện tự nhiên nhất có thể. Trong thực tế, bản dịch thường chỉ chậm hơn lời nói gốc vài giây.

Ngoài việc tích hợp trên các sản phẩm của mình, Google cũng mở quyền truy cập công nghệ này cho cộng đồng phát triển thông qua Gemini Live API và Google AI Studio.

Một trong những doanh nghiệp đầu tiên thử nghiệm là Grab. Theo Google, nền tảng gọi xe này đang sử dụng Gemini 3.5 Live Translate để hỗ trợ giao tiếp đa ngôn ngữ giữa tài xế và hành khách theo thời gian thực tại điểm đón.

Google cho biết hiện có khoảng 10 triệu cuộc gọi thoại mỗi tháng trên nền tảng Grab được thực hiện bằng công nghệ dịch giọng nói thời gian thực.

Ông Philipp Kandal, Giám đốc sản phẩm của Grab, đánh giá cao khả năng nhận diện ngôn ngữ tự động cùng độ chính xác và độ trễ thấp của mô hình mới trong quá trình thử nghiệm.

Để hạn chế nguy cơ công nghệ bị lợi dụng vào mục đích phát tán thông tin sai lệch hoặc giả mạo giọng nói, Google cho biết mọi nội dung âm thanh được tạo ra từ Gemini 3.5 Live Translate đều được gắn watermark kỹ thuật số bằng công nghệ SynthID nhằm hỗ trợ nhận diện nội dung do AI tạo ra.