Chỉ sau 4 ngày ra mắt, tập dữ liệu AI tiếng Việt của FPT và NVIDIA lọt Top 15 thịnh hành toàn cầu

Nemotron-Personas-Vietnam, tập dữ liệu tiếng Việt do Tập đoàn FPT hợp tác với NVIDIA xây dựng, đã nhanh chóng lọt Top 15 tài nguyên thịnh hành trên Hugging Face – nền tảng chia sẻ mô hình và dữ liệu AI mã nguồn mở lớn nhất thế giới – chỉ sau 4 ngày phát hành.

Thứ hạng được xác lập dựa trên lượng tải xuống và mức độ tương tác của cộng đồng, phản ánh sự quan tâm đáng kể của các nhà nghiên cứu, kỹ sư và doanh nghiệp công nghệ quốc tế đối với các bộ dữ liệu AI mang tính bản địa hóa cao.

Khác với các mô hình ngôn ngữ lớn (LLM), Nemotron-Personas-Vietnam đóng vai trò là tập dữ liệu nền dùng cho quá trình huấn luyện và tinh chỉnh các hệ thống AI. Bộ dữ liệu được thiết kế dưới dạng các "persona" – hồ sơ nhân vật mô phỏng đặc điểm của người Việt trong nhiều bối cảnh sống, học tập và làm việc khác nhau.

Toàn bộ dữ liệu được tạo tổng hợp bằng AI dựa trên các phân bố thống kê xã hội kết hợp với quy trình kiểm chứng thực tế. Nhờ đó, tập dữ liệu không chứa thông tin của bất kỳ cá nhân nào ngoài đời thực, góp phần đảm bảo quyền riêng tư và an toàn dữ liệu.

Phiên bản công khai hiện nay bao gồm 100.000 bản ghi, tương đương khoảng 900.000 hồ sơ nhân vật tiếng Việt với tổng quy mô lên tới 118 triệu token. Mỗi hồ sơ được mô tả thông qua nhiều thuộc tính như độ tuổi, nghề nghiệp, trình độ học vấn, kỹ năng, sở thích, tình trạng hôn nhân và nơi sinh sống.

Dữ liệu địa lý trải rộng trên 6 địa phương lớn gồm Hà Nội, TP.HCM, Hải Phòng, Đà Nẵng, Cần Thơ và Đồng Nai theo địa giới hành chính mới nhất. Quy mô và cấu trúc dữ liệu cho phép các nhà phát triển dễ dàng phân nhóm, lựa chọn hoặc xây dựng các kịch bản thử nghiệm AI phù hợp với từng ngành nghề và bài toán ứng dụng cụ thể tại Việt Nam.

Trong bối cảnh phần lớn các mô hình AI hiện nay được huấn luyện chủ yếu bằng dữ liệu tiếng Anh và các bối cảnh phương Tây, nhiều hệ thống vẫn gặp hạn chế khi xử lý ngôn ngữ, văn hóa và thói quen giao tiếp của người Việt. Việc công khai Nemotron-Personas-Vietnam dưới giấy phép cho phép sử dụng cả mục đích thương mại và phi thương mại được kỳ vọng sẽ góp phần giải quyết tình trạng thiếu hụt dữ liệu bản địa chất lượng cao.

Nguồn dữ liệu này được xem là nền tảng quan trọng để các doanh nghiệp, startup và đội ngũ kỹ sư trong nước phát triển những hệ thống AI có chủ quyền, hạn chế thiên lệch dữ liệu và nâng cao khả năng hiểu ngôn ngữ gắn với bối cảnh văn hóa – xã hội Việt Nam.

PGS-TS Ngô Xuân Bách, Giám đốc Khối sản phẩm AI của FPT Smart Cloud kiêm Giám đốc Viện Quantum AI & Cyber Security thuộc Tập đoàn FPT, cho biết AI có chủ quyền cần được xây dựng từ nền tảng dữ liệu phản ánh đúng ngôn ngữ, văn hóa và thực tế kinh tế của từng địa phương. Theo ông, Nemotron-Personas-Vietnam sẽ giúp cộng đồng phát triển AI tiếp cận nguồn dữ liệu cần thiết để tạo ra các giải pháp dành riêng cho người Việt, đồng thời mở rộng tiềm năng ứng dụng ra thị trường khu vực.

Trong dự án này, NVIDIA cung cấp khung mô hình mở, thư viện dữ liệu tổng hợp NeMo Data Designer cùng phương pháp Nemotron-Personas. Đây là phương pháp tiếp cận có cấu trúc nhằm xây dựng các bộ dữ liệu tổng hợp quy mô lớn, phản ánh các đặc điểm nhân khẩu học, địa lý và bối cảnh sử dụng đặc thù của từng quốc gia.

Về phía FPT, tập đoàn đóng góp năng lực nghiên cứu AI, kinh nghiệm bản địa hóa dữ liệu, quy trình xác thực thông tin và hạ tầng dữ liệu phục vụ quá trình phát triển. Sự kết hợp giữa công nghệ AI toàn cầu của NVIDIA và hiểu biết địa phương của FPT được kỳ vọng sẽ thúc đẩy hệ sinh thái AI Việt Nam phát triển mạnh mẽ hơn trong thời gian tới.