ChatGPT Images 2.0 – mô hình tạo ảnh mới do OpenAI phát triển – đang cho thấy bước tiến đáng kể trong khả năng hiển thị chữ trong hình ảnh, một hạn chế lớn của các công nghệ AI trước đây.

Cách đây vài năm, việc nhận diện ảnh do AI tạo ra khá dễ dàng khi các mô hình thường mắc lỗi chính tả nghiêm trọng. Chẳng hạn, khi tạo thực đơn món ăn, AI có thể sinh ra những từ vô nghĩa hoặc sai lệch hoàn toàn so với ngôn ngữ thực tế.
Tuy nhiên, với Images 2.0, hệ thống có thể tạo ra nội dung văn bản gần như hoàn chỉnh, đủ để sử dụng trong các tình huống thực tế như thiết kế thực đơn, tài liệu marketing hay nội dung truyền thông.
Nguyên nhân của bước tiến này đến từ việc thay đổi cách tiếp cận công nghệ. Trước đây, các mô hình tạo ảnh chủ yếu dựa trên phương pháp diffusion – tái tạo hình ảnh từ nhiễu – vốn gặp khó khăn trong việc xử lý chữ do văn bản chỉ chiếm tỷ lệ nhỏ trong tổng thể hình ảnh.
Gần đây, các hướng tiếp cận mới như mô hình tự hồi quy (autoregressive), hoạt động tương tự các mô hình ngôn ngữ lớn, đã giúp cải thiện khả năng dự đoán và hiển thị văn bản. Dù vậy, OpenAI chưa công bố chi tiết công nghệ nền tảng của Images 2.0.
Theo OpenAI, mô hình mới được trang bị khả năng “suy luận”, cho phép tìm kiếm thông tin, tạo nhiều hình ảnh từ một yêu cầu và tự kiểm tra kết quả. Nhờ đó, hệ thống có thể xử lý các tác vụ phức tạp như tạo truyện tranh nhiều khung, hình ảnh có bố cục chi tiết hoặc tài liệu có nội dung chữ rõ ràng.
Images 2.0 cũng cải thiện khả năng hiển thị nhiều hệ chữ khác nhau như tiếng Nhật, Hàn, Hindi hay Bengali. Tuy nhiên, dữ liệu của mô hình hiện chỉ được cập nhật đến tháng 12/2025, nên có thể hạn chế độ chính xác với các nội dung mới.
Ngoài ra, mô hình có thể tạo hình ảnh độ phân giải cao tới 2K, xử lý tốt các chi tiết nhỏ như chữ, biểu tượng và giao diện người dùng. Dù việc tạo ảnh phức tạp mất nhiều thời gian hơn so với văn bản, các tác vụ như tạo truyện tranh vẫn có thể hoàn thành chỉ trong vài phút.
OpenAI dự kiến triển khai Images 2.0 cho toàn bộ người dùng ChatGPT và Codex, đồng thời cung cấp API gpt-image-2 với mức giá tùy theo chất lượng và độ phân giải hình ảnh.

Bình luận
0