OpenAI đã chính thức giới thiệu ChatGPT Images 2.0 (hay ImageGen 2.0). Được xây dựng dựa trên mô hình cốt lõi gpt-image-2 mới, bản cập nhật này tập trung giải quyết những hạn chế tồn đọng trên các thế hệ trước, đặc biệt là khả năng tuân thủ prompt, kết xuất văn bản (text rendering) và tính nhất quán của hình ảnh.
Theo công bố, gpt-image-2 có khả năng xử lý các yêu cầu phức tạp với độ chính xác cao hơn. Mô hình này sắp xếp vị trí và mối quan hệ giữa các đối tượng trong ảnh logic hơn, đồng thời thể hiện tốt các chi tiết nhỏ như biểu tượng hay các thành phần giao diện (UI). Các lỗi thường gặp trước đây khiến bức ảnh nhìn giống AI đã được giảm thiểu. Thay vào đó, Images 2.0 có thể mô phỏng các phong cách từ ảnh chụp thực tế (có cả những khuyết điểm nhỏ để tăng tính chân thực), pixel art cho đến manga một cách sát với yêu cầu của người dùng.
Một bức hình được tạo bằng gpt-image-2
Khả năng tuân thủ prompt và chi tiết hình ảnh
Theo công bố, gpt-image-2 có khả năng xử lý các yêu cầu phức tạp với độ chính xác cao hơn. Mô hình này sắp xếp vị trí và mối quan hệ giữa các đối tượng trong ảnh logic hơn, đồng thời thể hiện tốt các chi tiết nhỏ như biểu tượng hay các thành phần giao diện (UI). Các lỗi thường gặp trước đây khiến bức ảnh nhìn giống AI đã được giảm thiểu. Thay vào đó, Images 2.0 có thể mô phỏng các phong cách từ ảnh chụp thực tế (có cả những khuyết điểm nhỏ để tăng tính chân thực), pixel art cho đến manga một cách sát với yêu cầu của người dùng.
Một bức hình được tạo bằng gpt-image-2
Hiểu đa ngôn ngữ và kết xuất văn bản
Một trong những nâng cấp thiết thực nhất là khả năng render chữ. Mô hình mới xử lý tốt các đoạn văn bản dày đặc và đặc biệt hỗ trợ mạnh các hệ thống chữ viết ngoài bảng chữ cái Latinh như tiếng Nhật, Hàn, Trung, Hindi và Bengali. Văn bản được tạo ra tự nhiên và liền mạch, giúp người dùng dễ dàng tạo các sản phẩm như poster, biểu đồ hay truyện tranh bằng ngôn ngữ bản địa mà không bị lỗi font hay sai ký tự.
Tỷ lệ khung hình tùy chỉnh và Image Library
ChatGPT Images 2.0 hiện hỗ trợ dải tỷ lệ khung hình rộng từ 3:1 đến 1:3, có thể thiết lập trực tiếp qua prompt. Điểm đáng chú ý là người dùng có thể thay đổi tỷ lệ của một bức ảnh đã tạo mà không làm mất đi các chi tiết chủ đạo. Cùng với đó, OpenAI bổ sung tính năng Image Library tích hợp trên nền tảng web, iOS và Android, giúp người dùng lưu trữ và quản lý các hình ảnh đã tạo dễ dàng hơn.
Chế độ Thinking: Khả năng tự kiểm tra và đồng nhất
Đây là lần đầu tiên OpenAI tích hợp khả năng suy luận vào mô hình tạo ảnh. Khi kích hoạt chế độ Thinking (hoặc Pro), AI có thể tìm kiếm dữ liệu web theo thời gian thực, tự động kiểm tra lại kết quả (double-check) và tạo ra tối đa 8 biến thể từ một câu lệnh trong khi vẫn giữ được tính nhất quán của nhân vật hoặc đối tượng. Chế độ này sẽ mất nhiều thời gian xử lý hơn so với thông thường, bù lại độ chính xác về mặt logic (như chuỗi hình ảnh cho truyện tranh, infographic) sẽ cao hơn.
Tính khả dụng và những hạn chế
Hiện tại, Images 2.0 đã khả dụng cho mọi người dùng ChatGPT, Codex và thông qua API (hỗ trợ độ phân giải lên đến 2K). Riêng chế độ Thinking sẽ dành cho các tài khoản Plus, Pro và Business.
Quảng cáo
Dù có nhiều nâng cấp, OpenAI cũng lưu ý rằng mô hình vẫn còn những giới hạn vật lý nhất định. Cụ thể, Images 2.0 sẽ gặp khó khăn khi mô phỏng các chi tiết ẩn, góc nghiêng lạ, hoặc các cấu trúc vật lý phức tạp như cách gấp giấy origami hay khối Rubik. Các biểu đồ chứa quá nhiều thông tin dày đặc cũng cần được người dùng kiểm tra lại tính chính xác trước khi sử dụng. Hãng cũng áp dụng các biện pháp an toàn để ngăn chặn việc tạo ra các nội dung độc hại.
Một số hình tạo bằng Images 2.0:








