Nếu như SDXL được giới thiệu hồi tháng 4 năm ngoái là một bước tiến đáng kể về khả năng tạo hình so với những mô hình SD 1.5 hay 2.0 được StabilityAI ra mắt trước đó, thì Stable Diffusion 3 nhắm vào khả năng nội suy những dòng chữ với những ký tự chính xác, cùng lúc vẫn là khả năng tính toán nội suy từng điểm ảnh để tạo ra bức hình trông chân thực nhất cả về chi tiết, màu sắc hay cả khẩu độ của bức hình tạo ra bằng thuật toán AI.
Cùng với đó, nếu bức hình có nhiều chủ thể, những chủ thể ấy cũng sẽ được nội suy với độ chi tiết và độ chính xác cao hơn.
Hiện tại mô hình Stable Diffusion 3.0 vẫn chưa được công bố rộng rãi trên mạng internet, mà giống như thời điểm đầu khi SDXL ra mắt, các bên muốn sử dụng mô hình để huấn luyện hoặc tạo nội dung sẽ phải đăng ký với StabilityAI.
Như đã nói, nội suy ký tự đúng cả về hình dáng ký tự lẫn ngữ pháp từ trước tới nay luôn là nhược điểm rất lớn khiến hình tạo bằng AI, bất kể là DALL-E, Midjourney hay Stable Diffusion không thực sự chân thực. Đó là thế mạnh của SD 3.0, theo quảng cáo của StabilityAI. Những tấm hình giới thiệu sức mạnh của mô hình AI sắp ra mắt chính thức mô tả những hình ảnh render chữ vừa chính xác vừa dễ đọc.
Cùng với đó, nếu bức hình có nhiều chủ thể, những chủ thể ấy cũng sẽ được nội suy với độ chi tiết và độ chính xác cao hơn.
Dùng Stable Diffusion XL tạo hình bằng AI: Yêu cầu phần cứng PC rất cao, nhưng hình thì rất đẹp
Mấy tháng trước, Stability AI giới thiệu mô hình Stable Diffusion XL. Một trọng tâm cơ bản của SD XL là việc nó được tạo ra hướng tới việc nội suy những tấm hình với độ chân thực rất cao, thứ đã tạo ra danh tiếng của công cụ cạnh tranh trực tiếp…
tinhte.vn
Hiện tại mô hình Stable Diffusion 3.0 vẫn chưa được công bố rộng rãi trên mạng internet, mà giống như thời điểm đầu khi SDXL ra mắt, các bên muốn sử dụng mô hình để huấn luyện hoặc tạo nội dung sẽ phải đăng ký với StabilityAI.
Như đã nói, nội suy ký tự đúng cả về hình dáng ký tự lẫn ngữ pháp từ trước tới nay luôn là nhược điểm rất lớn khiến hình tạo bằng AI, bất kể là DALL-E, Midjourney hay Stable Diffusion không thực sự chân thực. Đó là thế mạnh của SD 3.0, theo quảng cáo của StabilityAI. Những tấm hình giới thiệu sức mạnh của mô hình AI sắp ra mắt chính thức mô tả những hình ảnh render chữ vừa chính xác vừa dễ đọc.
Ấn tượng nhất có lẽ là tấm hình AI tạo ra chiếc xe bus, với những chi tiết ký tự rất rõ ràng, chỉ có vài điểm trừ như chi tiết biển số không cao, bị vỡ và biến dạng. Còn chi tiết hình ảnh thì có vẻ nâng cấp nhẹ so với phiên bản SDXL 1.0 ra mắt cách đây vài tháng:
So với SD 2.1 hay SDXL, SD 3.0 được StabilityAI lột xác toàn bộ kiến trúc mô hình. Cách tiếp cận để nội suy theo dạng diffusion transformer cũng khác biệt, rất giống với mô hình Sora của OpenAI, thuật toán tạo video đang khiến cả thế giới kinh ngạc.
Dưới đây là vài tấm hình demo mà StabilityAI chia sẻ, mô tả sức mạnh của SD 3.0:
Quảng cáo
Bên cạnh đó là những kỹ thuật mới, như flow matching, một kỹ thuật huấn luyện hệ thống AI để xử lý và phân phối dữ liệu phức tạp hiệu quả hơn. Còn xét riêng tới Stable Diffusion 3.0, mô hình này có thể chạy từ 800 triệu đến 8 tỷ tham số khác nhau khi bản chính thức ra mắt. Còn trong tương lai, CEO Emad Mostaque đặt ra tham vọng tạo ra được những mô hình khác phục vụ tạo mô hình 3D, tạo video từ AI, hay những AI liên quan tới hình ảnh, tất cả bắt đầu với sự thay đổi của SD 3.0