Stable Diffusion 3 được giới thiệu: Cải thiện đáng kể khả năng tạo ký tự bằng AI

Nếu như SDXL được giới thiệu hồi tháng 4 năm ngoái là một bước tiến đáng kể về khả năng tạo hình so với những mô hình SD 1.5 hay 2.0 được StabilityAI ra mắt trước đó, thì Stable Diffusion 3 nhắm vào khả năng nội suy những dòng chữ với những ký tự chính xác, cùng lúc vẫn là khả năng tính toán nội suy từng điểm ảnh để tạo ra bức hình trông chân thực nhất cả về chi tiết, màu sắc hay cả khẩu độ của bức hình tạo ra bằng thuật toán AI.

Cùng với đó, nếu bức hình có nhiều chủ thể, những chủ thể ấy cũng sẽ được nội suy với độ chi tiết và độ chính xác cao hơn.

Dùng Stable Diffusion XL tạo hình bằng AI: Yêu cầu phần cứng PC rất cao, nhưng hình thì rất đẹp

Mấy tháng trước, Stability AI giới thiệu mô hình Stable Diffusion XL. Một trọng tâm cơ bản của SD XL là việc nó được tạo ra hướng tới việc nội suy những tấm hình với độ chân thực rất cao, thứ đã tạo ra danh tiếng của công cụ cạnh tranh trực tiếp…

tinhte.vn

Hiện tại mô hình Stable Diffusion 3.0 vẫn chưa được công bố rộng rãi trên mạng internet, mà giống như thời điểm đầu khi SDXL ra mắt, các bên muốn sử dụng mô hình để huấn luyện hoặc tạo nội dung sẽ phải đăng ký với StabilityAI.

Như đã nói, nội suy ký tự đúng cả về hình dáng ký tự lẫn ngữ pháp từ trước tới nay luôn là nhược điểm rất lớn khiến hình tạo bằng AI, bất kể là DALL-E, Midjourney hay Stable Diffusion không thực sự chân thực. Đó là thế mạnh của SD 3.0, theo quảng cáo của StabilityAI. Những tấm hình giới thiệu sức mạnh của mô hình AI sắp ra mắt chính thức mô tả những hình ảnh render chữ vừa chính xác vừa dễ đọc.

Ấn tượng nhất có lẽ là tấm hình AI tạo ra chiếc xe bus, với những chi tiết ký tự rất rõ ràng, chỉ có vài điểm trừ như chi tiết biển số không cao, bị vỡ và biến dạng. Còn chi tiết hình ảnh thì có vẻ nâng cấp nhẹ so với phiên bản SDXL 1.0 ra mắt cách đây vài tháng:

So với SD 2.1 hay SDXL, SD 3.0 được StabilityAI lột xác toàn bộ kiến trúc mô hình. Cách tiếp cận để nội suy theo dạng diffusion transformer cũng khác biệt, rất giống với mô hình Sora của OpenAI, thuật toán tạo video đang khiến cả thế giới kinh ngạc.

Dưới đây là vài tấm hình demo mà StabilityAI chia sẻ, mô tả sức mạnh của SD 3.0:

Bên cạnh đó là những kỹ thuật mới, như flow matching, một kỹ thuật huấn luyện hệ thống AI để xử lý và phân phối dữ liệu phức tạp hiệu quả hơn. Còn xét riêng tới Stable Diffusion 3.0, mô hình này có thể chạy từ 800 triệu đến 8 tỷ tham số khác nhau khi bản chính thức ra mắt. Còn trong tương lai, CEO Emad Mostaque đặt ra tham vọng tạo ra được những mô hình khác phục vụ tạo mô hình 3D, tạo video từ AI, hay những AI liên quan tới hình ảnh, tất cả bắt đầu với sự thay đổi của SD 3.0

Thiên biến vạn hoá

GÀ

9 tháng

Trang nào Xài chùa stable diffusion 3 ko ạ? Thậc ra cũng ko xài đến nhưng trước thấy có bác chia sẻ là không cần cài mà lên làm online cũng đc. Chứ giờ Bing hay Gemeri làm cũng hay rùi

Curency

@Thiên biến vạn hoá Có Poe.com á anh, bao la, ngon nhất là con Claude instant 100k trả lời đúng trọng tâm( giới hạn 3 lượt/ngày)

@Curency Poe làm ảnh đc á?

@Thiên biến vạn hoá Có lâu r, Poe còn ra con bot tạo dòng Prompt mẫu nữa cơ.

8 tháng

@Curency Lâu ko mở POE, tý xem thử

Nói chung là bản big update tạo ra được mấy dòng chữ in sâu trên mặt hình, trước mình tạo ra mấy hình ảnh có in dòng chữ ngớ ngẩn thật, ko theo ý mình.
Có lợi cho dân thiết kế rồi đây :v

SoGetSu

Hay dùng GF trong Photoshop nhưng kết quả toàn ko như ý muốn. Vẽ cái tay nhìn kinh khủng khiếp.

Stable Diffusion 3 được giới thiệu: Cải thiện đáng kể khả năng tạo ký tự bằng AI

Dùng Stable Diffusion XL tạo hình bằng AI: Yêu cầu phần cứng PC rất cao, nhưng hình thì rất đẹp

CHỦ ĐỀ TƯƠNG TỰ

So sánh bài content Ví Sen từ 3 công cụ AI: ChatGPT, Copilot & Bút Chì AI

Apple hợp tác với Foxconn để sản xuất máy chủ AI chạy chip M4

Tổng thống đắc cử Donald Trump có thể huỷ bỏ các sắc lệnh kiểm duyệt AI của tổng thống Joe Biden

Nvidia lại trở thành công ty giá trị nhất toàn cầu