Stable Diffusion 3 được giới thiệu: Cải thiện đáng kể khả năng tạo ký tự bằng AI

P.W
23/2/2024 7:34Phản hồi: 7
Stable Diffusion 3 được giới thiệu: Cải thiện đáng kể khả năng tạo ký tự bằng AI
Nếu như SDXL được giới thiệu hồi tháng 4 năm ngoái là một bước tiến đáng kể về khả năng tạo hình so với những mô hình SD 1.5 hay 2.0 được StabilityAI ra mắt trước đó, thì Stable Diffusion 3 nhắm vào khả năng nội suy những dòng chữ với những ký tự chính xác, cùng lúc vẫn là khả năng tính toán nội suy từng điểm ảnh để tạo ra bức hình trông chân thực nhất cả về chi tiết, màu sắc hay cả khẩu độ của bức hình tạo ra bằng thuật toán AI.

Cùng với đó, nếu bức hình có nhiều chủ thể, những chủ thể ấy cũng sẽ được nội suy với độ chi tiết và độ chính xác cao hơn.

Dùng Stable Diffusion XL tạo hình bằng AI: Yêu cầu phần cứng PC rất cao, nhưng hình thì rất đẹp

Mấy tháng trước, Stability AI giới thiệu mô hình Stable Diffusion XL. Một trọng tâm cơ bản của SD XL là việc nó được tạo ra hướng tới việc nội suy những tấm hình với độ chân thực rất cao, thứ đã tạo ra danh tiếng của công cụ cạnh tranh trực tiếp…
tinhte.vn


Hiện tại mô hình Stable Diffusion 3.0 vẫn chưa được công bố rộng rãi trên mạng internet, mà giống như thời điểm đầu khi SDXL ra mắt, các bên muốn sử dụng mô hình để huấn luyện hoặc tạo nội dung sẽ phải đăng ký với StabilityAI.

Như đã nói, nội suy ký tự đúng cả về hình dáng ký tự lẫn ngữ pháp từ trước tới nay luôn là nhược điểm rất lớn khiến hình tạo bằng AI, bất kể là DALL-E, Midjourney hay Stable Diffusion không thực sự chân thực. Đó là thế mạnh của SD 3.0, theo quảng cáo của StabilityAI. Những tấm hình giới thiệu sức mạnh của mô hình AI sắp ra mắt chính thức mô tả những hình ảnh render chữ vừa chính xác vừa dễ đọc.


[​IMG]

Ấn tượng nhất có lẽ là tấm hình AI tạo ra chiếc xe bus, với những chi tiết ký tự rất rõ ràng, chỉ có vài điểm trừ như chi tiết biển số không cao, bị vỡ và biến dạng. Còn chi tiết hình ảnh thì có vẻ nâng cấp nhẹ so với phiên bản SDXL 1.0 ra mắt cách đây vài tháng:

2024-02-22-image-39-j.webp

So với SD 2.1 hay SDXL, SD 3.0 được StabilityAI lột xác toàn bộ kiến trúc mô hình. Cách tiếp cận để nội suy theo dạng diffusion transformer cũng khác biệt, rất giống với mô hình Sora của OpenAI, thuật toán tạo video đang khiến cả thế giới kinh ngạc.

Dưới đây là vài tấm hình demo mà StabilityAI chia sẻ, mô tả sức mạnh của SD 3.0:

GG8j1KsWsAAYraj-980x560.jpeg
GG8uQxjbAAAOQWX-980x560.jpeg
GG8uGN1bwAA6NPP-980x560.jpeg
GG8tgGobYAAByPn-980x560.jpeg
GG8mMLAbUAA-V2G-980x560.jpeg

Quảng cáo



Bên cạnh đó là những kỹ thuật mới, như flow matching, một kỹ thuật huấn luyện hệ thống AI để xử lý và phân phối dữ liệu phức tạp hiệu quả hơn. Còn xét riêng tới Stable Diffusion 3.0, mô hình này có thể chạy từ 800 triệu đến 8 tỷ tham số khác nhau khi bản chính thức ra mắt. Còn trong tương lai, CEO Emad Mostaque đặt ra tham vọng tạo ra được những mô hình khác phục vụ tạo mô hình 3D, tạo video từ AI, hay những AI liên quan tới hình ảnh, tất cả bắt đầu với sự thay đổi của SD 3.0
7 bình luận
Chia sẻ

Xu hướng

Trang nào Xài chùa stable diffusion 3 ko ạ? Thậc ra cũng ko xài đến nhưng trước thấy có bác chia sẻ là không cần cài mà lên làm online cũng đc. Chứ giờ Bing hay Gemeri làm cũng hay rùi
@Thiên biến vạn hoá Có Poe.com á anh, bao la, ngon nhất là con Claude instant 100k trả lời đúng trọng tâm( giới hạn 3 lượt/ngày)
@Curency Poe làm ảnh đc á?
@Thiên biến vạn hoá Có lâu r, Poe còn ra con bot tạo dòng Prompt mẫu nữa cơ.
@Curency Lâu ko mở POE, tý xem thử
Nói chung là bản big update tạo ra được mấy dòng chữ in sâu trên mặt hình, trước mình tạo ra mấy hình ảnh có in dòng chữ ngớ ngẩn thật, ko theo ý mình.
Có lợi cho dân thiết kế rồi đây :v
Hay dùng GF trong Photoshop nhưng kết quả toàn ko như ý muốn. Vẽ cái tay nhìn kinh khủng khiếp.

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019