Có lần mình nói như thế này. Cứ hai tuần không cập nhật những giải pháp cũng như công bố mới từ các đơn vị nghiên cứu AI trên toàn thế giới, là chúng ta lại có cảm giác bản thân bị tụt hậu. Lấy ví dụ mấy ngày trước chúng ta có một giải pháp ghép cử động mặt vào hình tĩnh dựa trên mô hình AI với giải pháp hoàn toàn mới, nhận diện những “keypoint” trên gương mặt chủ thể, tên là Live Portrait do các nhà nghiên cứu Trung Quốc tạo ra:
Vài mô hình AI khác mình đã có dịp chia sẻ với anh em:
LivePortrait: Ghép cử động gương mặt vào hình ảnh, rất nhanh, tiềm năng hơi đáng sợ
Có vẻ như nếu chỉ không cập nhật thông tin về những giải pháp AI mới, chúng ta sẽ ngay lập tức trở nên lỗi thời, vì tốc độ phát triển cũng như hoàn thiện công nghệ của những thuật toán AI, đặc biệt là ở mảng AI tạo sinh và phân tích hình ảnh…
tinhte.vn
Vài mô hình AI khác mình đã có dịp chia sẻ với anh em:
Dùng Stable Diffusion XL tạo hình bằng AI: Yêu cầu phần cứng PC rất cao, nhưng hình thì rất đẹp
Mấy tháng trước, Stability AI giới thiệu mô hình Stable Diffusion XL. Một trọng tâm cơ bản của SD XL là việc nó được tạo ra hướng tới việc nội suy những tấm hình với độ chân thực rất cao, thứ đã tạo ra danh tiếng của công cụ cạnh tranh trực tiếp…
tinhte.vn
Xài Stable Diffusion 3 tạo hình AI: Tạo ký tự tốt hơn hẳn, hình đẹp hơn, không nặng hơn SDXL
Hai ngày trước, 12/6/2024, StabilityAI đã chính thức tung ra checkpoint dạng safetensor của Stable Diffusion 3, phiên bản Medium với 2 tỷ tham số, tức là hoàn toàn đủ khả năng vận hành trên những hệ thống máy tính cá nhân.
tinhte.vn
Làm video bằng AI Runway Gen-3: Chưa hoàn hảo, nhưng một 9 một 10 với Sora
Trước khi nói tới trải nghiệm sử dụng hay chính bản thân phiên bản thử nghiệm Alpha của mô hình tạo sinh video Gen-3 từ RunwayML, mời anh em xem trước đoạn clip ngắn 30 giây, chỉ sử dụng nội dung tạo ra bằng mô hình AI này.
tinhte.vn
Tạo video bằng AI Trung Quốc: Kling AI vừa mở cửa toàn cầu, làm clip miễn phí
Ngày 24/7, Kuaishou Technology của Trung Quốc cuối cùng cũng mở cửa thử nghiệm mô hình tạo sinh hình ảnh và video do chính họ phát triển mang tên Kling AI. Trước đó nếu như muốn tạo ra những đoạn clip ngắn dài khoảng 5 giây theo yêu cầu…
tinhte.vn
Đọ sức mạnh AI Mỹ và AI Trung Quốc: Runway Gen-3 Alpha vs Kuaishou Kling AI
Sau hai bài viết trải nghiệm chi tiết hai mô hình tạo sinh video nhờ thuật toán AI mà mình gửi tới anh em trong thời gian qua, có lẽ cũng đã đến lúc so sánh trực tiếp khả năng của cả hai mô hình này, để xem video ngắn từ mô hình AI nào trông chân…
tinhte.vn
Còn hôm nay sẽ lại là một giải pháp AI mã nguồn mở, vừa được startup Black Forest Labs công bố ngày hôm qua, tên là Flux.1. Black Forest Labs nói, đây là mô hình tạo sinh hình ảnh dựa trên kỹ thuật tạo sinh khuếch tán, đánh giá xác suất màu sắc từng điểm ảnh trong tấm hình thuật toán AI tạo ra, dựa vào dữ liệu đã được dùng để huấn luyện mô hình AI trước đó.
Black Forest Labs kỳ thực chính là startup của 15 nhà nghiên cứu AI hàng đầu đến từ đai học Ludwig Maximilian, Munich, Đức. Những nhà nghiên cứu này chính là những người tạo ra giải pháp nội suy khuếch tán Latent Diffusion, thứ sau này biến thành Stable Diffusion và được Stability AI mua lại bản quyền.
Thứ tạo ra khác biệt của Flux.1 so với những giải pháp tạo sinh hình ảnh khác đang có trên thị trường, bên cạnh việc là một mô hình AI mã nguồn mở miễn phí, anh em có thể sử dụng ngay bây giờ, Flux.1 sở hữu tới 12 tỷ tham số.
Để dễ so sánh, Stable Diffusion XL phiên bản anh em đang dùng tạo hình trên máy tính chỉ có 2.6 tỷ tham số, DALL-E 2 là khoảng 3.5 tỷ tham số. Midjourney vừa vận hành trên máy chủ đám mây, vừa là mô hình thương mại nên không được công bố tham số của mô hình. Con số 12 tỷ tham số của Flux.1 hứa hẹn tạo ra những hình ảnh cạnh tranh trực tiếp với những giải pháp tạo sinh hình ảnh mạnh nhất hiện nay, đặc biệt là những giải pháp tạo hình có thu phí của các đơn vị và startup. Chính bản thân Black Forest Labs cũng khẳng định, chất lượng hình ảnh mà Flux.1 tạo ra cạnh tranh được với Midjourney.
Hiện tại đang có ba phiên bản Flux.1, hai trong số đó cho phép anh em tải về và tạo hình ngay thông qua nền tảng trực tuyến fal Playground hoặc ngay trên máy tính của anh em với ComfyUI:
Quảng cáo
- Flux.1[dev]: Mô hình cơ bản, mã nguồn mở, cho phép anh em ứng dụng phi thương mại thoải mái. Đây sẽ là phiên bản mô hình mình dùng để tạo hình và đánh giá chất lượng hình ảnh cho anh em trong bài viết này.
- Flux.1[schnell]: Phiên bản rút gọn của mô hình cơ bản, tốc độ tạo sinh hình ảnh nhanh hơn gấp 10 lần.
- Flux.1[pro]: Phiên bản dùng cần có bản quyền mua của Black Forest Labs.
Black Forest Labs đưa ra những lợi ích và lợi thế của mô hình mới:
- Cải thiện chất lượng hình ảnh ở độ phân giải cao
- Mô phỏng và bắt chước giải phẫu cơ thể người một cách xuất sắc, nhất là đôi bàn tay của con người
- Cải thiện yếu tố tuân thủ câu lệnh prompt của người dùng khi tạo hình.
- Tốc độ tạo sinh hình ảnh cực nhanh với Flux Schnell
Hướng dẫn anh em cập nhật ComfyUI và tải mô hình Flux.1 cùng những mô hình VAE và clip cần thiết để chạy mô hình tạo hình mới này trên ComfyUI.
- Bước đầu tiên là cập nhật ComfyUI để ứng dụng giao diện chạy mô hình AI tạo hình nhận biết và vận hành được những mô hình Flux mới. Anh em click vào file này để cập nhật: ComfyUI_windows_portable\update\update_comfyui.bat
- Cập nhật xong thì lên trang web HuggingFace của Black Forest Labs để tải mô hình Flux.1 về: black-forest-labs/FLUX.1-dev · Hugging Face. Anh em sẽ cần đăng nhập để tải mô hình mã nguồn mở này về. Sau khi tải xong thì bỏ vào folder ComfyUI_windows_portable\ComfyUI\models\clip
- Truy cập trang này: comfyanonymous/flux_text_encoders at main (huggingface.co), tải ba file clip và bỏ vào folder ComfyUI_windows_portable\ComfyUI\models\clip. Anh em sẽ cần ba file có tên t5xxl_fp16.safetensors, t5xxl_fp8_e4m3fn.safetensors và clip_l.safetensors. Hai file đầu chính là encoder để mô hình AI tạo ra những ký tự giống ngôn ngữ của con người nhất trên tấm hình do Flux.1 tạo sinh
- Kế đến là tải VAE ở đây: ae.sft · black-forest-labs/FLUX.1-schnell at main (huggingface.co), anh em bỏ file ae.sft vào folder ComfyUI_windows_portable\ComfyUI\models\vae
- Sau khi đã cập nhật ComfyUI và tải những mô hình cần thiết, anh em khởi động ComfyUI lên. Cuối cùng là truy cập trang này: Flux Examples | ComfyUI_examples (comfyanonymous.github.io), anh em sẽ thấy một cái hình phong cách manga, kéo hình đó vào giao diện ComfyUI để lấy workflow ngay lập tức và bắt đầu tạo hình bằng Flux.1. Giao diện của workflow sẽ đơn giản như thế này:
Quảng cáo
Đến khúc này là cân nhắc xem cấu hình máy tính của anh em như thế nào để chọn đúng phiên bản text encoder phù hợp. Nếu máy tính của anh em chỉ có 32GB RAM, hãy chọn file encoder tên là t5xxl_fp8_e4m3fn.safetensors. Nếu máy tính có trên 32GB RAM, hãy chọn encoder t5xxl_fp16.safetensors.
Rồi nếu máy tính chỉ có 32GB RAM, hãy chọn weight_dtype fp8 để tăng tốc độ tạo sinh hình ảnh và phù hợp với bộ nhớ của hệ thống. Trên 32GB RAM hãy tính đến chuyện bắt máy tính và mô hình AI tạo hình ở chế độ fp16. Bản chất mô hình này tương đối nặng vì còn chưa được tối ưu cho những hệ thống máy tính để bàn, nên yêu cầu về mặt cấu hình là tương đối cao. Ngay cả RTX 4080 với 16GB VRAM cũng bị mô hình AI này coi là “dung lượng VRAM thấp”.
Nhưng gần như ngay lập tức, chất lượng hình ảnh của Flux.1 được thể hiện ngay ở những tấm hình và những câu lệnh đầu tiên, vừa ngắn gọn vừa đơn giản nhưng lại ra được kết quả tương đối ưng ý về mặt chi tiết, bố cục và màu sắc hình ảnh. Một điều phải thừa nhận, vì có tới 12 tỷ tham số, nên vận hành Flux.1 trên máy tính cá nhân chậm hơn Stable Diffusion rất nhiều, kể cả hai phiên bản XL lẫn SD3.
Nếu như mình tạo hình với SD3 và SDXL, kích thước 1024x1024 pixel, tốc độ luôn ở ngưỡng 4 đến 5 it/s, thì với Flux.1, anh em cứ xác định là thời gian tạo mỗi tấm hình tốn cả phút đồng hồ, chậm hơn từ 4 đến 5 lần so với SD3.
Một ấn tượng lớn của mình với Flux.1 chính là mức độ chính xác của giải phẫu cơ thể người, đặc biệt là bàn tay, bàn chân, số ngón tay ngón chân và chi tiết từng ngón. Đương nhiên không phải lúc nào Flux.1 vận hành cũng hoàn hảo, ví dụ như tấm hình cậu bé mặc áo có in chữ Tinhte ở đầu bài viết, anh em thấy bàn tay phải vẫn có 6 ngón. Một vài trường hợp khác gặp lỗi khi móng tay chèn vào chỗ ngón tay. Nhưng hầu hết thời gian, những lỗi này rất hiếm khi xảy ra. Thay vào đó, bàn tay luôn đủ năm ngón, phân biệt được rõ ràng ngón cái và ngón trỏ. Tương tự như vậy là với ngón chân và bàn chân:
Mặc định, nếu không có những câu lệnh mô tả phong cách mỹ thuật của tấm hình, Flux.1 sẽ cố gắng hết sức để tạo ra những hình ảnh chân thực nhất có thể, mô phỏng cả độ chi tiết của hình ảnh giống như đời thật, rồi cả khẩu độ ống kính. Hầu hết thời gian, những hình ảnh được mô hình này tạo ra đều rất ấn tượng về mặt nhiếp ảnh. Phải gõ thêm những câu lệnh ví dụ như hoạt hình hay tranh màu dầu cổ điển, thì hình ảnh tạo ra mới có khác biệt.
Còn lại, dám khẳng định 12 tỷ tham số của Flux.1 đủ sức tạo ra những hình ảnh không hề thua kém chất lượng của Midjourney, chí ít là những phiên bản v4 và v5. Còn hình ảnh do Stable Diffusion XL và 3 tạo ra, dựa trên những mô hình anh em được tải về miễn phí từ Stability AI, chưa tính những weight được huấn luyện mở rộng, đều khó có thể so sánh với Flux.1.
Thậm chí còn chẳng cần phải gõ khẩu độ ống kính, hay ánh sáng, AI tự làm mọi thứ cho anh em. Đương nhiên vẫn có thể yêu cầu AI điều chỉnh tông màu, chi tiết và ánh sáng, nhưng một câu lệnh đơn giản ngắn gọn cũng tạo ra được một tấm hình như thế này:
Chẳng hạn như phải thêm câu lệnh bắt chước phong cách hoạt hình, thì mới có một tấm hình “bớt chân thực”:
Nhưng có một điều rõ ràng, ấn tượng mạnh nhất của mình với Flux.1 là chất lượng và chi tiết hình ảnh trong những tấm hình mang phong cách thực tế, mô phỏng nhiếp ảnh và đời thật. Mô hình làm được điều này chỉ với 20 đến 40 bước nội suy, sampler euler, qua đó mô tả được sức mạnh của thuật toán machine learning do Black Forest Labs phát triển. Kế đến, đương nhiên là độ chính xác về mặt giải phẫu của những chi tiết ngón tay ngón chân và cả cơ thể con người nữa.
Một vài tấm hình kích thước 1024x1024 tạo ra bằng Flux.1, xử lý qua ComfyUI trên máy tính cá nhân, sampler euler và 40 bước nội suy. Mỗi tấm này tốn gần 1 phút để tạo ra: