Dùng thử Flux.1: AI tạo hình mã nguồn mở, miễn phí, đẹp không thua gì Midjourney

P.W
2/8/2024 9:10Phản hồi: 48
Dùng thử Flux.1: AI tạo hình mã nguồn mở, miễn phí, đẹp không thua gì Midjourney
Có lần mình nói như thế này. Cứ hai tuần không cập nhật những giải pháp cũng như công bố mới từ các đơn vị nghiên cứu AI trên toàn thế giới, là chúng ta lại có cảm giác bản thân bị tụt hậu. Lấy ví dụ mấy ngày trước chúng ta có một giải pháp ghép cử động mặt vào hình tĩnh dựa trên mô hình AI với giải pháp hoàn toàn mới, nhận diện những “keypoint” trên gương mặt chủ thể, tên là Live Portrait do các nhà nghiên cứu Trung Quốc tạo ra:

LivePortrait: Ghép cử động gương mặt vào hình ảnh, rất nhanh, tiềm năng hơi đáng sợ

Có vẻ như nếu chỉ không cập nhật thông tin về những giải pháp AI mới, chúng ta sẽ ngay lập tức trở nên lỗi thời, vì tốc độ phát triển cũng như hoàn thiện công nghệ của những thuật toán AI, đặc biệt là ở mảng AI tạo sinh và phân tích hình ảnh…
tinhte.vn


Vài mô hình AI khác mình đã có dịp chia sẻ với anh em:

Dùng Stable Diffusion XL tạo hình bằng AI: Yêu cầu phần cứng PC rất cao, nhưng hình thì rất đẹp

Mấy tháng trước, Stability AI giới thiệu mô hình Stable Diffusion XL. Một trọng tâm cơ bản của SD XL là việc nó được tạo ra hướng tới việc nội suy những tấm hình với độ chân thực rất cao, thứ đã tạo ra danh tiếng của công cụ cạnh tranh trực tiếp…
tinhte.vn

Xài Stable Diffusion 3 tạo hình AI: Tạo ký tự tốt hơn hẳn, hình đẹp hơn, không nặng hơn SDXL

Hai ngày trước, 12/6/2024, StabilityAI đã chính thức tung ra checkpoint dạng safetensor của Stable Diffusion 3, phiên bản Medium với 2 tỷ tham số, tức là hoàn toàn đủ khả năng vận hành trên những hệ thống máy tính cá nhân.
tinhte.vn

Làm video bằng AI Runway Gen-3: Chưa hoàn hảo, nhưng một 9 một 10 với Sora

Trước khi nói tới trải nghiệm sử dụng hay chính bản thân phiên bản thử nghiệm Alpha của mô hình tạo sinh video Gen-3 từ RunwayML, mời anh em xem trước đoạn clip ngắn 30 giây, chỉ sử dụng nội dung tạo ra bằng mô hình AI này.
tinhte.vn

Tạo video bằng AI Trung Quốc: Kling AI vừa mở cửa toàn cầu, làm clip miễn phí

Ngày 24/7, Kuaishou Technology của Trung Quốc cuối cùng cũng mở cửa thử nghiệm mô hình tạo sinh hình ảnh và video do chính họ phát triển mang tên Kling AI. Trước đó nếu như muốn tạo ra những đoạn clip ngắn dài khoảng 5 giây theo yêu cầu…
tinhte.vn

Đọ sức mạnh AI Mỹ và AI Trung Quốc: Runway Gen-3 Alpha vs Kuaishou Kling AI

Sau hai bài viết trải nghiệm chi tiết hai mô hình tạo sinh video nhờ thuật toán AI mà mình gửi tới anh em trong thời gian qua, có lẽ cũng đã đến lúc so sánh trực tiếp khả năng của cả hai mô hình này, để xem video ngắn từ mô hình AI nào trông chân…
tinhte.vn


Còn hôm nay sẽ lại là một giải pháp AI mã nguồn mở, vừa được startup Black Forest Labs công bố ngày hôm qua, tên là Flux.1. Black Forest Labs nói, đây là mô hình tạo sinh hình ảnh dựa trên kỹ thuật tạo sinh khuếch tán, đánh giá xác suất màu sắc từng điểm ảnh trong tấm hình thuật toán AI tạo ra, dựa vào dữ liệu đã được dùng để huấn luyện mô hình AI trước đó.

Black Forest Labs kỳ thực chính là startup của 15 nhà nghiên cứu AI hàng đầu đến từ đai học Ludwig Maximilian, Munich, Đức. Những nhà nghiên cứu này chính là những người tạo ra giải pháp nội suy khuếch tán Latent Diffusion, thứ sau này biến thành Stable Diffusion và được Stability AI mua lại bản quyền.

Thứ tạo ra khác biệt của Flux.1 so với những giải pháp tạo sinh hình ảnh khác đang có trên thị trường, bên cạnh việc là một mô hình AI mã nguồn mở miễn phí, anh em có thể sử dụng ngay bây giờ, Flux.1 sở hữu tới 12 tỷ tham số.

ComfyUI-00109-.png

Để dễ so sánh, Stable Diffusion XL phiên bản anh em đang dùng tạo hình trên máy tính chỉ có 2.6 tỷ tham số, DALL-E 2 là khoảng 3.5 tỷ tham số. Midjourney vừa vận hành trên máy chủ đám mây, vừa là mô hình thương mại nên không được công bố tham số của mô hình. Con số 12 tỷ tham số của Flux.1 hứa hẹn tạo ra những hình ảnh cạnh tranh trực tiếp với những giải pháp tạo sinh hình ảnh mạnh nhất hiện nay, đặc biệt là những giải pháp tạo hình có thu phí của các đơn vị và startup. Chính bản thân Black Forest Labs cũng khẳng định, chất lượng hình ảnh mà Flux.1 tạo ra cạnh tranh được với Midjourney.

ComfyUI-00114-.png

Hiện tại đang có ba phiên bản Flux.1, hai trong số đó cho phép anh em tải về và tạo hình ngay thông qua nền tảng trực tuyến fal Playground hoặc ngay trên máy tính của anh em với ComfyUI:

Quảng cáo



  • Flux.1[dev]: Mô hình cơ bản, mã nguồn mở, cho phép anh em ứng dụng phi thương mại thoải mái. Đây sẽ là phiên bản mô hình mình dùng để tạo hình và đánh giá chất lượng hình ảnh cho anh em trong bài viết này.
  • Flux.1[schnell]: Phiên bản rút gọn của mô hình cơ bản, tốc độ tạo sinh hình ảnh nhanh hơn gấp 10 lần.
  • Flux.1[pro]: Phiên bản dùng cần có bản quyền mua của Black Forest Labs.

Black Forest Labs đưa ra những lợi ích và lợi thế của mô hình mới:

  • Cải thiện chất lượng hình ảnh ở độ phân giải cao
  • Mô phỏng và bắt chước giải phẫu cơ thể người một cách xuất sắc, nhất là đôi bàn tay của con người
  • Cải thiện yếu tố tuân thủ câu lệnh prompt của người dùng khi tạo hình.
  • Tốc độ tạo sinh hình ảnh cực nhanh với Flux Schnell

ComfyUI-00131-.png

Hướng dẫn anh em cập nhật ComfyUI và tải mô hình Flux.1 cùng những mô hình VAE và clip cần thiết để chạy mô hình tạo hình mới này trên ComfyUI.

  • Bước đầu tiên là cập nhật ComfyUI để ứng dụng giao diện chạy mô hình AI tạo hình nhận biết và vận hành được những mô hình Flux mới. Anh em click vào file này để cập nhật: ComfyUI_windows_portable\update\update_comfyui.bat
  • Cập nhật xong thì lên trang web HuggingFace của Black Forest Labs để tải mô hình Flux.1 về: black-forest-labs/FLUX.1-dev · Hugging Face. Anh em sẽ cần đăng nhập để tải mô hình mã nguồn mở này về. Sau khi tải xong thì bỏ vào folder ComfyUI_windows_portable\ComfyUI\models\clip
  • Truy cập trang này: comfyanonymous/flux_text_encoders at main (huggingface.co), tải ba file clip và bỏ vào folder ComfyUI_windows_portable\ComfyUI\models\clip. Anh em sẽ cần ba file có tên t5xxl_fp16.safetensors, t5xxl_fp8_e4m3fn.safetensors và clip_l.safetensors. Hai file đầu chính là encoder để mô hình AI tạo ra những ký tự giống ngôn ngữ của con người nhất trên tấm hình do Flux.1 tạo sinh
  • Kế đến là tải VAE ở đây: ae.sft · black-forest-labs/FLUX.1-schnell at main (huggingface.co), anh em bỏ file ae.sft vào folder ComfyUI_windows_portable\ComfyUI\models\vae
  • Sau khi đã cập nhật ComfyUI và tải những mô hình cần thiết, anh em khởi động ComfyUI lên. Cuối cùng là truy cập trang này: Flux Examples | ComfyUI_examples (comfyanonymous.github.io), anh em sẽ thấy một cái hình phong cách manga, kéo hình đó vào giao diện ComfyUI để lấy workflow ngay lập tức và bắt đầu tạo hình bằng Flux.1. Giao diện của workflow sẽ đơn giản như thế này:

Screenshot 2024-08-02 171943.png

Quảng cáo


Đến khúc này là cân nhắc xem cấu hình máy tính của anh em như thế nào để chọn đúng phiên bản text encoder phù hợp. Nếu máy tính của anh em chỉ có 32GB RAM, hãy chọn file encoder tên là t5xxl_fp8_e4m3fn.safetensors. Nếu máy tính có trên 32GB RAM, hãy chọn encoder t5xxl_fp16.safetensors.

Rồi nếu máy tính chỉ có 32GB RAM, hãy chọn weight_dtype fp8 để tăng tốc độ tạo sinh hình ảnh và phù hợp với bộ nhớ của hệ thống. Trên 32GB RAM hãy tính đến chuyện bắt máy tính và mô hình AI tạo hình ở chế độ fp16. Bản chất mô hình này tương đối nặng vì còn chưa được tối ưu cho những hệ thống máy tính để bàn, nên yêu cầu về mặt cấu hình là tương đối cao. Ngay cả RTX 4080 với 16GB VRAM cũng bị mô hình AI này coi là “dung lượng VRAM thấp”.

ComfyUI-00144-.png

Nhưng gần như ngay lập tức, chất lượng hình ảnh của Flux.1 được thể hiện ngay ở những tấm hình và những câu lệnh đầu tiên, vừa ngắn gọn vừa đơn giản nhưng lại ra được kết quả tương đối ưng ý về mặt chi tiết, bố cục và màu sắc hình ảnh. Một điều phải thừa nhận, vì có tới 12 tỷ tham số, nên vận hành Flux.1 trên máy tính cá nhân chậm hơn Stable Diffusion rất nhiều, kể cả hai phiên bản XL lẫn SD3.

Nếu như mình tạo hình với SD3 và SDXL, kích thước 1024x1024 pixel, tốc độ luôn ở ngưỡng 4 đến 5 it/s, thì với Flux.1, anh em cứ xác định là thời gian tạo mỗi tấm hình tốn cả phút đồng hồ, chậm hơn từ 4 đến 5 lần so với SD3.

ComfyUI-00122-.png

Một ấn tượng lớn của mình với Flux.1 chính là mức độ chính xác của giải phẫu cơ thể người, đặc biệt là bàn tay, bàn chân, số ngón tay ngón chân và chi tiết từng ngón. Đương nhiên không phải lúc nào Flux.1 vận hành cũng hoàn hảo, ví dụ như tấm hình cậu bé mặc áo có in chữ Tinhte ở đầu bài viết, anh em thấy bàn tay phải vẫn có 6 ngón. Một vài trường hợp khác gặp lỗi khi móng tay chèn vào chỗ ngón tay. Nhưng hầu hết thời gian, những lỗi này rất hiếm khi xảy ra. Thay vào đó, bàn tay luôn đủ năm ngón, phân biệt được rõ ràng ngón cái và ngón trỏ. Tương tự như vậy là với ngón chân và bàn chân:

ComfyUI-00125-.png
ComfyUI-00134-.png
ComfyUI-00137-.png
ComfyUI-00140-.png

Mặc định, nếu không có những câu lệnh mô tả phong cách mỹ thuật của tấm hình, Flux.1 sẽ cố gắng hết sức để tạo ra những hình ảnh chân thực nhất có thể, mô phỏng cả độ chi tiết của hình ảnh giống như đời thật, rồi cả khẩu độ ống kính. Hầu hết thời gian, những hình ảnh được mô hình này tạo ra đều rất ấn tượng về mặt nhiếp ảnh. Phải gõ thêm những câu lệnh ví dụ như hoạt hình hay tranh màu dầu cổ điển, thì hình ảnh tạo ra mới có khác biệt.

ComfyUI-00116-.png

Còn lại, dám khẳng định 12 tỷ tham số của Flux.1 đủ sức tạo ra những hình ảnh không hề thua kém chất lượng của Midjourney, chí ít là những phiên bản v4 và v5. Còn hình ảnh do Stable Diffusion XL và 3 tạo ra, dựa trên những mô hình anh em được tải về miễn phí từ Stability AI, chưa tính những weight được huấn luyện mở rộng, đều khó có thể so sánh với Flux.1.

ComfyUI-00128-.png

Thậm chí còn chẳng cần phải gõ khẩu độ ống kính, hay ánh sáng, AI tự làm mọi thứ cho anh em. Đương nhiên vẫn có thể yêu cầu AI điều chỉnh tông màu, chi tiết và ánh sáng, nhưng một câu lệnh đơn giản ngắn gọn cũng tạo ra được một tấm hình như thế này:

ComfyUI-00136-.png
ComfyUI-00150-.png

Chẳng hạn như phải thêm câu lệnh bắt chước phong cách hoạt hình, thì mới có một tấm hình “bớt chân thực”:

ComfyUI-00111-.png

Nhưng có một điều rõ ràng, ấn tượng mạnh nhất của mình với Flux.1 là chất lượng và chi tiết hình ảnh trong những tấm hình mang phong cách thực tế, mô phỏng nhiếp ảnh và đời thật. Mô hình làm được điều này chỉ với 20 đến 40 bước nội suy, sampler euler, qua đó mô tả được sức mạnh của thuật toán machine learning do Black Forest Labs phát triển. Kế đến, đương nhiên là độ chính xác về mặt giải phẫu của những chi tiết ngón tay ngón chân và cả cơ thể con người nữa.

ComfyUI-00149-.png

Một vài tấm hình kích thước 1024x1024 tạo ra bằng Flux.1, xử lý qua ComfyUI trên máy tính cá nhân, sampler euler và 40 bước nội suy. Mỗi tấm này tốn gần 1 phút để tạo ra:

48 bình luận
Chia sẻ

Xu hướng

Cũng đang nghịch nó đây ad! Xuất sắc luôn
ComfyUI-00151-.png
ComfyUI-00092-.png
ComfyUI-00094-.png
@traithanhnam90 nhưng mà ép nó làm mỹ thuật cổ điển hơi khó đúng ko?
@P.W mấy cái này tạm thôi, MJ nó vẫn trên trình khá nhiều.
voe
TÍCH CỰC
2 tháng
@traithanhnam90 làm sao để đc tượng phật như vậy bạn ôi
@voe Prompt của mình:
a body made of 2 halves of Buddha and demon, a cross around the neck, small flames flying throughout the space
ComfyUI-00152-.png
ThànhYx
TÍCH CỰC
2 tháng
Thấy mấy ông trên gr chạy 3060 12gb vẫn được, nhưng mà nó lâu 😆
@ThànhYx Tôi thấy post đó bên reddit rồi, 3 phút một hình =))))))))
@ThànhYx tôi đang chạy trên 3060 12gb, ram 32gb, clip fp16 20step 1 hình 1920x1080 cũng phải 3-4phút =)))
@⭐️⭐️⭐️⭐️⭐️ về fp8 đi chứ 20 step 4 phút chờ đến bao giờ =))
Hận một cái là máy yếu quá 😂
Mất công hướng dẫn cài thì viết cho tử tế. Tự nhiên đùng 1 phát nhảy vào bảo cập nhật ComfyUI trong khi chưa hướng dẫn cài cái này trước, cũng không gắn link tải.
kid_286
ĐẠI BÀNG
2 tháng
@AudioScience Ê đúng là tui cũng hơi cọc vì hướng dẫn cụ thể. Nhưng mà tui thấy ng viết ko có nghĩa vụ phải làm thế, ông viết ngta ko tử tế thì tui thấy ông đúng cái kiểu khôn lỏi thích ăn sẵn. Bị dis sấp mặt đúng rồi.
@kid_286 khôn lỏi? 😆 m đọc 1 bài tut nó hd cách làm abc xyz mà m lại phải google khắp nơi để hiểu thì m ko đc lên tiếng à? T là người kĩ tính. Tinhte này t viết tut cũng nhiều rồi (nick khác). Tất cả đều rất chỉn chu, hướng dẫn gì thì tuần tự, gắn link và giải thích đầy đủ. T thấy người viết này ko có tâm, ko yêu nghề thì t nói thôi. thằng nào thích diss cứ nhảy vào. T tiếp. Chẳng qua t ko muốn rep cmt md của thằng trên kia vì giới hạn ngôn từ của forums có người kiểm duyệt. Nếu quá lời cái là xoá bài khoá nick thôi chứ có gì đâu. Nói chung ấy. Cầu thị và mong muốn có những bài báo xịn sò hơn như mấy trang của nc ngoài thì tiếp thu ý kiến. Còn chơi chơi hài lòng vs hiện tại thì có quyền bỏ qua cmt của t thôi. T ko ngờ là cmt lên tiếng cho những cái ko tốt thì lại bị coi là khôn lỏi 🙂
kid_286
ĐẠI BÀNG
2 tháng
@AudioScience Tui search ra thì thấy cài ComfyUI cài dễ thật ấy ông. Ông có thể góp ý là "lỡ viết rồi thì hd cụ thể hơn", tui thấy cái chữ tử tế nó hơi nặng và gây nản lòng ng viết ông ạ. Mình đọc bài free mà, người ta để viết được bài này cho ông tốn 1 đống tiền ăn học và thời gian nghiên cứu. Ngta đã đủ tử tế rồi. Còn nếu chạy KPI bài thì GG dịch thêm mấy cái hình thì Tinhte ko thiếu, ông vô nói mấy bài đó ko tử tế thì cho t comment chung haha
Tui đang có nhu cầu số hoá một lượng lớn văn bản:

- Bản scan PDF (dạng hình, ko có file Word gốc). Chất lượng thường là ko tốt lắm
1. Dùng Abby để convert qua Word/Excel
2. Sửa lỗi muốn đui con mắt luôn
3. Phân tách ra Chương / Điều / Khoản / Mục / Tiết / Điểm / .... bằng NodeJS/C#
- Đưa vào db lưu trữ.

Hiện có AI nào host được ở mạng công ty, tận dụng khoảng 20 máy (RAM 16, vRAM 4-8GB) để xử lý được bước 1, 2, 3 tự động không ạ ?
@TheShinichi Ko có cách nào tận dụng được 20 máy đó nhé,
Và dùng abbyy không ngon là đúng rồi, phần mềm đó ngày xưa là số 1 cho pdf, nhưng giờ chỉ gọi là tạm thôi, kiểu như nó vẫn giữ được các giá trị cũ, nhưng lại ko theo kịp thời đại mới, thời đại mà AI lên ngôi.
Mình có phương pháp xử lý nhu cầu công việc của bạn, nhưng mà đó cũng là một phần thuộc nghề của mình nên không share được.
reddog
TÍCH CỰC
2 tháng
@TheShinichi sử dụng chatgpt pro xem sao
@reddog Mình code để automation chứ thủ công thì đuối lắm. Tài liệu nguồn sơ sơ vài nghìn file pdf rồi.
MJ
451657629-26000095459637900-5725.jpg
@xecatang Lên 6.1 rồi à bác
keite
TÍCH CỰC
2 tháng
Đánh dấu. Cuối tuần cài thử.
Có làm đc ảnh người lớn ko 😗
voe
TÍCH CỰC
2 tháng
bá đạo thật chứ
úi giời nhìn thích nhưng thấy bác hướng dẫn e hoa mắt luôn
1 câu hỏi nho nhỏ là có cho tạo ảnh NSFW ko? Nếu có, ok mình chấp nhận trả phí thuê bao ở bản thương mại.
Còn cấm như Mijourney thì thôi dẹp.
Thuê bao dịch vụ A.I nào h chả tầm 20-30$/ tháng với gói base. Nên bảo thẳng là nếu bị kiểm duyệt thì mình sẽ ko mua. Đắt.
Mà để bản offline như SD thì cũng thôi, mới mua máy tính cách đây 3 4 năm với con card cùi 2060, ko thừa tiền đi lên 4090 chỉ để tạo ảnh cho vui.
@megatroll cho vui thì dùng làm gì 😃 người ta dùng kiếm tiền chứ ai dùng cho vui
elgato
TÍCH CỰC
2 tháng
Cỡ này thì giả với thật lẫn lộn nhau luôn. 😆
longhons
TÍCH CỰC
2 tháng
Dân tình vẫn thích thú với cái trò ăn cắp mất dạy này quá nhỉ = )))
Model này add thêm gương mặt của mình để tạo ảnh được không
drm_ve
ĐẠI BÀNG
2 tháng
Thằng Stable Diffusion nhìn lởm vãi, fake fake mà nhiều anh em cứ thích khoe, nhìn hình ảnh nó tạo ra trông rất xấu + fake. Flux thì tốt hơn, nhưng tạo hình ảnh vật sống (người, động vật, thịt sống...) thì nhìn vẫn hơi giả giả, MJ thì quá đỉnh, trên cơ hoàn toàn.
anh em tinh tế xây dựng 1 mã nguồn mở nào 😃 thấy bọn mày cái gì cũng biết hết mà 😃
@Còn Cái Nịt hôm nọ tôi gạ cuhiep mua 5 con H100 về dựng máy chủ, lấy mỗi anh em 10 ngàn 1 tấm hình chế =))
Dùng ngon phết ae ạ
Cười vô mặt
Dùng Mac nhìn xong buồn. 😆 Cấu hình cũng mạnh mà AI toàn ưu ái Win.
@Doan Phu Hoa ko phải đâu, thật ra vận hành AI trên máy chủ toàn nền Linux hết =)) chả qua bọn tôi có cái CUDA còn các ông ko có thôi =))
quá đẹp luôn, tạo ra được chữ không mất nét, và ngón tay hoàn chỉnh là thấy ngon rồi
@Methylamine lày
ComfyUI-00176-.png
@P.W xuất sắc luôn mod ơi. cho mình xin prompt này nhé
@Methylamine mới thử prompt tự suy nghĩ từ ảnh của mod
image-2.webp
@Methylamine hình như là kéo png vào ComfyUI nó sẽ copy luôn prompt đó bác

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019