Xem MV làm bằng AI của 'anh Bo' Đan Trường, làm video bằng AI như thế nào, có khó không?

P.W
7/7/2024 13:23Phản hồi: 80
Xem MV làm bằng AI của 'anh Bo' Đan Trường, làm video bằng AI như thế nào, có khó không?
Thay vì coi đây là trò đùa, thì mình nghĩ rằng MV Em Ơi Ví Dầu của Đan Trường là một bằng chứng cho việc công nghệ tạo sinh hình ảnh và video dựa trên trí thông minh nhân tạo hiện giờ vẫn chưa đủ chất lượng để thay thế cho những cảnh quay thật, tức là những lời hứa hẹn giảm chi phí sản xuất nội dung vẫn chưa trở thành hiện thực. MV vừa được đăng tải trên YouTube hai ngày trước đây:



Nhận xét thẳng thắn, không nể nang, phải thừa nhận MV này xấu. Nhưng thay vì chê bai như mọi cư dân mạng khác, thì mình nghĩ sẽ là ý hay khi phân tích cách video này được tạo ra, những công cụ được sử dụng, rồi nói tiếp đến lý do vì sao nó xấu, nhân tiện cho anh em một vài kinh nghiệm tạo hình rồi chuyển đổi hình ảnh tĩnh thành những đoạn video ngắn.

Rất dễ nhận ra công cụ mà ê kíp của anh Bo sử dụng để tạo ra đoạn MV dài 4 phút này.

Hai giải pháp cơ bản được sử dụng, là huấn luyện một cái LoRA dựa trên hình ảnh gương mặt của ca sĩ Đan Trường, và thứ hai là ứng dụng tạo hình tĩnh và dựa vào đó để biến chúng thành hình ảnh động, tức là những đoạn cắt cảnh ngắn lồng ghép vào giữa những cảnh anh Bo (phiên bản AI tạo ra) ngồi một chỗ mấp máy môi để hát. Thành ra chúng ta có thể đi đến giải pháp thứ ba, tức là lấy tấm hình tĩnh được tạo ra bằng công cụ AI, bỏ vào ứng dụng AI, cộng thêm âm thanh để xử lý lip-sync mấp máy môi theo lời bài hát, rồi lấy đoạn clip ngắn đó bỏ vào trong MV.


Desktop Screenshot 2024.07.07 - 19.11.07.47.jpg

Với những nhận định như thế, mình mạnh dạn dự đoán ê kíp của anh Bo dùng Stable Diffusion, cụ thể hơn là những mô hình dựa trên phiên bản SD 1.5. Có những khía cạnh rất dễ nhận ra, ví dụ như gương mặt AI tạo ra hơi quá mịn, nhìn “nhựa nhựa”, theo cách chính các anh em thành viên Tinhte mô tả những tấm hình mà các phiên bản mô hình Stable Diffusion của StabilityAI tạo ra.

Đọc thông tin bên VNExpress giới thiệu video này, thấy có dẫn lời anh Bo rằng “AI học thuộc gần 600 tấm ảnh của tôi để cho ra một phiên bản Đan Trường giống nhất. Dĩ nhiên hình ảnh thực hiện bằng công nghệ không đẹp, sống động như bên ngoài nhưng tôi muốn thử nghiệm làm điều mới mẻ.” Đấy chính là lý do mình nghĩ rằng, mọi hình ảnh anh Bo ngồi ngoài ruộng đội nón mặc sơ mi ngồi hát là thành quả của quá trình dùng card đồ họa huấn luyện một cái mô hình LoRA, viết tắt của Low Rank Adaptation.

Huấn luyện LoRA chỉ để tạo hình gương mặt Đan Trường


Đối với phạm vi của Stable Diffusion, LoRA được ứng dụng để tinh chỉnh lại một phần mô hình (checkpoint) thay vì tinh chỉnh toàn bộ weight của checkpoint, từ đó cho phép thay đổi phong cách của một số chi tiết nhất định trong bức hình mà AI tạo ra. Lấy ví dụ LoRA có thể tinh chỉnh chi tiết của từng dạng trang phục, đường nét gương mặt, đôi tay đôi chân để cho giống thật.

Còn ở trường hợp này, mình đoán là ê kíp thực hiện MV đã train hẳn một cái LoRA nho nhỏ chỉ để tạo ra những gương mặt người giống hệt như Đan Trường:

Desktop Screenshot 2024.07.07 - 19.11.15.74.jpg

Wav2lip để ghép âm thanh khớp với cử động môi


Rồi những tấm hình ấy được ứng dụng tiếp công nghệ lip-sync để âm thanh khớp với cử động môi của nhân vật trong hình. Trước đây thì mình chỉ biết đến vài dịch vụ làm được như vậy, chẳng hạn như dịch vụ dựa trên mô hình AI Gen-2 của RunwayML, hoặc những dịch vụ như wav2lip hay KapWing. Còn gần đây, đã có người đem công nghệ Wav2lip để tạo thành một plug-in dùng trong giao diện Automatic1111 vận hành mô hình Stable Diffusion, vậy là hoàn toàn có thể tạo ra MV như anh em thấy ở trên bằng một cỗ máy tính cá nhân, khỏi cần bỏ tiền dùng dịch vụ trực tuyến nào hết.

Quảng cáo





Nhưng nói đến công cụ ghép lipsync để cử động môi nhân vật khớp với âm thanh, thì cũng phải nhắc đến chính bản thân công cụ mà mình đoán đã được ứng dụng để tạo ra MV này. Rất có thể công cụ AnimateDiff, biến hình ảnh thành video dựa trên mô hình StableDiffusion đã được ứng dụng. Vì sao mình lại đoán như thế? Anh em xem MV ở trên, để ý mấy đoạn cơi trầu, mâm cơm hay cảnh đám cưới miền Tây, chúng có đầy đủ những đặc tính của những đoạn hình ảnh tạo ra bằng Stable Diffusion.

Desktop Screenshot 2024.07.07 - 19.13.14.41.jpg
Desktop Screenshot 2024.07.07 - 19.23.34.61.jpg
Desktop Screenshot 2024.07.07 - 19.23.43.99.jpg

AnimateDiff, ControlNet và LCM


AnimateDiff và sampler LCM là hai công cụ thường được sử dụng nhất trong quá trình tạo ra những đoạn video ngắn dựa trên Stable Diffusion, dù anh em dùng Automatic1111 hay ComfyUI. Cái này mình cũng đang nghiên cứu để làm bài hướng dẫn cho anh em nghịch thử.

Sampler LCM vận hành bằng cách phân tích hình ảnh, hoặc tạo ra những tấm hình dựa trên câu lệnh văn bản của người dùng. Sau đó, anh em sẽ được chọn số khung hình mỗi giây cho đoạn video, cùng thời lượng đoạn video. Nhân số khung hình mỗi giây với số giây của một đoạn cắt cảnh, chúng ta sẽ có tổng số khung hình mà máy tính phải vận hành Stable Diffusion. Máy phải tạo ra đủ số khung hình ấy rồi ghép lại với nhau thành đoạn clip hoàn chỉnh.

Quảng cáo



Chính vì cách vận hành như thế, nên chi tiết của những đoạn clip tạo ra bằng Stable Diffusion không bao giờ đồng nhất, đặc biệt là những chi tiết nhỏ như tóc, chi tiết trên trang phục, hiệu ứng ánh sáng hay những tiểu tiết rất nhỏ trong hình ảnh. Chúng có xu hướng “nhảy nhót” liên tục, chẳng hạn như thế này:



Nhưng mà cái hay của LCM nói riêng và AnimateDiff nói chung, là khả năng kiểm soát chi tiết hình ảnh dựa trên ControlNet:



ControlNet là một gói giải pháp kiểm soát chất lượng và kết quả đầu ra của hình ảnh được tạo ra bằng những mô hình SD. Với công cụ này, anh em có thể ép SD phải làm hình ảnh với bố cục, chi tiết, cử động cơ thể chính xác như những gì anh em muốn. Lấy ví dụ chẳng hạn như anh em có một tấm hình gốc, muốn tái tạo lại để trông hay hơn, lạ hơn, có thể dùng tính năng Canny hoặc SoftEdge. Nếu muốn cử động của nhân vật trong hình SD tạo ra giống hệt như hình mẫu thì sẽ dùng OpenPose. Hoặc muốn tấm hình tạo ra có chiều sâu giống hệt như hình mẫu, thì chọn Depth…

1-XUb9XWj5DuBiZNBsoW3l0g.png

Quay lại với cái MV của anh Bo. Nhìn tấm hình bữa cơm gia đình mà mình screenshot ở trên, có thể đưa ra dự đoán là đoạn clip được tạo ra bằng cách bỏ tấm hình chụp bữa cơm thật vào, rồi dùng ControlNet và AnimateDiff để tạo ra một đoạn clip ngắn chừng 4 đến 5 giây.

Có rất nhiều đoạn cắt cảnh trong MV của anh Bo được làm theo cách tương tự, chẳng hạn như đoạn dưới đây, có thể đã lấy hình chụp một cô gái đi trên con đường làng rồi ghép thêm chi tiết hình ảnh ở nền. Rồi sau đó ê kíp phát hiện ra là cần cái nón, thế là dùng inpainting để ghép thêm vào, hệ quả là cái nón vừa quá to vừa lệch.

Desktop Screenshot 2024.07.07 - 19.11.32.22.jpg

Nhưng với chính cái đoạn cắt cảnh này, mình phải nhấn mạnh một lợi thế của những công cụ tạo sinh video bằng mô hình AI.

Chèn hậu cảnh bằng Stable Diffusion


Anh em để ý cái tiền cảnh và hậu cảnh chẳng ăn nhập gì với nhau. Lý do là, rất có thể hình ảnh chụp cô gái đi trên con đường làng có nền không đẹp, nên đã bị cắt ra, rồi bỏ vào Stable Diffusion để chế thêm “đồng ruộng mênh mông xa tít tắp.” Mỗi tội, SD thì không phân biệt được đồng ruộng vùng đồng bằng miền Tây và ruộng bậc thang ở vùng miền núi Tây Bắc nước mình, thành ra nhiều cảnh trong video vừa lệch về bố cục, vừa có cảm giác lệch về hình ảnh. Một ví dụ khác ở dưới đây. Cảnh chạy xe hơi là thật, còn cây cỏ ruộng đồng rồi cả rặng núi xa xa là AI chế ra.

Desktop Screenshot 2024.07.07 - 19.11.45.27.jpg

Đừng vì đoạn MV này mà bỏ qua lợi thế rất lớn của những công cụ tạo sinh video bằng mô hình AI trong tương lai. Nó có thể tạo ra những đoạn video làm nền hoặc cắt cảnh ngắn rất tốt, tiết kiệm rất nhiều thời gian trong quá trình sản xuất nội dung.

Trùng hợp là hôm giữa tuần vừa rồi, mình có nghịch thử Gen-3 của Runway, tạo ra những đoạn clip cũng chỉ dài từ 5 đến 10 giây, nhưng chất lượng rất khác so với AnimateDiff trên Stable Diffusion, đơn giản vì cách vận hành tạo video của hai giải pháp này khác nhau hoàn toàn. Một công cụ tạo sinh video dựa trên việc hiểu chiều sâu và logic vật lý. Công cụ còn lại chỉ đơn thuần biến hình ảnh tĩnh thành những khung hình ghép lại với nhau thành video động mà thôi:



Vì sao MV xấu?


Mình mạnh dạn đưa ra dự đoán, rằng MV của anh Bo trông hơi buồn cười một chút về mặt hình ảnh, là vì cả hai khía cạnh: Giới hạn khả năng tạo sinh hình ảnh, rồi biến hình ảnh thành video của StableDiffusion, và thứ hai là giới hạn về khả năng điều khiển công cụ AI của ê kíp làm MV.

Đầu tiên và quan trọng nhất, là tổng thể tông màu của đoạn MV. Nhìn những khung hình màu rất rực, đoạn nào cũng xanh lét, rồi hình ảnh không hề chi tiết, dễ nhận ra ê kíp làm MV có vẻ đã quên việc làm hậu kỳ cho MV, cứ có đoạn cắt cảnh anh Bo phiên bản AI ngồi hát hay những cảnh trong kịch bản làm ra bằng công cụ AI là ghép nối lại với nhau thành một cái MV. Những đoạn clip này hoàn toàn có thể được bỏ vào Premiere Pro hay DaVinci Resolve để xử lý hậu kỳ, chỉnh màu sắc, chỉnh LUT để tạo ra chất điện ảnh, nhìn nịnh mắt hơn nhiều so với những khung hình quá rực như thế này.

Desktop Screenshot 2024.07.07 - 19.24.15.76.jpg

Thứ hai là khả năng điều khiển prompt và những công cụ như ControlNet và Inpainting trong giao diện vận hành Stable Diffusion. Nhìn MV có những đoạn hình ảnh vừa không khớp về mặt không gian bố cục, lại vừa không hợp lý về mặt chi tiết, chẳng hạn như những ngôi nhà mái hiên méo mó lệch lạc, rồi từng khối nhà không nối với nhau một cách hợp lý. Riêng cái này hoàn toàn có thể chỉnh sửa kỹ lưỡng bằng công cụ Inpainting, đến khi nào tạo ra sản phẩm hợp lý và ưng mắt thì sử dụng. Stable Diffusion có thể làm tốt hơn thế này rất nhiều, với điều kiện người dùng kiểm soát tốt quy trình workflow tạo sinh hình ảnh và video.

Desktop Screenshot 2024.07.07 - 19.23.58.28.jpg
Desktop Screenshot 2024.07.07 - 19.24.24.33.jpg

Thứ ba, là giới hạn của công nghệ AI tạo sinh video hiện giờ rất khó tạo ra những khung hình đồng nhất về cả không gian, chi tiết lẫn logic. Anh em cứ lên YouTube tìm kiếm từ khóa “AI MV”, kết quả có thể đẹp hơn những gì thể hiện trong MV của anh Bo, nhưng những vấn đề về chi tiết hình ảnh thì giống hệt nhau. Cái này có lẽ phải đợi công nghệ hoàn thiện hơn trong tương lai gần.

Còn ở thời điểm hiện tại, bỏ qua chất lượng hình ảnh của MV, mình phải cảm ơn anh Bo vì đã có một thử nghiệm vui vẻ, để mình có cơ hội chia sẻ về những kỹ thuật làm hình ảnh và video nhờ Stable Diffusion mà không phải ai cũng biết hoặc quan tâm.
80 bình luận
Chia sẻ

Xu hướng

ryanmw
TÍCH CỰC
2 tháng
: )))) stable diffusion rác rưởi
@ryanmw vcl "mua rồi" =))) ngu đến thế thì chịu =))) SD mã nguồn mở chạy local trên máy mà phải mua à =))))
ryanmw
TÍCH CỰC
2 tháng
@megame_anhxaem con này vs mid journey đều dùng qua hoặc mua, rác
@ryanmw skill issue, intelligence problem
Cười vô mặt
ryanmw
TÍCH CỰC
2 tháng
@megame_anhxaem tưởng tượng nhìn đống rác output của nó, và gọi là intelligence
Bước đầu vậy là ổn rồi, đến MV thật tlinh gì đó mà thg Táo đứng sau còn bị chửi quá trời kìa
@khungtanthoi Như thật, cần gì thế giới AI cả giọng lẫn người
@minhprodesign Cái này là face tracking thôi
@khungtanthoi Đơn giản Vậy mà cái team cùi bắp cho Đan Trường làm không nổi ?
@khungtanthoi Đúng rồi. Để ý kỹ chỉ AI mỗi cái mặt nên nó ko lỗi. Còn tóc vẫn là chuẩn.
Chưa có công nghệ lõi Apple Intelligence nó mới thế
Tuanns93
ĐẠI BÀNG
2 tháng
Này cho con nít xem nó còn chê. Thà vẽ hoạt hình còn đẹp hơn 😁
@Tuanns93 chắc muốn dùng mác A.I để quảng bá thôi 😃
Tuanns93
ĐẠI BÀNG
2 tháng
@NguyễnXuânBằng Đú trend AI nhưng nhìn dị hợm quá
@Tuanns93 bạn nói đúng, mé nhìn thấy gớm luôn!
Hay thật, Nhờ vậy mà mình biết được giới hạn của AI thời điểm hiện tại
@minoan không đâu bạn, giới hạn của A.I mạnh mẽ hơn thế này nhiều. Đây là do họ làm cẩu thả thôi.
Bất kỳ ai có chút kỹ năng dùng AI đều có thể tạo 1 clip như thế này, ko có gì đáng để học hỏi.
Đã làm thì làm cho nó trau truốt tí, làm kiểu chó gặm thế này đúng là mất thời gian vào coi.
Nhạc ko hay, hình như chó gặm.
@Hondacodon287 Nghe nói nguyên ê kíp làm ngày đêm mới ra được sản phẩm này. Đúng là đáng nể phục =))
@Dr.Son ko hiểu sao họ có thể cho cái video này lên mạng đc
@Hondacodon287 rác quá bác nhỉ,hic
@Dr.Son cái MV sỉ nhục AI =))
techmaniac
ĐẠI BÀNG
2 tháng
Cám ơn thớt viết bài rất chi tiết và nhiều thông tin
Nhìn a đuồi vkl 😆
TheHardGuy
ĐẠI BÀNG
2 tháng
MV này không phải là xấu nhưng nó không được gọi là MV. Nó là một cái clip ai đó làm chơi. Nó càng không nên được mổ xẻ. Vì cái clip này làm ra để loè và đi mấy cái bài báo như là cái gì ghê gớm lắm 🙂 Nó chỉ là 1 cái clip. Gọi là MV tội cho các nghệ sĩ khác quá.
Mình thích làm hình ảnh bằng AI nhưng không có đk mua máy cấu hình và card như yêu cầu. Bác tạo giúp mình 1 hình youtube thumbnail nội dung gì cũng được mà coa chữ Nvidia được không bác @P.W
Bước đầu là vậy, chừng vài năm thôi sẽ đẹp hơn rất nhiều. Lúc trước tôi nói tương lai AI sẽ làm nhạc, làm phim khiến mấy công ty giải trí chậm chân như Sony mất chén cơm mà fan Sony nhào vô cắn quá trời. Bây giờ có clip này cho chúng sáng mắt ra.
trkgncmg
ĐẠI BÀNG
2 tháng
Nhìn ông Trường đúng sai sai kiểu . Ông bào trainning cái face chắc mới học SD đc 1 hôm . Xài cái faceswap còn đẹp va nhanh hơn
nhuvanhiep
ĐẠI BÀNG
2 tháng
Đúng là… như cái bìu thật 😕
Làm MV AI như này thì thôi thà khỏi làm, hình ảnh ko khác gì đống rác thì mục đích thể hiện = AI để làm gì, tự ra đồng quay hình hát thật cho rồi
Bước đầu như vậy là được rồi. Mấy thằng rác rưởi vào chửi bới ngu thật sự.
Ngày trước AI tạo bằng video thật ko cảm giác đồ hoạ 3D
Xem clip mà như trích từ game 3D ra
Phim ảnh sau này không cần diễn viên thật luôn
Nhìn rác rưởi thật, 1 ca sĩ lâu năm mà làm cái clip như chó gặm, quá rác.
Thế mà cũng gọi là Video âm nhạc được, ko biết có xấu hổ ko nữa.
@yellowcard Miền tây này nhìn lạ pà cố. Tây cực lạc chứ không phải tây nam bộ Việt Nam
Cái này mà gọi là A.I thì tội nghiệp nguyên ngành công nghiệp A.I quá trời! Mấy cái này (nhép miệng, ảnh động từ ảnh tĩnh...) tôi nhớ nó đã có từ hàng chục năm về trước kìa (ý là TG trước kia họ đã làm được như video lâu rồi). Tôi thấy clip thực sự thảm hại. Kiểu như team toàn "gà công nghiệp" mới chập chững dùng một hai ứng dụng, xài đâu đó được 3, 4 tháng, chưa nắm kỹ hay nhuần nhuyễn được, rồi vội vàng tung ra, dùng hai chữ A.I ra hù thiên hạ. Một clip rác, tập hợp từ nhiều đoạn video "phế" ghép vô gọi là "MV". Haizzz... A.I này làm tôi nhớ đến Adobe Flash những năm 2000! COI EM-VI NÀY SỢ MA NHA MẤY ÔNG!!!

Xu hướng

Bài mới










  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019