Microsoft giới thiệu model AI VASA-1: tạo video chân dung người nói chỉ bằng 1 hình tĩnh + voice

ND Minh Đức
19/4/2024 7:10Phản hồi: 38
Microsoft giới thiệu model AI VASA-1: tạo video chân dung người nói chỉ bằng 1 hình tĩnh + voice
Từ một tấm hình chân dung + một đoạn ghi âm giọng nói, model VASA-1 của nhóm nghiên cứu Microsoft châu Á có thể tạo ra một đoạn video lip sync với đầy đủ biểu cảm gương mặt, góc mặt, chuyển động đầu, mắt, miệng, các cơ trên mặt,... Tất cả đều được AI tạo ra real time.

Theo nhóm nghiên cứu, VASA là một framework không chỉ có khả năng tạo ra chuyển động của môi, miệng một cách đồng bộ với âm thanh mà nó còn tạo ra nhiều biến đổi khác trên gương mặt để cố "giống thật" nhất. Họ cho biết gen model đã xử lý toàn bộ các biến đổi trên gương mặt và cả các góc mặt trong không gian latent để tạo ra kết quả cuối cùng là một video 512 x 512, 40 fps với độ trễ của tiếng và hình là không đáng kể.



Về hiệu quả, VASA có thể chạy với phần cứng desktop 1 con GPU 4090, đoạn video tạo ra ở chế độ phát trực tiếp chỉ có độ trễ 170ms khi play.

Hiện nhóm vẫn chưa có kế hoạch phát hành API hay sản phẩm cụ thể của VASA. Bên dưới đây là một số thí dụ, họ tạo ra những chân dung người bên dưới bằng StyleGAN2 hoặc DALL.E-3. Mời anh em xem qua.


Đầu tiên là một số video với hình tĩnh + voice dài khoảng 1 phút






Thêm nhiều giọng nói hơn






Cùng một người nhưng nhiều góc mặt khác nhau, anh em để ý chuyển động liếc mắt, lấy hơi,...

Quảng cáo




Khoảng cách khác nhau


Cấc biểu cảm khác nhau khi nói của cùng 1 người


Video bên dưới biểu diễn khả năng tạo ra video trong không gian 3D
38 bình luận
Chia sẻ

Xu hướng

Có vẻ nguy hiểm rồi đấy.
@My name’s Liêm giờ check video call cũng ko còn đáng tin rồi
Cười vô mặt
@Moon_Chevalier check video calll phải đọc mật khẩu mới tin được
@My name’s Liêm Lần đầu tiên thấy âm thanh đi nhanh hơn ánh sáng 170 ms!
chỉ với 1 hình ảnh tĩnh mà ra được vậy là quá ổn, càng có nhiều nguyên vật liệu độ chân thực sẽ càng cao
Phải chi cái này là thứ khi call video trên Apple Vision Pro
@Vinyar Nguyen Là lúc đó có thể lấy lại được danh hiệu "Tái định nghĩa" rồi. Chỉ tiếc rằng....
Bỏ mịa rùi
Quá ghê, rồi sau này phim UAV và JAV chỉ dùng 1 tấm hình làm thành phim, thì bao thế hệ đàn ông quay tay chỉ do xem AI chứ không phải người thật à ??
@anhlucky2 Sẽ có thêm khái niêm Organic JAV vs JAV phái sinh!
@cheetah_fast Nghĩ tới bậc này thì chỉ có Thánh !!!
thấy truyền hình Hàn Quốc nó có phát thanh viên dẫn chương trình ảo như này rồi
Kiểu này gọi thấy mặt cũng chưa chắc là hàng thật.
A.I sẽ biến thế giới của chúng ta thành Thế Giới Viễn Tưởng như chúng ta mong muốn trong tương lai gần!
Ôi cái này mình cần này. Làm content freetrafic quá ngon
Eazy
TÍCH CỰC
một tháng
1 thế hệ lừa đảo chuẩn bị đón sóng.
Westworld
Xịn luôn, quả này lừa đảo chuyển khoản qua zalo ăn nên làm ra luôn :v
Thua lun.. lừa đảo càng nghiêm trọng hơn
Mượt quá!
nhìn video trên sao phân biệt đc AI
Meta, Microsoft giới thiệu model thấy bình thường
Đại đế đăng 1 bài báo, tung hô như sắp mở ra tương lai mới.
@GLES tag cho vui
GLES
ĐẠI BÀNG
một tháng
@Doof Heinz trưa rảnh coi qua rồi bác, bọn ở trên táp vụ FB lấy thông tin, chứ hỏi mô hình free thì cty ăn cám để sống qua ngày à? vừa muốn free mà vừa muốn bảo mật =)))
GLES
ĐẠI BÀNG
một tháng
@Doof Heinz tui thì có like mấy bài này sớm lắm, đừng lo =)))
@GLES Vào kiếm comment của cừu cho vui mà không thấy con cừu nào vào comment. Tụi nó có hiểu gì về AI đâu.
GLES
ĐẠI BÀNG
một tháng
@Doof Heinz model của thg táo toàn quantize, có khi quantize là gì bọn nó chưa biết nữa mà =)))

https://phamdinhkhanh.github.io/2020/11/23/Quantization.html
Khoa học dữ liệu
phamdinhkhanh.github.io
Quá lợi hại
thấy AI càng lúc càng kinh dị rồi đó

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019