Nếu như xưa giờ người ta có thể ghép mặt người, làm giả giọng nói hoặc thậm chí là ghép chuyển động con người vào một khung cảnh khác thì giờ đây, với sự trợ giúp của trí thông minh nhân tạo (AI), người ta còn có thể kết hợp tất cả những điều đó lại: ngụy tạo ra một đoạn video với đầy đủ hình ảnh và âm thanh giống thật đến ngạc nhiên, trong đó từng chuyển động khẩu hình, nét mặt cho tới giọng nói đều được đồng bộ một cách cực kỳ chi tiết.
Được phát triên bởi các nhà khoa học tại Đại học Washington, đó là một công cụ lấy thông tin từ các tập tin âm thanh để chuyển đổi thành khẩu hình miệng, sau đó áp các chuyển động này vào gương mặt của một người trong video có sẵn. Kết quả cuối cùng như có thể thấy trong thí dụ bên dưới: một đoạn video cho thấy một người nào đó đang phát biểu mặc dù chắc chắn rằng họ không hề làm điều đó ngoài đời. Nói nghe có vẻ phức tạp, mời anh em xem đoạn video clip bên dưới cho dễ hiểu hơn.
Và như có thể thấy trong đoạn clip 2 khung hình đặt cạnh nhau với chủ thể chính là cựu tổng thống Mỹ Barack Obama. Khung hình bên trái là nguồn âm thanh. Bên phải là Obama trong một bài phát biểu khác nhưng đã được thuật toán áp các chuyển động khẩu hình miệng cùng biểu cảm khuôn mặt cho khớp với nguồn âm thanh bên trái. Có thể dễ nhận biết, đoạn video sản phẩm (bên phải) mặc dù thể hiện gần như mục đích là “ngụy tạo video” nhưng vẫn chưa hoàn hảo, còn một số chỗ chuyển động miệng bị mờ, tuy nhiên nếu không để ý kỹ thì cũng dễ bị đánh lừa.
Nhóm nghiên cứu cho biết chọn Obama làm đối tượng thử nghiệm bởi những hình ảnh của ông xuất hiện rất nhiều và dễ tìm, từ đó giúp quá trình dạy AI được dễ hơn. Kemelmacher, một thành viên của nhóm nghiên cứu tiết lộ cần có 17 tiếng dữ liệu video để có thể theo dõi và sao chép khẩu hình miệng của một ai đó nhưng trong tương lai, con số này có thể sẽ được giảm xuống chỉ còn có khoảng một giờ.
Vậy mục đích của công cụ này là gì? Nhóm phát triển cho biết rằng họ hy vọng nó có thể được dùng để cải tiến các ứng dụng gọi điện video như Skype,… Cách làm ở đây là người dùng sẽ thu thập video đang nói chuyện của chính họ để dạy AI, sau đó khi cần gọi video thì họ chỉ cần nói, âm thanh đó sẽ được kết hợp với các đoạn video do AI tạo ra để trông giống như là họ đang nói thật sự. Khi đó thì kỳ thực chỉ có giọng nói là được truyền đi, từ đó giúp giảm lưu lượng mạng cần thiết, giúp những nơi có mạng chậm sẽ được nói chuyện video suôn sẻ hơn.
Tất nhiên, với công cụ này thì người ta lo ngại rằng một ngày nào đó nó sẽ bị lợi dụng vào những mục đích xấu, tương tự như việc dùng Photoshop ghép ảnh linh tinh hoặc giả giọng nói của ai đó. Hiện tại thì nhóm nghiên cứu khẳng định chỉ mới dùng hình ảnh của Obama làm thí dụ và cũng không sử dụng bất kỳ ai khác, bao gồm cả chính các nhà nghiên cứu bởi mối lo ngại về việc “nhét chữ vào mồm” trái phép. Trong tương lai thì vẫn chưa thấy đề cập tới kế hoạch cụ thể là sẽ phát hành rộng rãi hay chỉ đơn thuần là cung cấp như một giải pháp công nghệ cho các hãng khác.
Được phát triên bởi các nhà khoa học tại Đại học Washington, đó là một công cụ lấy thông tin từ các tập tin âm thanh để chuyển đổi thành khẩu hình miệng, sau đó áp các chuyển động này vào gương mặt của một người trong video có sẵn. Kết quả cuối cùng như có thể thấy trong thí dụ bên dưới: một đoạn video cho thấy một người nào đó đang phát biểu mặc dù chắc chắn rằng họ không hề làm điều đó ngoài đời. Nói nghe có vẻ phức tạp, mời anh em xem đoạn video clip bên dưới cho dễ hiểu hơn.
Và như có thể thấy trong đoạn clip 2 khung hình đặt cạnh nhau với chủ thể chính là cựu tổng thống Mỹ Barack Obama. Khung hình bên trái là nguồn âm thanh. Bên phải là Obama trong một bài phát biểu khác nhưng đã được thuật toán áp các chuyển động khẩu hình miệng cùng biểu cảm khuôn mặt cho khớp với nguồn âm thanh bên trái. Có thể dễ nhận biết, đoạn video sản phẩm (bên phải) mặc dù thể hiện gần như mục đích là “ngụy tạo video” nhưng vẫn chưa hoàn hảo, còn một số chỗ chuyển động miệng bị mờ, tuy nhiên nếu không để ý kỹ thì cũng dễ bị đánh lừa.
Nhóm nghiên cứu cho biết chọn Obama làm đối tượng thử nghiệm bởi những hình ảnh của ông xuất hiện rất nhiều và dễ tìm, từ đó giúp quá trình dạy AI được dễ hơn. Kemelmacher, một thành viên của nhóm nghiên cứu tiết lộ cần có 17 tiếng dữ liệu video để có thể theo dõi và sao chép khẩu hình miệng của một ai đó nhưng trong tương lai, con số này có thể sẽ được giảm xuống chỉ còn có khoảng một giờ.
Vậy mục đích của công cụ này là gì? Nhóm phát triển cho biết rằng họ hy vọng nó có thể được dùng để cải tiến các ứng dụng gọi điện video như Skype,… Cách làm ở đây là người dùng sẽ thu thập video đang nói chuyện của chính họ để dạy AI, sau đó khi cần gọi video thì họ chỉ cần nói, âm thanh đó sẽ được kết hợp với các đoạn video do AI tạo ra để trông giống như là họ đang nói thật sự. Khi đó thì kỳ thực chỉ có giọng nói là được truyền đi, từ đó giúp giảm lưu lượng mạng cần thiết, giúp những nơi có mạng chậm sẽ được nói chuyện video suôn sẻ hơn.
Tất nhiên, với công cụ này thì người ta lo ngại rằng một ngày nào đó nó sẽ bị lợi dụng vào những mục đích xấu, tương tự như việc dùng Photoshop ghép ảnh linh tinh hoặc giả giọng nói của ai đó. Hiện tại thì nhóm nghiên cứu khẳng định chỉ mới dùng hình ảnh của Obama làm thí dụ và cũng không sử dụng bất kỳ ai khác, bao gồm cả chính các nhà nghiên cứu bởi mối lo ngại về việc “nhét chữ vào mồm” trái phép. Trong tương lai thì vẫn chưa thấy đề cập tới kế hoạch cụ thể là sẽ phát hành rộng rãi hay chỉ đơn thuần là cung cấp như một giải pháp công nghệ cho các hãng khác.
Tham khảo Theverge