MIT đã phát triển thuật toán tạo được chân dung khuôn mặt khi nghe giọng nói

Một bài nghiên cứu vừa được công bố từ MIT vào tháng trước có tên gọi Speech2Face đã có thể dự đoán và tái tạo hình ảnh khuôn mặt bằng cách phân tích âm thanh từ giọng nói của người nào đó. Mặc dù không thể hiện chính xác khuôn mặt chi tiết như thế nào, nhưng thuật toán này có thể tạo ra một ảnh khuôn mặt khá trung tính, mang các đặc điểm về giới tính, chủng tộc và tuổi tác một cách chuẩn xác - theo như những bước ảnh được đăng trong bài nghiên cứu này.

Có thể thấy giờ đây công nghệ đã len lỏi trong mọi ngóc ngách của cuộc sống. Nó biết ta đã và đang di chuyển đi đâu, biết ta bàn tán những gì, biết ta thích gì, và có thể trong tương lai không xe sẽ còn biết luôn mặt mũi của chúng ta ra sao.

Các nhà nghiên cứu đã "huấn luyện" cho một mạng lưới "deep neural network" dựa vào hơn hàng triệu các video giáo dục trên YouTube và hơn 100.000 người nói khác nhau, theo con số công bố trong bài báo nghiên cứu. Mặc dù người ta cũng đã lưu ý rằng thuật toán chưa thể tạo ra một hình ảnh khuôn mặt chính xác dựa trên đoạn thu âm này, nhưng những hình ảnh ví dụ lại cho thấy thuật toán này xuất ra kết quả khá tốt, giống với những người làm mẫu. Khoan nói về việc nó có đủ giống để chúng ta nhận biết ai là ai thông qua tấm nhìn không, nhưng thuật toán này mang một ý nghĩa rằng thực tế, một thuật toán cũng có thể dự đoán một người nhìn như thế nào thông qua giọng nói đơn giản.

Nhiều vấn đề mang tính bảo mật riêng tư và đạo đức cũng đã được đặt ra sau khi nghiên cứu này được công bố. Các nhà khoa học nhấn mạnh rằng bộ dữ liệu mà họ đang sử dụng hiện tại chỉ dựa trên một số lượng mẫu nhỏ lấy từ Youtube, nó không mang tính đại diện cho toàn bộ dân số thế giới, và vì thế kết quả có thể sẽ có nhiều sai lệch, một điều hay xảy ra ban đầu khi tạo một hệ thống trí tuệ nhân tạo.

Nếu công nghệ này phát triển lên tầm cao mới, có thể nó sẽ nhận diện được ngày một chính xác hơn và đến lúc này, dù chúng ta có muốn hay không, những vấn đề liên quan tới bảo mật sẽ xảy ra. Công nghệ này có thể dùng cho muôn vàn mục đích tốt, nhưng nếu bị khai thác cũng sẽ đem lại rất nhiều rắc rối xung quanh nó. Anh em có thể coi video minh hoạ tại đây

Tham khảo Gizmodo

Nam Air

VIP

5 năm

Nếu có app điện thoại thì hay biết mấy, mình thích giọng của bạn Phi Yến trên VOH mà chưa biết mặt mũi ra sao.

vinhcao7

ĐẠI BÀNG

@Nam Air https://www.atgt.vn/nguoi-giai-toa-buc-boi-cho-nhung-bac-tai-d137387.html

hoangtuna

TÍCH CỰC

@Nam Air Không biết con này của MIT có vẽ được hết mặt các ca sỹ trong bài hát này không...

buihai83

CAO CẤP

Sau này đi làm CMT bắt ghi âm luôn giọng nói thế là khỏi chạy đi đâu 😆 Mỗi lần đi làm lại CMT lại bắt ghi âm 1 lần cho AI nó nhận diện.

koumyougen

@buihai83 Giọng nói sẽ đc thu lại thụ động ko biết trước chứ ko phải qua việc bắt ghi âm đâu bác. Nếu ko người đó sẽ tự chỉnh giọng hoặc nhái người khác liền

sskkb

Cái này chắc mới chỉ áp dụng cho tiếng Anh và ở những nơi nói chuẩn một chút, chứ 1 chú TQ mà sinh ra và lớn lên ở Ấn Độ hoặc Đức rồi nói theo giọng Ấn hoặc Đức thì đảm bảo vẽ sai 100%.

Nhân tiện, ở VN thì thường xuyên có vụ nghe rất nhiều em giọng qua điện thoại thì cực kì hay và ngọt ngào êm ái, lúc gặp thì không dám ngước lên nhìn vì xấu quá.

CBR600R

@sskkb bố mẹ mà TQ thì cái cổ họng nó đã được định sẵn chất giọng rồi
nói từ bé thì accent có thể giống bản xứ, chứ chất giọng thì vẫn là của người TQ thôi
tập train mà lớn thì độ chính xác càng cao, chứ cũng chả bao giờ chính xác 100% được

Hải Laz

@sskkb Cứ có data thì sẽ vẽ đúng thôi

kevin2012

Nữa không chừng như phim Terminator, robot với AI thông minh hủy diệt nhân loại =(

asterix0108

Nghe có vẻ ảo

lexcuong

Đỉnh vãi

finalmagic

Ốm hay bệnh giọng thay đổi thì sao nhỉ :eek::eek:

@finalmagic Thì nó sẽ giống như thế này

nubop

Từ những nghiên cứu như thế này có thể ngẫm thấy dường như "thế giới tâm linh" có phần nào đang đúng hoặc đang được làm sáng tỏ.
Dựa vào giọng nói để đoán ra khuôn mặt, hay tâm sinh tướng, hay nhân tướng học rồi sinh trắc vân tay.vv. mình tin là có một cái gì đó bí ẩn ở con người. Hóng tiếp.

komodovn

@nubop Chắc là có sự liên quan, nhưng sau khi làm sáng tỏ thì ta sẽ thấy nó không như thế giới tâm linh mà cũng không như chúng ta tưởng tượng, nó là cái gì đó hoàn toàn mới nhưng vẫn khoa học.

@komodovn Giống như một số cuốn sách tinh hoa phương tây hẳn hoi nhưng mình có có cảm nhận như rằng "mọi thứ diễn ra trên đời đều có sự sắp xếp của 1 bàn tay nào đó", hay đại loại như Á Đông mình gọi là số phận định sẵn, sắp đặt hết ngay từ khi sinh ra vậy á.

LMVuong

@nubop Đồng quan điểm với bạn

giống hệt con người nhẩy
nghe giọng của những người mình gặp là có thể nhớ được khuôn mặt người đó ntnao
sau này nạp được những chương trình dạy máy này ntnay vào não người, thì con người mạnh phải biết

@CBR600R Cái này khác nhé, nó dự đoán 1 khuôn mặt từ 1 giọng nó, ý là nó sẽ tìm điểm liên quan, có thể là từ big data nó sẽ phân tích ra giộng trầm thì mặt chữ điền, mũi cao..., kiểu như vậy đó. Chứ không phải nó có 1 tập từ đầu và chơi trò "pair" với nhau.

luctien8x

ứng dụng này dùng vào việc bảo mật doanh nghiệp dạng cục bộ thì hay

Robert__Nguyễn

Hay đấy nhỉ.

PerfectSun

cho nó ghe phim JAV, nó toàn show ra mấy bà thím 😆

vule123

ko thể tin được, speech to text đã ngon lắm rồi, giờ speech to face thì quả là quá đỉnh cao 😁

vn_ninja

má ơi, giọng nói cũng ko còn riêng tư nữa rồi

kawakami

Vậy kẻ trộn nó ko nói thì nhận diện kiểu gì nhỉ?

alex.hn

Mịa tổ, thế là món nhân tướng học của Tàu nó chả đi trước AI của phương Tây cả ngàn năm rồi nhể. 😁

dangnhatanh1412

Cho nó nghe giọng mấy đứa cgai trong game là biết thằng nào giả mạo ngay

MIT đã phát triển thuật toán tạo được chân dung khuôn mặt khi nghe giọng nói

CHỦ ĐỀ TƯƠNG TỰ

Dùng Deepfake ghép mặt cựu tổng thống Obama vào Black Panther, đến giọng nói cũng giống

Scarlett Johansson kiện công ty dùng AI chế gương mặt cô mà không xin phép

Spotify giới thiệu "DJ AI" tổng hợp playlist nhạc cá nhân hóa, nghe nhạc số như nghe radio

AI đã giúp diễn viên trong Top Gun: Maverick tìm lại giọng nói như thế nào?