Từ một tấm ảnh, một thuật toán "deep learning” đã có thể tạo ra một đoạn video ngắn để mổ tả những gì sẽ xảy ra tiếp theo. Bạn đưa cho hệ thống trí thông minh nhân tạo này hình ảnh của một nhà ga xe lửa, nó có thể tưởng tượng ra một chiếc xe lửa sẽ chạy ra từ đó; cung cấp cho AI ảnh một bãi biển sẽ truyền cảm hứng cho nó tạo ra những cơn sóng chuyển động. Theo các nhà nghiên cứu, việc hướng dẫn AI cách dự đoán tương lai có thể giúp nó hiểu được những gì đang xảy ra ở hiện tại.
Để hiểu được những việc đang làm của ai đó khi họ chuẩn bị bữa ăn, chúng ta có thể tưởng tượng ra cảnh họ sẽ thưởng thức nó, và điều này không phải là thứ dễ dàng để AI có thể nắm bắt. Nếu có thể tạo ra một hệ thống hoạt động dựa vào trí thông minh nhân tạo với khả năng nói trên, nó có thể nhận biết được khi một người nào đó sắp rơi, hoặc giúp những chiếc xe tự hành có thể dự đoán trước tình huống dẫn đến tai nạn.
"Bất kỳ robot nào hoạt động trong thế giới của chúng ta cũng cần phải có vài khả năng cơ bản nhằm dự đoán tương lai", ông Carl Vondrick đến từ Viện Công nghệ Massachusetts (Mỹ), một trong những thành viên của nhóm chuyên gia tạo ra thuật toán mới, cho biết. "Ví dụ, nếu bạn đang định ngồi xuống, bạn sẽ không muốn con robot của mình kéo ghế ra khỏi mông bạn”.
Để tạo ra AI mới, nhóm các nhà nghiên cứu đã “đào tạo” cho nó bằng dữ liệu thu được từ 2 triệu video lấy trên website chia sẻ hình ảnh Flickr, bao gồm những cảnh khác nhau như bãi biển, sân golf, ga tàu lửa và những em bé sơ sinh tại bệnh viện. Những đoạn video này đều không có tiêu đề, nghĩa là chúng không được gắn thẻ với các thông tin có thể giúp AI hiểu được. Sau quá trình này, các nhà nghiên cứu bắt đầu đưa vào những tấm ảnh tĩnh và AI đã có thể tự tạo ra các đoạn video ngắn về những gì có thể xảy ra tiếp theo.
Để giúp AI tạo ra những đoạn phim chính xác hơn, nhóm chuyên gia đã sử dụng một phương pháp gọi là "adversarial networks” (mạng đối nghịch), trong đó bao gồm 1 mạng lưới thần kinh nhân tạo có nhiệm vụ tạo ra các video, trong khi mạng còn lại thì kiểm tra xem nó trông thật hay giả. Hai mạng lưới này bị khóa trong một cuộc chiến: bộ phận tạo video sẽ cố gắng cho ra đời những video tốt nhất để đánh lừa mạng còn lại, trong khi mạng “đối thủ” thì sẽ có cơ hội rèn luyện khả năng của nó trong việc phân biệt đâu là video thực sự.
Hiện tại, các video được tạo thành có độ phận giải thấp và chỉ có 32 khung hình, kéo dài trong hơn 1 giây. Nhưng nhìn chung thì vẫn có thể xem được và nội dung dự đoán hiển thị cũng phù hợp với hoàn cảnh của ảnh tĩnh: xe lửa di chuyển về phía trước theo đường thẳng, trong khi những đứa bé đang tự cấu mặt mình. Các nhà nghiên cứu cũng cho AI thử sức với việc dự đoán các tình huống trong video, nhưng kết quả không khả quan mấy.
Bên cạnh đó, video dự đoán tương lai được tạo thành tự ảnh tĩnh cho thấy AI vẫn còn kém rất xa con người và nó vẫn còn rất nhiều điều cần học hỏi. Chẳng hạn như thuật toán không nhận ra rằng nếu đoàn tàu đã rời khỏi ga thì nó cũng nên biến mất khỏi khung hình. Điều này xảy ra bởi AI không được trang bị kiến thức về các quy luật của thế giới, thứ thường được chúng ta gọi là "common sense” (trí khôn, suy nghĩ cơ bản). 2 triệu video tương đường với khoảng một bộ phim kéo dài 2 xuyên suốt 2 năm, đó là tất cả những dữ liệu được AI tiếp thu để hiểu được thế giới vận hành như thế nào. “Bấy nhiêu vẫn chưa đủ để so sánh với một đứa trẻ 10 tuổi”, Vondrick nói.
Điều đó cho thấy việc minh họa có thể đạt được thông qua sự kết hợp giữa Thị giác máy tính (computer vision) và máy học (machine learning), theo John Daugman tại Phòng thí nghiệm máy tính của Đại học Cambridge. Ông cho rằng khía cạnh then chốt là khả năng nhận ra có một cấu trúc nguyên nhân - kết quả xảy ra theo thời gian. “Các tác giả của nghiên cứu đã chứng minh rằng đó là những thứ cần phải học được”. Vondrick hiện đang mở rộng quy mô hệ thống để nó có thể tạo ra các video dài hơn. Dù cho rằng AI có thể sẽ không bao giờ có thể dự đoán chính xác những gì sẽ xảy ra, tuy nhiên nó có thể cho chúng ta thấy được cái gọi là tương lai thay thế.
Để hiểu được những việc đang làm của ai đó khi họ chuẩn bị bữa ăn, chúng ta có thể tưởng tượng ra cảnh họ sẽ thưởng thức nó, và điều này không phải là thứ dễ dàng để AI có thể nắm bắt. Nếu có thể tạo ra một hệ thống hoạt động dựa vào trí thông minh nhân tạo với khả năng nói trên, nó có thể nhận biết được khi một người nào đó sắp rơi, hoặc giúp những chiếc xe tự hành có thể dự đoán trước tình huống dẫn đến tai nạn.
"Bất kỳ robot nào hoạt động trong thế giới của chúng ta cũng cần phải có vài khả năng cơ bản nhằm dự đoán tương lai", ông Carl Vondrick đến từ Viện Công nghệ Massachusetts (Mỹ), một trong những thành viên của nhóm chuyên gia tạo ra thuật toán mới, cho biết. "Ví dụ, nếu bạn đang định ngồi xuống, bạn sẽ không muốn con robot của mình kéo ghế ra khỏi mông bạn”.
Để tạo ra AI mới, nhóm các nhà nghiên cứu đã “đào tạo” cho nó bằng dữ liệu thu được từ 2 triệu video lấy trên website chia sẻ hình ảnh Flickr, bao gồm những cảnh khác nhau như bãi biển, sân golf, ga tàu lửa và những em bé sơ sinh tại bệnh viện. Những đoạn video này đều không có tiêu đề, nghĩa là chúng không được gắn thẻ với các thông tin có thể giúp AI hiểu được. Sau quá trình này, các nhà nghiên cứu bắt đầu đưa vào những tấm ảnh tĩnh và AI đã có thể tự tạo ra các đoạn video ngắn về những gì có thể xảy ra tiếp theo.
Để giúp AI tạo ra những đoạn phim chính xác hơn, nhóm chuyên gia đã sử dụng một phương pháp gọi là "adversarial networks” (mạng đối nghịch), trong đó bao gồm 1 mạng lưới thần kinh nhân tạo có nhiệm vụ tạo ra các video, trong khi mạng còn lại thì kiểm tra xem nó trông thật hay giả. Hai mạng lưới này bị khóa trong một cuộc chiến: bộ phận tạo video sẽ cố gắng cho ra đời những video tốt nhất để đánh lừa mạng còn lại, trong khi mạng “đối thủ” thì sẽ có cơ hội rèn luyện khả năng của nó trong việc phân biệt đâu là video thực sự.
Hiện tại, các video được tạo thành có độ phận giải thấp và chỉ có 32 khung hình, kéo dài trong hơn 1 giây. Nhưng nhìn chung thì vẫn có thể xem được và nội dung dự đoán hiển thị cũng phù hợp với hoàn cảnh của ảnh tĩnh: xe lửa di chuyển về phía trước theo đường thẳng, trong khi những đứa bé đang tự cấu mặt mình. Các nhà nghiên cứu cũng cho AI thử sức với việc dự đoán các tình huống trong video, nhưng kết quả không khả quan mấy.
Bên cạnh đó, video dự đoán tương lai được tạo thành tự ảnh tĩnh cho thấy AI vẫn còn kém rất xa con người và nó vẫn còn rất nhiều điều cần học hỏi. Chẳng hạn như thuật toán không nhận ra rằng nếu đoàn tàu đã rời khỏi ga thì nó cũng nên biến mất khỏi khung hình. Điều này xảy ra bởi AI không được trang bị kiến thức về các quy luật của thế giới, thứ thường được chúng ta gọi là "common sense” (trí khôn, suy nghĩ cơ bản). 2 triệu video tương đường với khoảng một bộ phim kéo dài 2 xuyên suốt 2 năm, đó là tất cả những dữ liệu được AI tiếp thu để hiểu được thế giới vận hành như thế nào. “Bấy nhiêu vẫn chưa đủ để so sánh với một đứa trẻ 10 tuổi”, Vondrick nói.
Điều đó cho thấy việc minh họa có thể đạt được thông qua sự kết hợp giữa Thị giác máy tính (computer vision) và máy học (machine learning), theo John Daugman tại Phòng thí nghiệm máy tính của Đại học Cambridge. Ông cho rằng khía cạnh then chốt là khả năng nhận ra có một cấu trúc nguyên nhân - kết quả xảy ra theo thời gian. “Các tác giả của nghiên cứu đã chứng minh rằng đó là những thứ cần phải học được”. Vondrick hiện đang mở rộng quy mô hệ thống để nó có thể tạo ra các video dài hơn. Dù cho rằng AI có thể sẽ không bao giờ có thể dự đoán chính xác những gì sẽ xảy ra, tuy nhiên nó có thể cho chúng ta thấy được cái gọi là tương lai thay thế.
Tham khảo: Newscientist