Làm thế nào Sora AI có thể tạo video "đẳng cấp" hơn so với các mô hình trước đây?

ND Minh Đức
20/2/2024 11:59Phản hồi: 84
Làm thế nào Sora AI có thể tạo video "đẳng cấp" hơn so với các mô hình trước đây?
Cách đây vài ngày OpenAI bất ngờ cho ra mắt AI tạo video từ text nhập vào khiến giới AI nói riêng và cả thế giới công nghệ nói chung "rúng động". Trên thực tế, việc tạo ra video bằng AI không quá lạ lẫm, nhưng tạo ra video từ những đoạn text như thuật toán Sora thì thực sự là một cột mốc cực kỳ đáng chú ý.

Bên dưới đây là đoạn video OpenAI cung cấp do Sora tạo ra với prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer. Mặc dù đây chỉ là bản thử nghiệm nhưng những cảnh mà Sora tạo ra đã là quá chân thực, khiến cho ranh giới giữa video quay bằng camera ngoài đời thật và video tạo ra ngày càng mong manh đi hơn nữa.



Vậy nguyên nhân vì sao đây là sự kiện chấn động, và cách hoạt động của Sora ra sao thì mời anh em tìm hiểu chung với mình.

AI tạo sinh làm được những gì trước giờ?




Sơ qua một chút, AI tạo sinh là một dạng AI có thể tạo ra nội dung, ý tưởng mới dưới dạng các cuộc trò chuyện, câu chuyện biểu diễn bằng văn bản, hình ảnh, video và âm thanh. Nó cố gắng bắt chước trí thông minh của con người như nhận dạng hình ảnh, xử lý ngôn ngữ tự nhiên (NLP) và dịch thuật ngôn ngữ.

Trong thế giới AI tạo sinh sẽ có các mô hình khác nhau, từ các mô hình hồi quy (sử dụng thông tin từ bước trước để tạo ra nội dung tiếp theo, thí dụ mạng nơ ron hồi quy RNN tạo văn bản từ một mô hình ngôn ngữ), cho tới mô hình tạo ảnh như diffusion. Các mô hình AI này xưa giờ đã có thể tạo văn bản từ văn bản, tạo hình ảnh từ văn bản, tạo hình ảnh từ hình ảnh và cả tạo video / ảnh động từ hình ảnh / video. Mỗi cái đều có điểm mạnh và giới hạn khác nhau.

Sora AI làm được gì?


Tương tự, Sora là một mô hình tạo sinh hoàn toàn mới và linh hoạt, cho phép tạo ra hình ảnh và video với các tỷ lệ khung hình, độ phân giải và thời lượng tùy theo ý muốn của người dùng. Phổ quát nhất, thì Sora kết hợp giữa kiến trúc diffusion (tạo ảnh) và kiến trúc transformer (xử lý các kiểu tác vụ NLP). Về khả năng, Sora AI có các tính năng:
  • Text-to-video: Như chúng ta đã thấy
  • Hình ảnh thành video: Mang lại sức sống cho hình ảnh tĩnh
  • Video-to-video: Thay đổi phong cách (màu, tương phản, ánh sáng, shadow,....) của video thành một cái gì đó khác
  • Kéo dài thời gian video: bản chất là play video xuôi, xong play ngược lại.
  • Tạo các vòng lặp mãi mãi: loop một video
  • Tạo hình ảnh tĩnh độ phân giải lên đến 2048 x 2048
  • Tạo video ở bất kỳ định dạng nào: Từ 1920 x 1080 đến 1080 x 1920 và các định dạng ở giữa.
  • Mô phỏng thế giới ảo: Giống như Minecraft và các game tương tự.
  • Tạo một video: Độ dài lên đến 1 phút với nhiều đoạn ngắn bên trong.

Sora AI khác biệt như thế nào so với các AI tạo sinh trước giờ?


Như đã nói ở trên, dùng AI để tạo ra video thì không mới. Nói nôm na, hãy tưởng tượng thế giới này là 1 nhà bếp. Các mô hình tạo video xưa giờ là một anh đầu bếp với khả năng nấu ăn theo cuốn sách công thức. Ở đây, video đầu ra chính là "món ăn" và thuật toán là "công thức nấu ăn". Các đầu bếp khi đó sẽ dùng những nguyên liệu đặc biệt (định dạng dữ liệu) và kỹ thuật nấu (kiến trúc của mô hình) để từ đó tạo ra các món ăn (video) từ món đơn giản như mì gói (video ngắn) tới các món phức tạp như mì ý sốt bò bằm (video với định dạng đặc biệt nào đó).

Đối với Sora, anh em cứ hình dung nó giống như một đầu bếp đẳng cấp hơn, hiểu được bản chất của nguyên liệu nấu ăn và hương vị món ăn. Với khả năng này, ông đầu bếp này không cần dùng công thức coi trên mạng hay trong sách dạy nấu ăn, mà sẽ sáng tạo ra món ăn mới. Anh đầu bếp này có thể linh hoạt sử dụng nguyên liệu (data) và kỹ thuật (kiến trúc của mô hình), từ đó tạo ra những đoạn video với chất lượng cao, nhiều tùy chọn.

Điểm độc đáo của Sora AI là gì?


Để nấu được món ngon, anh đầu bếp Sora AI đã có một bí quyết đặc biệt: chính là Spacetime Patches (tạm dịch là Các mảng Không - Thời gian).

Quảng cáo



Khái niệm Spacetime Patches được đề cập trong trong một nghiên cứu của Google DeepMind về NaVit và ViT (Vision Transformers), dựa trên một nghiên cứu khác hồi 2021 tên là An Image is Worth 16x16 Words (đây là một nghiên cứu rất nổi tiếng để giải quyết các bài toán về thị giác máy tính, lấy cảm hứng tới việc ứng dụng kiến trúc Transformer vào xử lý ngôn ngữ tự nhiên. Cái này dài và hay lắm, anh em nào muốn tìm hiểu thì nên đọc thêm ha)

1*FVJYaaIR7YyXoWl1GtCmDw.webp

Một cách nôm na, hình ảnh đầu vào đầu tiên sẽ được "băm" thành những mảng nhỏ hơn. Vision Transformers sẽ dùng một chuỗi các "mảng pixel" này để train cho mô hình nhận diện được những thứ trong hình ảnh, cuối cùng phân loại nó đâu là hình chó, đâu là hình mèo, trái cây,... thay vì phân loại bằng từ ngữ như mô hình language transformer. Đối với Vision Transformers, máy tính sẽ coi hình ảnh đầu vào được cấu thành từ các mảng các pixel và nó phụ thuộc vào độ phân giải của hình ảnh đầu vào cố định (dài x rộng x dày).

1*9KnKr--AxBIgV52Omnq-2w.webp

Tiếp theo, các mảng pixel này sẽ được xử lý bởi mạng nơ ron tích chập (CNN) để phân loại đối tượng. Nói thì đơn giản như thực ra, thuật toán phải trải qua các khâu tiền xử lý như trích xuất đặc điểm của các mảng dựa vào coi nó như ma trận rất lớn các pixel, sau đó làm các phép toán so sánh, nhân chia cộng trừ ma trận, rồi resize, padding này nọ để phát hiện viền vật thể, làm mờ, làm nét,.... Và nên nhớ, đây chỉ là 1 tấm hình mà đã xử lý cực như vậy, còn video là một chuỗi những frame hình thì lại càng phức tạp hơn.

Chí mạng hơn nữa, do bản chất của thuật toán như vậy nên cùng 1 bức ảnh đầu vào, nhưng xử lý 2 lần sẽ cho ra 2 bức ảnh khác nhau, luôn có sai khác giữa một số điểm ảnh được sinh ra sau mỗi lần tạo ảnh. Nên xưa giờ các video sinh ra do AI đều không ổn định, chính xác là không mượt. Anh em cứ thử coi 1 video mà AI tạo ra the cách cũ, liên tục bấm dừng lại sẽ thấy mỗi frame hình là 1 bức ảnh khác nhau chứ không mượt như SoraAI.

Quảng cáo



Nói cách khác, Vision Transformers bị phụ thuộc vào tập dữ liệu hình ảnh train đầu vào với tỷ lệ và kích thước cố định, nên đầu ra cũng bị giới hạn, lại cần phải tốn rất nhiều nguồn lực tiền xử lý hình ảnh.

1*P5-Gm0KaYA9Moia7MzlnLg.gif

Bằng cách tiếp cận tương tự như cách xử lý hình ảnh của NaViT, Sora AI chọn cách giữ cố định tỷ lệ và độ phân giải gốc của hình ảnh, đồng thời nó coi một video là "chuỗi của các mảng pixel". Việc "giữ cố định" này đóng vai trò quan trọng để nắm bắt được bản chất thật sự của dữ liệu hình ảnh, giúp cho mô hình có thể "hiểu" thế giới chính xác hơn, từ đó giúp Sora tạo ra được những video có độ chân thực rất cao.
1*QJ4eCG920fpYQoL3w-B7xA.webp

Phương pháp này giúp Sora có thể tạo một chuỗi các frame hình (bản chất tạo video) một cách đơn giản mà không mất nhiều nguồn lực, lại xử lý được chuyện lặp đi lặp lại tạo ảnh đơn dẫn tới sai khác mỗi lần tạo. Nói cách khác, Sora có thể đồng loạt xử lý một chuỗi các mảng mà không cần phải tiền xử lý lại. Chính sự "linh hoạt" này đảm bảo mọi phần của dữ liệu đều có vai trò ngang nhau trong việc giúp mô hình "hiểu", tương tự như trong nấu ăn, nguyên liệu nào cũng quan trọng vậy.

31db48c4-5df9-409b-8632-85d39196595b.jpeg.webp

Sau khi hiểu xong vật thể trong hình đó là cái gì bằng cách chia ra thành mảng không thời gian như trên, Sora hoàn toàn có thể áp thêm các mô phỏng nguyên tắc vật lý giống như đời thật cùng nhiều thuật toán khác để tạo nên các cảnh không gian 3 chiều nhất quán.

Sora AI cần phải được dạy như thế nào?


Chất lượng và sự đa dạng của dữ liệu đào tạo có vai trò rất quan trọng khi làm các mô hình AI tạo sinh. Các mô hình video hiện tại theo truyền thống được đào tạo dựa trên một bộ dữ liệu hạn chế hơn, thời lượng ngắn hơn và mục tiêu rất giới hạn do phải đảm bảo các "chuẩn" vốn bị giới hạn.

Đối với Sora, tập dữ liệu đưa vào sẽ thoải mái hơn, video hay hình ảnh ở độ phân giải nào, tỷ lệ ra sao, dài ngắn thế nào đều được. Dựa vào đó, nó sẽ tạo ra được nhiều thứ hơn. Thí dụ gần đây OpenAI nói nó tạo ra được cả thế giới trong Minecraft, tạo ra cả gameplay, rồi mô phỏng lại các cảnh quay được người ta tạo ra bằng Unreal hoặc Unity trong bộ data huấn luyện để nắm hiểu được các góc máy, các phong cách video.

Việc dạy "toàn diện" như thế cho phép Sora có thể linh động trong "hiểu biết" và tạo ra nội dung video cũng vừa đa dạng định dạng, vừa có chất lượng hình ảnh cao. Và đây chính xác là cách tiếp cận mà các mô hình ngôn ngữ được dạy bằng đa dạng các bộ dữ liệu văn bản, chỉ khác là thay vì dạy bằng text thì bây giờ người ta dạy Sora bằng nội dung hình ảnh.

1*U1DMalQ43Nd42N11gjOviA.webp

Nhờ vào việc sử dụng nguyên lý train mô hình tương tự như NaViT, Sora AI cũng được train bằng cách gom đóng gói nhiều mảng lại với nahu thành một chuỗi đơn, sau đó tận dụng các mảng không thời gian để tạo ra video ngon hơn. Cách tiếp cận này giúp nó "học giỏi" hơn từ một tập dữ liệu rộng hơn, qua đó cải thiện khả năng tạo video với độ trung thực cao mà không cần tính toán phức tạp như các mô hình trước giờ.

Khả năng hiểu được thế giới vật lý và không gian 3 chiều


Việc tái tạo video với không gian và các vật thể không bị biến dạng chính là điểm ăn tiền của Sora AI khi xem các đoạn demo của ní. Bằng cách đào tạo trước loạt các dữ liệu video mà không cần điều chỉnh hoặc xử lý trước, Sora có thể học được cách mô hình hóa thế giới vật lý với độ chính xác rất cao, tương tự như những hình ảnh đầu vào mà nó được dạy ban đầu.

Với khả năng đó, Sora có thể tạo ra những thế giới ảo và tất nhiên là video với các vật thể, nhân vật chuyển động trong đó, tương tác với nahu trong không gian 3 chiều ảo. Nói cách khác, đoạn video mà chúng ta xem tạo ra bởi Sora chỉ là một góc nhìn trong thế giới mà nó đã tạo ra, và đáng chú ý hơn, nó tạo ra vô hạn các thế giới như vậy. Ngâm cứu tới đây mình còn đang tự hỏi là có khi mình có sống trong thế giới ảo như trong phim không trời.

Tham khảo OpenAI RS
84 bình luận
Chia sẻ

Xu hướng

Đọc thoáng qua tưởng Sora AOI tạo video..
Dat365
ĐẠI BÀNG
2 tháng
@xecatang lạy thánh 😁
@AZwarrior Mình cũng thấy các video của Sora cho cảm xúc chân thật và “rúng động” hơn, như bài viết đã nói 🤣🤣🤣
@xecatang Phải đăng nhập để thả haha cho thánh, vậy thánh cũng nghĩ ra được. : ))
yamaruan
ĐẠI BÀNG
2 tháng
@shininglife Sora là 1 tượng đài, chấm hết.
Ai biết Sora Aoi giơ tay =))
Jala
ĐẠI BÀNG
2 tháng
@AZwarrior "Làm thế nào Sora AI có thể tạo video "đẳng cấp" hơn so với các mô hình trước đây?"
Trả lời: Đó là nhờ các đoạn mã.
@Jala mã này à
XS-2271 --- KA-2151 --- KA-2189 --- ONED-293 --- ONED-539
@AZwarrior saved
E này đa tài thật
ra2-1641-1514861343.jpg
Hanhsisken
ĐẠI BÀNG
2 tháng
@Tech Man dư chữ O
thanh1142
ĐẠI BÀNG
2 tháng
“Ní” là gì vậy bà con?
@thanh1142 Là Nị đó!
Nhái tên giống siri chứ vê chức năng thì thua xa
Bài hơi dài nhưng hay, dành cho dân coding đọc thấy thấm. Đúng là lập trình đã đi rất xa rồi, thán phục những Nhà khoa học / Kiến trúc sư mô hình học, thuật toán học. Còn lâu AI mới có thể làm được điều này, đó là suy nghĩ vĩ mô, vi mô, sáng tạo vô hạn.
@williamcuong282 Sau khi ra cái AI này, bản thân mới ngấm 1 phần lời cảnh báo của Musk về AI.
@williamcuong282 chủ đề này thuộc về khoa học máy tính rồi chứ ko phải coding thông thường.
@Methylamine Nhưng việc biến Mô hình, thuật toán trên giấy / trên các phần mềm ảnh - video máy tính cơ bản là code, là 1-0, vẫn là lập trình. Giống như bạn sài Photoshop / Final Cut làm ảnh phim thì có vẻ như đó là giao diện. Nhưng bản chất chính app đó là lập trình "if...then..." nhận input, kẹp điều kiện, cho ra output.
fedora_
ĐẠI BÀNG
2 tháng
Vẫn mong lắm 1 vài dòng code để giải thích sinh động hơn … chứ đọc lý thuyết không thì trừu tượng quá.
nsmks94
ĐẠI BÀNG
2 tháng
@fedora_ Bởi học AI hay công nghệ lõi nói chung là nặng về lý thuyết... Còn chưa gì đã lập trình thì chỉ là phần ngọn... Lý thuyết, mô hình đấy nó dùng framework, ngôn ngữ nào chả được...mấy cái đấy thay như thay áo, chạy theo thấy mệt
nsmks94
ĐẠI BÀNG
2 tháng
@fedora_ Còn diễn giải lý thuyết thì dài lắm... Trong bài có trích dẫn bài báo khoa học 'An Image is Worth 16x16 Word' hay từ khóa Spacetime Patches ...cứ thế tự tìm hiểu thôi.
@fedora_ code mới khó hình dung đó bạn 😆
fedora_
ĐẠI BÀNG
2 tháng
@shininglife Hồi trước mình tìm hiểu về Machine learning, để chắc ăn học 1 hiểu 10, mình ngồi ôn xác suất thống kê nổ đom đóm. Khi vô code gõ có mấy dòng thì xong bài regression, decision tree, random forest … giờ thì nhìn code rồi liếc qua lý thuyết thấy dễ ăn hơn.
Mình thấy ở nước ngoài người ta hay làm thực hành để thu hút học sinh rồi mới dẫn vô lý thuyết để bài học sinh động hơn.
Vì vậy mình mới mong có 1 chút code, không quan trọng ngôn ngữ, để có thể thử vận hành, nếu thấy hay và hứng thú thì mới có động lực đọc lý thuyết.
Nhưng nếu bạn có khả năng tiếp thu tốt từ lý thuyết , thì vẫn nên đi từ lý thuyết rồi mới đến thực hành như vậy giảm nhiều sai xót.
@fedora_ do bài hơi nhiều chữ chứ mục đích là giải thích cái phương hướng và cách thức. Giống như khi code 1 hàm phức tạp thì có dạng code pseudocode ấy, mục đích là giúp dễ nắm bắt được logic. Chứ đưa code trước thì đọc sao mà hiểu :|
Cách bạn hiểu mình có thể hiểu là học từ example rồi mới qua lý thuyết nó cũng đúng 1 phần, nhưng dù thuộc tip nào hay là học món gì thì cũng phải qua bài giới thiệu tổng quan, phương hương hay cách thức trước rồi mới vừa ví dụ vừa learn từng phần. Bạn có thể tham khảo bất kì 1 site document, learning về gì mà xem; có phải mấy topic đầu đều thế không :|
Vậy chính xác là nó tạo từng frame & ghép lại thành video, chứ ko phải như mình nghĩ là nó sẽ tạo các 3D model & ghép vào không gian 😁
@noctunalguy Chắc chưa đủ tài nguyên phần cứng làm: tạo con mèo 3D, tạo người 3D, tạo các object khác, rồi tạo ánh sáng, đổ bóng, blend mọi thứ lại với nhau...chỉ nói thôi mà đã muốn cháy card màn hình rồi :D
@lhdtt Chờ Nvidia có thêm cải tiến công nghệ + chi phí hợp lý thôi, chứ tương lai thật sự của bọn AI này nó phải như mức render cỡ game ấy thì mới có giá trị với ngành media/production vì họ cần angle & tinh chỉnh chi tiết hơn :D
Ông Google toàn publish nghiên cứu cho thằng khác dùng. Trong khi OpenAI thì chả open cái gì như lời hứa mõm ban đầu mà mang đi bán kiếm xèng cả thôi
Cười vô mặt
dat225
TÍCH CỰC
2 tháng
@klaxon Cụ đây hơn tuổi cháu đấy
bossbom
ĐẠI BÀNG
2 tháng
@BlackMan00x
Cười vô mặt
1708082377913.jpg
@pisa Bậy nào bác. Tôi mới thấy có luật mã nguồn mở chứ chưa thấy có luật cho nghiên cứu bao giờ
@bossbom Xin cái link bác
tới 1 ngày nào đó ko xa việc tạo ra thế giới ảo ko giới hạn rồi kết nối được với não bộ nhờ chip thì những viễn tưởng chơi game trong thực tại ảo như trong Black Mirror không còn xa.
Đăng bài thì ghi cái nguồn tư liệu vào
maisonhai3
ĐẠI BÀNG
2 tháng
Có ai nhận ra, con mèo có 2 cái chân trái không nhờ???
@maisonhai3 có mình nè, mấy vid sora tạo ra thi thoảng vẫn có lỗi đó.

Ví như như vid này, bà già thổi nến nhìn rất giả (thổi nến nhưng lửa ko động đậy)


Vid này giây thứ 16 bị lỗi chân:


vid này cái thìa tự xuất hiện và tự biến mất:
@maisonhai3 con mèo có 2 chân trái trước, đó là dấu hiệu để sau này OpenAI xác định đó là video do AI tạo.

nhớ ngày xưa xem phim Matrix, khi phát hiện "thực tế" bị lỗi lặp (Déjà vu) => có sự mất ổn định dẫn đến sụp đổ "thực tế"!
chắc đến cuối năm nó tạo ra dc 1 flim điện ảnh luôn . Rồi vài năm nó tạo ra dc 1 thế giới ảo đủ cho người chơi không thể nào phá đảo dc nữa quá khũng khiếp ,
nguyenha11
ĐẠI BÀNG
2 tháng
tên nghe như idol sora aoi bên Nhật ấy nhỉ.
future3007
ĐẠI BÀNG
2 tháng
@nguyenha11 mình đọc lướt qua cũng nghĩ đến Sora Aoi
Cười ra nước mắt
Làm sao để tạo thử được anh em nhỉ? Mình có tk chat GPT pro mà ko biết vào đâu để tạo video. Tks anh em.
@nguyenquanglinhsptn nó mới khoe thôi, chưa cho người dùng đăng kí đâu.
Đợi con " tinh tướng AI "
@thuong911 tinh tướng AI là đại diện cho loài người =]], hiện thân của thần linh, bọn nào láo nháo chê Apple hay nói xâu thằng hói là khóa nick ngay lập tức
"Ngâm cứu tới đây mình còn đang tự hỏi là có khi mình có sống trong thế giới ảo như trong phim không trời." , 1 trò chơi mà đấng tạo sinh tạo ra để "vui chơi và train tiếp các mô hình mới", Budda ngài thấy được điều này chỉ dạy cho chúng ta cách exit game.
mình có bằng lái xe máy A1 từ năm 2001 đây mà đọc qua chả hiểu mẹ gì.
@Methylamine Ko có bằng lái máy bay mà đòi hiểu 😆))

Xu hướng

Bài mới









  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2024 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019