CES 2025

CES 2025


AI vẽ không nổi bàn tay hoàn hảo: Rốt cuộc trí thông minh nhân tạo cũng như đứa trẻ đang đi học

P.W
5/4/2023 10:29Phản hồi: 64
AI vẽ không nổi bàn tay hoàn hảo: Rốt cuộc trí thông minh nhân tạo cũng như đứa trẻ đang đi học
Những anh em đã có thời gian nghịch thử những công nghệ tạo tranh ảnh bằng AI, từ Bing Chat đến Adobe Firefly, từ Midjourney đến những mô hình dựa trên Stable Diffusion đều sẽ nhận ra, thuật toán trí thông minh nhân tạo vẽ bàn tay hay những chi tiết tứ chi của con người cực kỳ tệ. Lúc thì thiếu ngón, lúc thì thừa ngón, thậm chí có lúc còn sai hoàn toàn so với giải phẫu con người. Vấn đề này khiến nhiều anh em nản với những công cụ AI.

Rõ ràng vấn đề này mô tả những chướng ngại cho anh em tạo ra những tấm hình ưng ý nhất, dù đã tạo ra những cụm từ khóa vô cùng chi tiết, quản lý toàn bộ mọi khía cạnh trong tấm hình mà anh em muốn tạo ra. Nhưng ở một khía cạnh khác, điều này cũng mô tả hoàn hảo quá trình nghiên cứu AI thực tế hoàn toàn không hoàn hảo và cao xa khó hiểu như anh em nghĩ.



Suy cho cùng, đối với cách huấn luyện thuật toán mô hình ngôn ngữ nói riêng và những thuật toán machine learning nói chung giờ đều hoạt động hệt như những đứa trẻ đang đi học, "người lớn" dạy gì thì biết vậy, chứ không thể biết nhiều hơn được.

Để chứng minh luận điểm ấy, trong bài viết này mình sẽ dùng toàn bộ hình minh họa được làm từ Stable Diffusion, với nhiều mô hình khác nhau được huấn luyện theo từng nhu cầu cụ thể.


Với từ khóa tạm dịch sang tiếng Việt là “Lionel Messi cosplay John Wick ôm World Cup”, anh em có thể thấy rất rõ ràng bàn tay vừa sai giải phẫu, vừa xấu, trông rất dị dạng. Nhưng ở khía cạnh khác thì chi tiết gương mặt thì khác biệt 180 độ về mức độ chân thực:

Tinhte_AI2.jpg

Đó chính là bản chất cách những mô hình AI được huấn luyện. Nhờ quá trình này, chúng rất giỏi trong việc bắt chước những phong cách mỹ thuật, hình ảnh và tạo hình khác nhau dựa vào gói dữ liệu khổng lồ mà con người dùng để huấn luyện thuật toán.

Ví dụ của việc AI bắt chước phong cách có sẵn rất giỏi: “Amelia Earhart vẽ theo phong cách phim Pixar, phía sau là những chiếc máy bay”:

Tinhte_AI8.jpg

Anh em hãy tưởng tượng như thế này. Một thuật toán trí thông minh nhân tạo cũng giống một đứa trẻ, lúc mới sinh ra không biết gì, phải đi học. Và lượng kiến thức sách giáo khoa mà “đứa trẻ” này học được giống hệt như một viện bảo tàng. “Đứa trẻ” của chúng ta bị nhốt trong cái viện bảo tàng ấy từ lúc mới sinh, chỉ có ngần ấy kiến thức để tiếp thu.

Tinhte_AI3.jpg

Cách học của AI cũng giống hệt như trẻ em đi học, tức là nhận diện kiểu mẫu (pattern). Nhưng có một sự khác biệt cơ bản. Bất kỳ con người nào cũng vậy, trong quá trình trưởng thành nhìn thấy hàng trăm, hàng nghìn đôi bàn tay ở những tư thế khác nhau, vị trí khác nhau. Con người học được “kiểu mẫu” nhờ việc trải nghiệm với thế giới thực. Dần dần chỉ cần liếc nhanh một bức hình, chúng ta cũng có thể nhận diện bàn tay.

Quảng cáo



Còn với AI, cũng là nhận diện mẫu hình, nhưng hãy nhìn lại phép so sánh “đứa trẻ bị nhốt trong viện bảo tàng” ở trên. AI có hàng terabyte dữ liệu để học hành, nhưng nó học đúng kiểu máy móc, những tấm hình đều có chú thích về nội dung trong hình ảnh. Lấy ví dụ gương mặt con người hai mắt hai tai một mũi một mồm, và kích thước hình dạng từng chi tiết này ra sao.

Hay một ví dụ đơn giản hơn là trái táo, sau khi nhìn hàng vạn lần những trái táo khác nhau, AI rồi cũng sẽ biết trái táo trông như thế nào:

Tinhte_AI5.jpg

Gương mặt con người cũng được AI vẽ theo cách y hệt, nhận diện mẫu qua hàng vạn tấm hình, để đánh giá rồi nội suy vị trí mũi để ở đâu, mắt một mí hay hai mí, lông mi “vẽ” ra sao, tóc đến chỗ nào trên gương mặt thì không được “mọc” nữa:

Tinhte_AI4.jpg

Là con người, muốn hiểu rõ hơn về một sự vật, chúng ta có thể xoay ngang xoay dọc sự vật đó để hiểu tường tận từng góc cạnh. AI thì không, nó chỉ có thể học kiểu mẫu từ những tấm hình có sẵn.

Quảng cáo



Cũng nhờ việc nhận diện hình mẫu, những họa sỹ có thể vẽ bàn tay cực kỳ chi tiết và chính xác, khi kèm thêm kiến thức họ có được về giải phẫu cơ thể người. Họa sỹ Stan Prokopenko mô tả quá trình như thế này: “Bạn sẽ chia bàn tay thành những khối hình lớn. Khối lớn nhất là lòng bàn tay. Rồi tính đến những ngón tay, trrong khi đó đánh giá xem đang vẽ mu hay lòng bàn tay. Kế đến là độ dày của bàn tay và những ngón tay.”

AI thì khác. Nó không thể chia bàn tay con người thành những phần khác nhau như vậy, đơn giản vì các nhà nghiên cứu AI không dạy nó làm điều đó. Lấy ví dụ một tấm hình bàn tay mà mình mất đâu đó 20 lần thử sai, chỉnh đi chỉnh lại mới tạo ra được:

Tinhte_AI1.jpg

Chi tiết không hoàn hảo một chút nào, nhìn hơi ghê là khác, vì ngón to ngón bé. Nhưng AI đã hoàn thành rất tốt nhiệm vụ mà nó được huấn luyện để làm, đó là tái tạo hoàn hảo bề mặt vật thể khi nó “học” chi tiết những bàn tay trong gói dữ liệu. Vị trí và giải phẫu thì sai hoàn toàn, nhưng bề mặt của khớp và đầu ngón tay, hay nếp nhăn trên da thì không chê vào đâu được. Nói “không chê vào đâu được” đơn giản chỉ vì AI cũng chỉ có nhận thức về từ khóa “bàn tay con người” đến mức ấy, không hơn.

Nói cách khác, AI biết mọi thứ TRÔNG NHƯ THẾ NÀO, chứ không biết mọi thứ HOẠT ĐỘNG RA SAO. Nó không thể biết được hệ thống xương khớp ngón tay con người có những giới hạn gì trong khi vận động, chỉ có thể uốn theo những hướng và giới hạn cụ thể.

Tinhte_AI6.jpg

Nhờ việc nhận diện hình khối theo kiểu máy móc như vậy, nên việc tạo ra những tấm hình với vật thể cố định, cố định theo ý nghĩa không tạo ra những dịch chuyển mà AI không thể học được, ví dụ căn nhà hay chiếc ô tô, AI làm rất tốt. Nhưng khi đụng đến những chi tiết không được học “đến nơi đến chốn”, thì AI tỏ rõ những nhược điểm.

Cái này thì họa sỹ không giải thích được, nên nhà nghiên cứu mỹ thuật Roy Shilkrot và nghiên cứu sinh tự động hóa Yilun Du có mặt để giải thích cho mọi người: Có ba lý do khiến AI gặp trở ngại trong mỗi một việc là vẽ bàn tay con người. Thứ nhất là khối lượng dữ liệu cũng như chất lượng của thư viện hình ảnh tay người vừa thấp vừa yêu cầu AI tạo ra sai số rất nhỏ. Lượng dữ liệu hình ảnh gương mặt thì quá nhiều, còn bàn tay thì lại quá ít, tức là AI sẽ có ít kiến thức để học hơn so với những dạng hình mẫu khác.

Tinhte_AI7.jpg

Lý do thứ hai là cách con người mô tả hình ảnh, ví von là “chú thích trong viện bảo tàng”, cũng chẳng đủ chi tiết. Những tấm hình để AI học thường chỉ có từ khóa rất đơn giản: Bàn tay, bàn tay cầm điện thoại, bàn tay cầm sách, v.v… Để AI hiểu rõ ràng tay người hoạt động ra sao, thì cần rất nhiều những thông số khác: Ngón cái đặt ở đâu, ngón tay khép lại như thế nào, v.v… Sự đa dạng trong động tác của bàn tay so với gương mặt, kết hợp với sự thiếu hụt dữ liệu huấn luyện AI về bàn tay con người đã tạo ra tình trạng chúng ta đang phải đối mặt khi tạo hình bằng mô hình ngôn ngữ.

Lý do thứ ba, mỗi hình ảnh bàn tay lại khác nhau. Vì góc nhìn, AI đôi khi chỉ có thể thấy hai ngón tay, ba ngón, hoặc chẳng có ngón nào khi bàn tay nắm lại. Thật ra không riêng gì bàn tay, mà động vật đôi khi cũng vậy. Những phiên bản mô hình trước đó của Stable Diffusion cũng đã tạo ra những tấm hình trong thư viện dữ liệu học đôi khi mô tả những chú chó chú mèo chỉ lộ 2 hoặc 3 chân, khiến AI không hiểu.

Tinhte_AI11.jpg

Giải thích cặn kẽ hơn, quá nhiều khác biệt trong từng tấm hình khi thuật toán AI học, kết hợp với thiên kiến (bias) của AI rất khác con người.

Yếu tố thiên lệch này cực kỳ quan trọng. Chính nhờ thiên kiến, chúng ta mới biết tay người có 5 ngón, có thể cử động ra sao, hoặc biết rõ ràng một chú chó hay chú ngựa "bình thường" có đủ 4 chân. AI không có thiên kiến chủ quan như vậy. Những mô hình ngôn ngữ giống hệt như một đứa trẻ ngây thơ không biết gì. Gọi là học vẹt thì cũng không hẳn là chính xác, nhưng thực tế cách huấn luyện thuật toán bây giờ thì không khác gì mấy. Mọi thứ AI tạo ra đều là “remix” tác phẩm của con người, dù là mỹ thuật, ngôn ngữ hay âm nhạc.

Tinhte_AI12.jpg

Đương nhiên cũng có cách cải thiện tình trạng vẽ bàn tay kỳ quặc của AI, bằng cách tiếp tục huấn luyện những mô hình để chúng vận hành hoàn hảo và chuyên biệt nhất có thể. Midjourney v5 mới ra mắt cách đây ít lâu là một ví dụ, tay chí ít đã đủ 5 ngon, nhưng vẫn chưa đạt được yêu cầu của người dùng, nhất là khi gõ vào những cụm từ khóa chi tiết để yêu cầu AI vẽ bàn tay làm một hành động gì đó:

Tinhte_AI10.jpg

Chỉ từ một ví dụ AI tạo tranh vẽ không tái tạo nổi bàn tay, hoàn toàn có thể suy rộng ra hai vấn đề với tình hình ngành phát triển trí thông minh nhân tạo hiện giờ. Vấn đề thứ nhất, AI sẽ chỉ hiểu về “thế giới quan” dựa hoàn toàn vào mức độ chi tiết của mỗi dạng dữ liệu mà con người, các nhà nghiên cứu tạo ra và đưa cho thuật toán tự học. Cái gì nhiều chi tiết, dữ liệu đồ sộ thì AI cũng sẽ tái tạo lại được với độ chi tiết và chân thực rất cao.

Vấn đề thứ hai là thiên kiến của con người vô tình ảnh hưởng trực tiếp tới mức độ chính xác của AI. Chúng ta hiểu bàn tay trông như thế nào, biết bàn tay cử động ra sao, nhưng lại không tả chi tiết cho AI. Tương tự như vậy là những thiên lệch khác, ví dụ những tình trạng AI viết những câu chữ phân biệt đối xử thời gian gần đây. Nó cũng học được những từ ngữ đó từ chính thiên kiến của con người, khi những gói dữ liệu bao gồm cả câu từ trên các mạng xã hội.

Tinhte_AI9.jpg

Một giải pháp được nghiên cứu sinh Yilun Du đưa ra, chính là cách ChatGPT hay Bing Chat sử dụng để cân bằng sự chi tiết của những câu trả lời do mô hình ngôn ngữ tạo ra. Cũng là dựa trên dữ liệu văn bản con người tạo ra, nhưng mô hình có thể được tinh chỉnh nhờ chính phản hồi của những người dùng thử nghiệm. Cái nào tốt, cái nào tệ hoàn toàn có thể được chúng ta đánh giá cụ thể. Nhờ đó, những câu chữ khi anh em dùng Bing Chat hay ChatGPT cực kỳ chân thực, hệt như người gõ ra vậy.

Tinhte_AI13.jpg

Nhưng để làm được điều này, chí ít là trong phạm vi lấy ý kiến người dùng đánh giá chất lượng AI vẽ bàn tay con người, cần rất nhiều công sức. Đấy là còn chưa tính tới những sai khác trong giải phẫu ở những bộ phận khác trên cơ thể. Cơ bụng của con người, như trong hình minh họa ở trên, là một ví dụ.
64 bình luận
Chia sẻ

Xu hướng

Bài dài quá mình đọc không có hết 😔
Tôi tin em!
@Cuong Nb Tin là đụ dùi
@Cuong Nb V3 k vẽ được chi tiết mặt như mắt k đối xứng
V4 đã vẽ mặt đẹp, k vẽ được tay và ngón tay chuẩn. Mod xài từ “giải phẩu” dịch sát nghĩa quá 🤣.
V5 đã vẽ được tay và ngón tay ổn cho 1 số tấm. Có tỉ lệ vẽ đúng chuẩn và không nhé.
V6 dự sẽ hoàn thiện hơn nữa. Ai đang tiến bộ rõ rệt. Chỉ mới từ 11/2022 thôi.
Ah mình đang nói về mid journey nhé.
Bản thân mình cài gói $30 của nó và dùng prompt hằng ngày nên nhận ra rất rõ việc Ai tiến bộ.
Còn ae nào dùng stable diffusion thì mún render ra đẹp thì cần rành về kỹ thuật rất nhiều cho tấm ảnh tương tự với MJ.
@Cuong Nb Đứa trẻ nào rồi cũng sẽ lớn trưởng thành rồi biến thành cáo già .
Đợi đi mấy bạn , ngày nào đó sẽ tới thôi , dĩ nhiên AI hiện tại như đứa con nít trong mắt hội họa vẽ bàn tay nhưng rồi sẽ khác trong thời gian tới thôi .
Nhân tạo và chúa tạo. Cái nào sẽ hơn. Hồ đồ
@Lynch Pencil phật còn ra đời trước chúa tận 500 năm
@qujl0p21 Chúa thì cũng là con người thôi mà
@toilachi9 Người Ai Cập xuất hiện trước chúa 3000 năm. Người Việt cổ xuất hiện trước chúa 2000 năm.
@qujl0p21 Chúa là do con người tạo ra
Tóm tắt: dữ liệu huấn luyện Al về khuôn mặt nhiều hơn dữ liệu về bàn tay người!cái gì Al được học nhiều thì nó làm tốt,cái gì học ít thì nó làm chưa tốt!
Tóm lại là chưa đủ dữ liệu để cho nó học phải ko?

Thứ 1. Đôi bàn tay là bộ phận linh hoạt nhất của cơ thể, cũng là nơi gắn với nhiều vật dụng bên ngoài nhất nên lượng dữ liệu sẽ lớn hơn.

Thứ 2. 5 ngón tay là số lẻ, các ngón tay cũng dài ngắn khác nhau. Việc ko đối xứng cũng tạo ra nhiều tổ hợp dữ liệu cần phải học hơn

Thứ 3. Hiểu như ông hoạ sỹ gì đấy nói hay đa số mọi người hiểu là ko đúng. Đừng tưởng AI nó "nghĩ" giống con người.
Lúc đầu người ta nghiên cứu bộ não, tạo ra AI để hiểu bộ não, bằng cách cố gắng mô phỏng bộ não bằng các phép toán. Kết quả Sau cùng là outstanding. Lúc này, ngoài việc ko hiểu bộ não ra, lại còn phải cố hiểu xem AI nó hoạt động thế nào nữa 😁

Thứ 4. Việc dạy cho AI theo kiểu pattern là hoàn toàn đúng. Nó giống như cách truyền đạo trong kinh phật, kinh thánh vậy. Thường là kể ra những câu chuyện để người nghe tự giác ngộ. Như vậy sẽ ko bị ảnh hưởng, bị bias bởi người nói. Cũng như bị giới hạn bởi ngôn từ.
Việc giải thích logic hoạt động của bàn tay là ko nên và ko cần thiết, đứa trẻ con nó có hiểu logic đó đâu 😁
@BlackMan00x Ý thứ nhất củ bác hình như chưa đúng. Về việc bàn tay linh hoạt thì đúng. Nhưng “lượng dữ liệu lớn hơn” không đúng với bài viết. Bài viết nói là lượng dữ liệu về đôi tay không những ít mà còn ít sự mô tả chi tiết về các tư thế của đôi tay…. Tức là như bác nói, có nhiều tổ hợp để học nhưng lại ít dữ liệu đáp ứng đủ để nó học các tổ hợp đó.
Người vẽ còn ngán vẽ tay nữa chứ nói chi AI
@tran trunganh nếu như nói khó thì t thấy cặp mắt là khó nhất để vẽ cho ra "hồn"
nhưng ai làm rất tốt điều này
@tran trunganh Thật, tôi đố các ông ngồi vẽ bàn tay sao cho nó real đấy. Mà các ông đã thấy biết bao lần
Cười vô mặt
K hẳn. Là con người khái quát được vấn đề còn Ai thì ko.
Bàn tay thôn tin quan trọng nhất vs con người là 5 ngón vậy là thông tin đó được khái quát đầu tiên, dù bạn có vẽ bằng mấy cái gạch thôi vẫn đủ 5 ngón.
Ai thì nó chọn các tham số khác để khái quát, có thể là độ chi tiết của ngón thay vì số lượng, bố cục bàn tay.
Nhớ hồi lúc nhỏ có xem 1 cái bộ phim tài liệu nói về việc vẽ bàn tay trong phim hoạt hình, người ta nói vẽ bàn tay rất khó, cho nên phim hoạt hình nhân vật chỉ có 3 hay 4 ngón tay là vì vậy. Người vẽ còn không xong, nói chi AI.
@HuynhNgLe Doremon chỉ có hình tròn là vẽ dễ nhất.
Gõ captcha bao năm mà bot vẫn k học đc
@llllyllllr Tại vì người ta thiết kế ra nó để chống Bot. Nhưng mà AI nó cũng detect ra hết rồi chẳng qua không publish rộng rãi thôi, bây giờ người ta phải kết hợp nhiều giải pháp để detect Bot.
@xgen Captcha cũng là cách để training bot mà thím
Đó là cái chưa hoàn thiện của AI, nó sẽ được fix trong thời gian tới thôi, họ sẽ cung cấp bộ dữ liệu các tư thế của 2 bàn tay và nó học nhanh thôi.
Đúng là tay khó hơn mặt.
Như hình này nhìn lôm côm nhưng là bàn tay thật. Nếu là họa sĩ vẽ y hệt thì ta thấy nó "dại" ngay chứ chưa nói AI
20230405_211727.jpg
Trừ mấy bạn học Mỹ thuật còn lại cho dù từng học vẽ. Ông nào chê AI vẽ xấu bàn tay thử vẽ khối 3D xem. Học 10 năm may ra mới vẽ nổi bàn tay 3D như thật nói gì AI mới học vài năm.
@NgoHongMinh9981 :]]
@NgoHongMinh9981 Giờ mới biết vẽ bàn tay là khó nhất 🤣
@vicktorbui Bởi vậy phim hoạt hình thường vẽ nhân vật chỉ có 4 ngón tay.
@NgoHongMinh9981 Chuẩn ông nội nào không học mà vẽ tay các góc chuẩn thử xem
Được cái AI nó vẽ bưởi rất là đẹp 😁
@HaiChin Vì chỗ đó quá dễ không có nhiều pattern
@HaiChin cho xin vài tấm hình minh hoạ 😆
@Nakamoto_Nat
Cười vô mặt
Mấy cái khó này phải để Apple ra tay
@tinhdg Thôi. Nhạt vừa thôi. Topic nào cũng cố kéo vào gây war kéo comment. Ít ra cũng phải đầu tư chai mắm lọ muối cho nó bớt nhạt đi.
@vicktorbui Làm đc như Apple ko mà chê
@Cơm nguội Ăn cơm nguội nhiều nên ko có kỹ năng đọc hiểu à 😆
A6_YoonA
TÍCH CỰC
2 năm
Vấn đề là máy móc khả năng tự học tốt hơn con người, người nghỉ chứ máy không nghỉ, sớm để thấy cách AI đi vào cuộc sống thay đổi công việc của con người, như cách các loại máy công nghiệp đã từng làm. Mình dự đoán 2025-2030 sẽ có nhiều công việc mang tính công thức ko quá nhiều sáng tạo sẽ bị thay thế nhiều, Từ cần 10 người thì giờ cần 2-3 người + AI 😃
@A6_YoonA Chưa cần đến 10 năm đâu bác. Hiện tại đã bắt đầu rồi.
Mấy hôm nay lùm xùm vụ dùng AI tạo tin fake, giờ cố đưa thuật toán “lỗi” vào AI ko vẽ nổi 1 cái bàn tay con người, để che lấp lại cái sự nguy hiểm của nó 😤. Thế giới này thật nguy hiểm hơn tôi tưởng.
Chưa đủ dữ liệu để học.
Chưa đúng description.
Chưa chuẩn hóa dữ liệu (bị che khuất, mập mờ, ...)

Khi nào đủ sẽ vẽ đẹp hơn.

Đủ là đủ thế nào. Dữ liệu 2D sẽ gắn với 3D. Các môn hình explainable. Khi đó hy vọng kết quả sẽ xịn hơn
AI nào vẽ presentation ổn nhỉ mấy bác?
Mình upload 1 file word lên và yêu cầu chuyển sang nội dung bằng 20 slide chẳng hạn
Không sao…mình sửa tay đc 😆

Xu hướng

Bài mới








  • Chịu trách nhiệm nội dung: Trần Mạnh Hiệp
  • © 2025 Công ty Cổ phần MXH Tinh Tế
  • Địa chỉ: Số 70 Bà Huyện Thanh Quan, P. Võ Thị Sáu, Quận 3, TPHCM
  • Số điện thoại: 02822460095
  • MST: 0313255119
  • Giấy phép thiết lập MXH số 11/GP-BTTTT, Ký ngày: 08/01/2019