Những anh em đã có thời gian nghịch thử những công nghệ tạo tranh ảnh bằng AI, từ Bing Chat đến Adobe Firefly, từ Midjourney đến những mô hình dựa trên Stable Diffusion đều sẽ nhận ra, thuật toán trí thông minh nhân tạo vẽ bàn tay hay những chi tiết tứ chi của con người cực kỳ tệ. Lúc thì thiếu ngón, lúc thì thừa ngón, thậm chí có lúc còn sai hoàn toàn so với giải phẫu con người. Vấn đề này khiến nhiều anh em nản với những công cụ AI.
Rõ ràng vấn đề này mô tả những chướng ngại cho anh em tạo ra những tấm hình ưng ý nhất, dù đã tạo ra những cụm từ khóa vô cùng chi tiết, quản lý toàn bộ mọi khía cạnh trong tấm hình mà anh em muốn tạo ra. Nhưng ở một khía cạnh khác, điều này cũng mô tả hoàn hảo quá trình nghiên cứu AI thực tế hoàn toàn không hoàn hảo và cao xa khó hiểu như anh em nghĩ.
Suy cho cùng, đối với cách huấn luyện thuật toán mô hình ngôn ngữ nói riêng và những thuật toán machine learning nói chung giờ đều hoạt động hệt như những đứa trẻ đang đi học, "người lớn" dạy gì thì biết vậy, chứ không thể biết nhiều hơn được.
Để chứng minh luận điểm ấy, trong bài viết này mình sẽ dùng toàn bộ hình minh họa được làm từ Stable Diffusion, với nhiều mô hình khác nhau được huấn luyện theo từng nhu cầu cụ thể.
Rõ ràng vấn đề này mô tả những chướng ngại cho anh em tạo ra những tấm hình ưng ý nhất, dù đã tạo ra những cụm từ khóa vô cùng chi tiết, quản lý toàn bộ mọi khía cạnh trong tấm hình mà anh em muốn tạo ra. Nhưng ở một khía cạnh khác, điều này cũng mô tả hoàn hảo quá trình nghiên cứu AI thực tế hoàn toàn không hoàn hảo và cao xa khó hiểu như anh em nghĩ.
Suy cho cùng, đối với cách huấn luyện thuật toán mô hình ngôn ngữ nói riêng và những thuật toán machine learning nói chung giờ đều hoạt động hệt như những đứa trẻ đang đi học, "người lớn" dạy gì thì biết vậy, chứ không thể biết nhiều hơn được.
Để chứng minh luận điểm ấy, trong bài viết này mình sẽ dùng toàn bộ hình minh họa được làm từ Stable Diffusion, với nhiều mô hình khác nhau được huấn luyện theo từng nhu cầu cụ thể.
Với từ khóa tạm dịch sang tiếng Việt là “Lionel Messi cosplay John Wick ôm World Cup”, anh em có thể thấy rất rõ ràng bàn tay vừa sai giải phẫu, vừa xấu, trông rất dị dạng. Nhưng ở khía cạnh khác thì chi tiết gương mặt thì khác biệt 180 độ về mức độ chân thực:
Đó chính là bản chất cách những mô hình AI được huấn luyện. Nhờ quá trình này, chúng rất giỏi trong việc bắt chước những phong cách mỹ thuật, hình ảnh và tạo hình khác nhau dựa vào gói dữ liệu khổng lồ mà con người dùng để huấn luyện thuật toán.
Ví dụ của việc AI bắt chước phong cách có sẵn rất giỏi: “Amelia Earhart vẽ theo phong cách phim Pixar, phía sau là những chiếc máy bay”:
Anh em hãy tưởng tượng như thế này. Một thuật toán trí thông minh nhân tạo cũng giống một đứa trẻ, lúc mới sinh ra không biết gì, phải đi học. Và lượng kiến thức sách giáo khoa mà “đứa trẻ” này học được giống hệt như một viện bảo tàng. “Đứa trẻ” của chúng ta bị nhốt trong cái viện bảo tàng ấy từ lúc mới sinh, chỉ có ngần ấy kiến thức để tiếp thu.
Cách học của AI cũng giống hệt như trẻ em đi học, tức là nhận diện kiểu mẫu (pattern). Nhưng có một sự khác biệt cơ bản. Bất kỳ con người nào cũng vậy, trong quá trình trưởng thành nhìn thấy hàng trăm, hàng nghìn đôi bàn tay ở những tư thế khác nhau, vị trí khác nhau. Con người học được “kiểu mẫu” nhờ việc trải nghiệm với thế giới thực. Dần dần chỉ cần liếc nhanh một bức hình, chúng ta cũng có thể nhận diện bàn tay.
Quảng cáo
Còn với AI, cũng là nhận diện mẫu hình, nhưng hãy nhìn lại phép so sánh “đứa trẻ bị nhốt trong viện bảo tàng” ở trên. AI có hàng terabyte dữ liệu để học hành, nhưng nó học đúng kiểu máy móc, những tấm hình đều có chú thích về nội dung trong hình ảnh. Lấy ví dụ gương mặt con người hai mắt hai tai một mũi một mồm, và kích thước hình dạng từng chi tiết này ra sao.
Hay một ví dụ đơn giản hơn là trái táo, sau khi nhìn hàng vạn lần những trái táo khác nhau, AI rồi cũng sẽ biết trái táo trông như thế nào:
Gương mặt con người cũng được AI vẽ theo cách y hệt, nhận diện mẫu qua hàng vạn tấm hình, để đánh giá rồi nội suy vị trí mũi để ở đâu, mắt một mí hay hai mí, lông mi “vẽ” ra sao, tóc đến chỗ nào trên gương mặt thì không được “mọc” nữa:
Là con người, muốn hiểu rõ hơn về một sự vật, chúng ta có thể xoay ngang xoay dọc sự vật đó để hiểu tường tận từng góc cạnh. AI thì không, nó chỉ có thể học kiểu mẫu từ những tấm hình có sẵn.
Quảng cáo
Cũng nhờ việc nhận diện hình mẫu, những họa sỹ có thể vẽ bàn tay cực kỳ chi tiết và chính xác, khi kèm thêm kiến thức họ có được về giải phẫu cơ thể người. Họa sỹ Stan Prokopenko mô tả quá trình như thế này: “Bạn sẽ chia bàn tay thành những khối hình lớn. Khối lớn nhất là lòng bàn tay. Rồi tính đến những ngón tay, trrong khi đó đánh giá xem đang vẽ mu hay lòng bàn tay. Kế đến là độ dày của bàn tay và những ngón tay.”
AI thì khác. Nó không thể chia bàn tay con người thành những phần khác nhau như vậy, đơn giản vì các nhà nghiên cứu AI không dạy nó làm điều đó. Lấy ví dụ một tấm hình bàn tay mà mình mất đâu đó 20 lần thử sai, chỉnh đi chỉnh lại mới tạo ra được:
Chi tiết không hoàn hảo một chút nào, nhìn hơi ghê là khác, vì ngón to ngón bé. Nhưng AI đã hoàn thành rất tốt nhiệm vụ mà nó được huấn luyện để làm, đó là tái tạo hoàn hảo bề mặt vật thể khi nó “học” chi tiết những bàn tay trong gói dữ liệu. Vị trí và giải phẫu thì sai hoàn toàn, nhưng bề mặt của khớp và đầu ngón tay, hay nếp nhăn trên da thì không chê vào đâu được. Nói “không chê vào đâu được” đơn giản chỉ vì AI cũng chỉ có nhận thức về từ khóa “bàn tay con người” đến mức ấy, không hơn.
Nói cách khác, AI biết mọi thứ TRÔNG NHƯ THẾ NÀO, chứ không biết mọi thứ HOẠT ĐỘNG RA SAO. Nó không thể biết được hệ thống xương khớp ngón tay con người có những giới hạn gì trong khi vận động, chỉ có thể uốn theo những hướng và giới hạn cụ thể.
Nhờ việc nhận diện hình khối theo kiểu máy móc như vậy, nên việc tạo ra những tấm hình với vật thể cố định, cố định theo ý nghĩa không tạo ra những dịch chuyển mà AI không thể học được, ví dụ căn nhà hay chiếc ô tô, AI làm rất tốt. Nhưng khi đụng đến những chi tiết không được học “đến nơi đến chốn”, thì AI tỏ rõ những nhược điểm.
Cái này thì họa sỹ không giải thích được, nên nhà nghiên cứu mỹ thuật Roy Shilkrot và nghiên cứu sinh tự động hóa Yilun Du có mặt để giải thích cho mọi người: Có ba lý do khiến AI gặp trở ngại trong mỗi một việc là vẽ bàn tay con người. Thứ nhất là khối lượng dữ liệu cũng như chất lượng của thư viện hình ảnh tay người vừa thấp vừa yêu cầu AI tạo ra sai số rất nhỏ. Lượng dữ liệu hình ảnh gương mặt thì quá nhiều, còn bàn tay thì lại quá ít, tức là AI sẽ có ít kiến thức để học hơn so với những dạng hình mẫu khác.
Lý do thứ hai là cách con người mô tả hình ảnh, ví von là “chú thích trong viện bảo tàng”, cũng chẳng đủ chi tiết. Những tấm hình để AI học thường chỉ có từ khóa rất đơn giản: Bàn tay, bàn tay cầm điện thoại, bàn tay cầm sách, v.v… Để AI hiểu rõ ràng tay người hoạt động ra sao, thì cần rất nhiều những thông số khác: Ngón cái đặt ở đâu, ngón tay khép lại như thế nào, v.v… Sự đa dạng trong động tác của bàn tay so với gương mặt, kết hợp với sự thiếu hụt dữ liệu huấn luyện AI về bàn tay con người đã tạo ra tình trạng chúng ta đang phải đối mặt khi tạo hình bằng mô hình ngôn ngữ.
Lý do thứ ba, mỗi hình ảnh bàn tay lại khác nhau. Vì góc nhìn, AI đôi khi chỉ có thể thấy hai ngón tay, ba ngón, hoặc chẳng có ngón nào khi bàn tay nắm lại. Thật ra không riêng gì bàn tay, mà động vật đôi khi cũng vậy. Những phiên bản mô hình trước đó của Stable Diffusion cũng đã tạo ra những tấm hình trong thư viện dữ liệu học đôi khi mô tả những chú chó chú mèo chỉ lộ 2 hoặc 3 chân, khiến AI không hiểu.
Giải thích cặn kẽ hơn, quá nhiều khác biệt trong từng tấm hình khi thuật toán AI học, kết hợp với thiên kiến (bias) của AI rất khác con người.
Yếu tố thiên lệch này cực kỳ quan trọng. Chính nhờ thiên kiến, chúng ta mới biết tay người có 5 ngón, có thể cử động ra sao, hoặc biết rõ ràng một chú chó hay chú ngựa "bình thường" có đủ 4 chân. AI không có thiên kiến chủ quan như vậy. Những mô hình ngôn ngữ giống hệt như một đứa trẻ ngây thơ không biết gì. Gọi là học vẹt thì cũng không hẳn là chính xác, nhưng thực tế cách huấn luyện thuật toán bây giờ thì không khác gì mấy. Mọi thứ AI tạo ra đều là “remix” tác phẩm của con người, dù là mỹ thuật, ngôn ngữ hay âm nhạc.
Đương nhiên cũng có cách cải thiện tình trạng vẽ bàn tay kỳ quặc của AI, bằng cách tiếp tục huấn luyện những mô hình để chúng vận hành hoàn hảo và chuyên biệt nhất có thể. Midjourney v5 mới ra mắt cách đây ít lâu là một ví dụ, tay chí ít đã đủ 5 ngon, nhưng vẫn chưa đạt được yêu cầu của người dùng, nhất là khi gõ vào những cụm từ khóa chi tiết để yêu cầu AI vẽ bàn tay làm một hành động gì đó:
Chỉ từ một ví dụ AI tạo tranh vẽ không tái tạo nổi bàn tay, hoàn toàn có thể suy rộng ra hai vấn đề với tình hình ngành phát triển trí thông minh nhân tạo hiện giờ. Vấn đề thứ nhất, AI sẽ chỉ hiểu về “thế giới quan” dựa hoàn toàn vào mức độ chi tiết của mỗi dạng dữ liệu mà con người, các nhà nghiên cứu tạo ra và đưa cho thuật toán tự học. Cái gì nhiều chi tiết, dữ liệu đồ sộ thì AI cũng sẽ tái tạo lại được với độ chi tiết và chân thực rất cao.
Vấn đề thứ hai là thiên kiến của con người vô tình ảnh hưởng trực tiếp tới mức độ chính xác của AI. Chúng ta hiểu bàn tay trông như thế nào, biết bàn tay cử động ra sao, nhưng lại không tả chi tiết cho AI. Tương tự như vậy là những thiên lệch khác, ví dụ những tình trạng AI viết những câu chữ phân biệt đối xử thời gian gần đây. Nó cũng học được những từ ngữ đó từ chính thiên kiến của con người, khi những gói dữ liệu bao gồm cả câu từ trên các mạng xã hội.
Một giải pháp được nghiên cứu sinh Yilun Du đưa ra, chính là cách ChatGPT hay Bing Chat sử dụng để cân bằng sự chi tiết của những câu trả lời do mô hình ngôn ngữ tạo ra. Cũng là dựa trên dữ liệu văn bản con người tạo ra, nhưng mô hình có thể được tinh chỉnh nhờ chính phản hồi của những người dùng thử nghiệm. Cái nào tốt, cái nào tệ hoàn toàn có thể được chúng ta đánh giá cụ thể. Nhờ đó, những câu chữ khi anh em dùng Bing Chat hay ChatGPT cực kỳ chân thực, hệt như người gõ ra vậy.
Nhưng để làm được điều này, chí ít là trong phạm vi lấy ý kiến người dùng đánh giá chất lượng AI vẽ bàn tay con người, cần rất nhiều công sức. Đấy là còn chưa tính tới những sai khác trong giải phẫu ở những bộ phận khác trên cơ thể. Cơ bụng của con người, như trong hình minh họa ở trên, là một ví dụ.