Ai cũng nghĩ tạo hình bằng AI là vui vui, nghịch 1 2 lần rồi bỏ. Mình thì không nghĩ như vậy. Giả sử bạn đang tự thiết kế một website và bạn muốn trang trí bằng hình ảnh như ý của mình thì sao? Bạn viết blog, viết truyện fanfic và cần thêm tranh ảnh để người đọc có thể hiểu hơn diễn biến câu chuyện? Bạn cần truyền tải nhanh ý tưởng logo mà bạn muốn, rồi một designer thật sự sẽ làm theo ý bạn muốn?
Thật sự, prompt writing, hay viết lệnh cho AI là một kĩ năng sẽ ngày càng trở nên phổ biến khi các công cụ AI mạnh hơn, thông minh hơn. Để chuẩn bị cho thực tại đó, bạn cần một nền tảng cứng về logic, cách thức hoạt động của công cụ. Tớ có thể cung cấp cho bạn nền tảng đó ngay bây giờ. Và tớ còn có thể đưa bạn lên đến trình độ bậc thầy. Tùy bạn muốn vui vẻ ở mức độ nhập môn hay tham vọng bước vào ngôi đền huyền thoại của prompt engineering, muốn cái gì thì tạo ra cái đó. Sự lựa chọn là của bạn, và bạn ở đây tức là bạn đã tiến một bước gần hơn đến công cuộc tự mình khai thác, làm chủ sức mạnh của AI.
Mặc dù nguyên tắc áp dụng chung cho tất cả dịch vụ từ MidJourney đến DALL-E, Dream Studio… mình sử dụng imgnAI trong series bài viết này, đơn giản là vì nó miễn phí, cực mạnh và đọc hiểu prompt linh hoạt dựa trên nền tảng StableDiffusion XL 1.0. Bài trải nghiệm và hướng dẫn ngay dưới đây nè, trong phạm vi bài này mình phân tích trực tiếp cách viết prompt thôi.
https://tinhte.vn/thread/trai-nghiem-imgnai-dich-vu-tao-hinh-sang-tao-cho-nguoi-truong-thanh-canh-tranh-voi-midjourney.3733735/#post-65075877
Thật sự, prompt writing, hay viết lệnh cho AI là một kĩ năng sẽ ngày càng trở nên phổ biến khi các công cụ AI mạnh hơn, thông minh hơn. Để chuẩn bị cho thực tại đó, bạn cần một nền tảng cứng về logic, cách thức hoạt động của công cụ. Tớ có thể cung cấp cho bạn nền tảng đó ngay bây giờ. Và tớ còn có thể đưa bạn lên đến trình độ bậc thầy. Tùy bạn muốn vui vẻ ở mức độ nhập môn hay tham vọng bước vào ngôi đền huyền thoại của prompt engineering, muốn cái gì thì tạo ra cái đó. Sự lựa chọn là của bạn, và bạn ở đây tức là bạn đã tiến một bước gần hơn đến công cuộc tự mình khai thác, làm chủ sức mạnh của AI.
Công cụ sử dụng: imgnAI
app.imgnai.comMặc dù nguyên tắc áp dụng chung cho tất cả dịch vụ từ MidJourney đến DALL-E, Dream Studio… mình sử dụng imgnAI trong series bài viết này, đơn giản là vì nó miễn phí, cực mạnh và đọc hiểu prompt linh hoạt dựa trên nền tảng StableDiffusion XL 1.0. Bài trải nghiệm và hướng dẫn ngay dưới đây nè, trong phạm vi bài này mình phân tích trực tiếp cách viết prompt thôi.
https://tinhte.vn/thread/trai-nghiem-imgnai-dich-vu-tao-hinh-sang-tao-cho-nguoi-truong-thanh-canh-tranh-voi-midjourney.3733735/#post-65075877
Trải nghiệm imgnAI - dịch vụ tạo hình sáng tạo cho người trưởng thành, cạnh tranh với MidJourney | Viết bởi Thế là thế nào?
Có thể nói ngày nay AI là cơn sốt dotcom tiếp theo của thế kỉ 21, khi mà cứ mỗi phút lại có một sản phẩm, dịch vụ gắn mác trí tuệ nhân tạo, máy học v.v.. ra đời. Cho nên chuyện ý kiến trái chiều mỗi khi một công nghệ mới trở nên thịnh hành là bình…
tinhte.vn
(((Eminem)) is spiderman), ((Cinematic Light)), Chaos, Medium shot, (Captivating)
(8k, RAW photo, highest quality), beautiful girl, close up, dress, (detailed eyes:0.8), defiance512, (looking at the camera:1.4), (highest quality), (best shadow), intricate details, interior, ginger hair:1.3, dark studio, muted colors, freckles
Xi Jinxpin, a friendly and enthusiastic grocery store employer, is filling the shelves with fresh produce. He is wearing a white apron and a baseball cap with the store's logo on it. He is smiling and waving at customers as he works, ((cinematic)), ((ultra real))
young beard man chilling with a large fox cuddling by his side, study room, labyrinth bookshelf, autumn windows, organic gouache paint artstyle, 8K, HDR, intricate details, ultra high image quality, teal and orange tone
(((masterpiece)), (((artstyle by stephen gammell))), portrait of a wise man, eyes widened in a moment of profound revelation. His features, etched with years of wisdom, are bathed in the soft glows of mystical light, symbolizing his epiphany. The backdrop is an intricate tapestry of [colourful psychedelic] elements, twilight hues, and shimmering constellations, representing the vast knowledge he has acquired. Around him, ethereal visions manifest, hinting at the nature of his insight. The atmosphere evokes a sense of awe and wonder. Synthwave undertones, Complex 3D render with rtx, raytracing, highly detailed, Finely detailed, Movie Poster.
Quảng cáo
An artistic revelation of the poignant words ‘hello darkness, my old friend,’ brought to life with a rich palette of deep, brooding colors. This surreal masterpiece transcends mere hues, capturing a narrative of introspection and enigma. The canvas is graced with haunting, shadowy figures, each whispering their own story of solitude and companionship with the darkness in vibrant, mysterious tones. The interplay of light and dark transcends the visual, invoking deep emotions of nostalgia, solace, and the eternal dance between the human soul and the night. This composition is a vivid tribute to the timeless partnership between humanity and the night, inviting contemplation on the mysteries of existence, In the style of the renowned surrealist artist Yves Tanguy.
Nguyên lý cơ bản về đơn vị câu và bố cục prompt
Đầu tiên, để có được thành công lâu dài trên con đường học và sử dụng thành thạo một mô hình tạo hình bằng AI, bạn sẽ cần một nền tảng thật là đơn giản mà vững chắc về cách viết, cách mô tả bằng ngôn ngữ.
Từ nền tảng này trở đi bạn có thể tự khám phá ở mức độ của bản thân, đơn giản thì viết kiểu đơn giản, bậc thầy thì tạo hình kiểu bậc thầy. Một khi thành thục kĩ năng, bạn có thể phá vỡ nguyên tắc. Nhưng đi theo nguyên tắc thì luôn luôn đạt được cái bạn muốn.
Nếu ngay từ khi nhập môn mà bạn chỉ biết thử và sai vô tội vạ thì bạn sẽ rất dễ nản, chán nhất là bạn không có được cái bạn muốn trong khi người khác lại làm ra được. Bắt đầu nhé!
Hãy thuộc nằm lòng cấu trúc của một đơn vị câu hoàn chỉnh:
và mức độ quan trọng của các thành phần trong câu cũng thuận theo đúng thứ tự này.
Quảng cáo
- Subject: chủ thể chính mà bạn muốn trong hình. Hãy chọn một danh từ
- Verb: hành động mà chủ thể này đang thực hiện. Hãy chọn một động từ
- Object: vật thể phụ đang "nhận" hành động từ chủ thể. Hãy chọn một danh từ
Steve Jobs pointing a gun at the camera
Với nền tảng cơ bản nhưng mạnh mẽ về đơn vị câu, bạn luôn luôn mô tả chính xác nhân vật trung tâm bạn muốn thấy trong tấm hình, hành động họ đang làm, cũng như là các vật thể phụ "đồng hành" với nhân vật trung tâm của bạn. Xem thử các ví dụ dưới đây nè, và bạn cũng có thể thử liền với dịch vụ imgnAI, chả tốn gì hết!
Taylor Swift is construction worker
Wedding dress made by Van Gogh
One punch man work as a cashier at a convenience store in real life
Nếu bạn tinh ý, trong các ví dụ trên hầu như ngữ pháp không chuẩn 100%. Đây là vẻ đẹp của việc viết prompt cho AI, nếu bạn bám đúng theo nguyên tắc duy nhất về trật tự của một câu hoàn chỉnh (chủ thể - hành động - vật thể) thì bạn được “du di” chút xíu về các khía cạnh tinh vi khác của ngôn ngữ. Nói cách khác, câu lệnh của bạn nằm trong phạm vi mô hình AI có thể cố gắng hiểu được, và nó sẽ không rảnh lăm le bắt bẻ như giáo viên cấp 3 của bạn đâu 😁
Từ đây chúng ta cũng rút ra được nguyên lý cơ bản nhất về bố cục của prompt:
- Một đơn vị câu chính đầy đủ mô tả chủ thể và vật thể phụ đồng hành + từ khóa râu ria cách nhau bằng dấu phẩy
Coi vậy chứ mình thấy rất nhiều người dùng lần đầu (đa quốc gia, thậm chí người bản xứ) vừa không mô tả theo đơn vị câu cơ bản mà cũng không viết cách các từ khóa ra bằng dấu phẩy. Như vậy AI không hiểu được cái bạn đang muốn thấy và không thể nào giúp bạn hiện thực hóa trí tưởng tượng của bạn được. Prompt của bạn bị lộn xộn và tối nghĩa.
Mở rộng chi tiết cho bức ảnh bằng từ khóa
Từ nền móng cực kì vững chắc về đơn vị câu và bố cục prompt mà bạn đang đứng, bây giờ chúng ta có thể mở rộng số lượng từ khóa trong prompt để thêm chi tiết vào bức ảnh mà bạn muốn. Có một số hướng như sau để bạn thoải mái thí nghiệm, kết hợp, thử và rút kinh nghiệm.
Thêm chi tiết cho chủ thể
Đây là hướng khai thác đơn giản nhất, bạn có thể thêm vào các từ khóa mô tả thêm cho chủ thể chính. Có thể là màu tóc (red hair), kiểu tóc (ponytail), quần áo (skirt), phụ kiện (diamond necklace, golden bracelet), biểu cảm và tính cách (happy, arrogant, tender, cute, shy, awkward). Ở đây mình tiếp tục mở rộng ví dụ với chủ thể Taylor Swift.
Taylor Swift is construction worker, eating fries, McDonald hat, satisfied
Các điểm chính bạn cần để ý đối với hướng mô tả này:
- Vị trí: Đặt các từ khóa này Ở NGAY SAU đơn vị câu chính của bạn, cách nhau bằng dấu phẩy
- Số lượng và chất lượng từ khóa: nên hình dung rõ chủ thể của bạn và cung cấp càng nhiều chi tiết càng tốt, nhưng cố gắng tránh các từ khóa ngược nhau, chẳng hạn như happy rồi mà đi chung với angry, crying; riding a bicyle rồi sau đó lại walking thì nó hơi kì phải không nè. Tuy nhiên, cũng sẽ có nhiều sự kết hợp cho ra kết quả độc đáo, tùy bạn rút kinh nghiệm sau khi thử
- Loại từ nên sử dụng: danh từ; động từ; tính từ đều có thể sử dụng miễn đừng quá trừu tượng và khó có hình ảnh để miêu tả cho nó (competitive, tangible, heretical…)
Hậu cảnh và thêm chi tiết cho hậu cảnh
Đây cũng là hướng khai thác rộng rãi để bạn khám phá. Ở đây bạn có thể thêm các từ khóa liên quan đến khung cảnh mà bạn muốn, có thể kẹp thêm từ khóa "background" để nói rõ đây là cái hậu cảnh, sau đó là các từ khóa liên quan đến hậu cảnh. Chẳng hạn: classroom background, blackboard, desks and chairs, pencils and papers, crayons
Taylor Swift is construction worker, eating fries, McDonald hat, satisfied, unfinished bridge background, cement mixer, concrete debris
Những điểm cần lưu ý:
- Vị trí: đằng sau chủ thể chính và chi tiết của chủ thể, cách nhau bằng dấu phẩy
- Chất lượng từ khóa: có thể thử kết hợp nhiều từ khóa để có các kết quả sáng tạo
- Loại từ nên sử dụng: danh từ; tính từ; ở đây TRÁNH SỬ DỤNG động từ khiến AI bị bối rối
Chất liệu ảnh, phong cách ảnh và màu sắc
Đối với hướng khai thác này, bạn có cơ hội suy nghĩ thêm về loại tranh ảnh mà bạn muốn tái tạo (tranh sơn dầu hay tranh bút chì, ảnh chụp thực tế hay đồ họa CGI); phong cách ảnh mà bạn muốn bắt chước [Hayao Mizayaki hay Junji Ito; Annie Leibovitz(chuyên ảnh chân dung) hay Wes Anderson(đạo diễn chuyên phong cách ảnh đối xứng và màu sắc sặc sỡ)]; và tông màu chủ đạo của bức ảnh (red tone, teal tone, pink and orange duotone…)
Taylor Swift is construction worker, eating fries, McDonald hat, satisfied, unfinished bridge background, cement mixer, concrete debris, style by Annie Leibovitz, dramatic portrait shot
Taylor Swift is construction worker, eating fries, McDonald hat, satisfied, unfinished bridge background, cement mixer, concrete debris, style by Wes Anderson, saturated shot
Một số lưu ý:
- Vị trí mô tả: đằng sau chủ thể và hậu cảnh, cách nhau bằng dấu phẩy
- Số lượng và chất lượng từ khóa: thông thường bạn chỉ cần một cụm từ khóa cho chất liệu hoặc phong cách ảnh. Chỉ một trong hai thôi nhé vì chẳng hạn tranh của Kim Jung Gi thì đi chung với từ khóa về ảnh chụp bằng máy cơ DSLR thì sẽ rất là vô dụng! Ví dụ từ khóa về chất ảnh: watercolor; oil painting; realism photography; Ví dụ từ khóa về phong cách ảnh: style by Annie Leibovitz; style by Gustav Klmit; Junji Ito artstyle; black and white artstyle). Đối với từ khóa cho màu sắc, đó có thể là: red tone, orange and pink duotone, pastel color palette. Thông thường các từ khóa về chất liệu và màu sắc trong nhóm này kết hợp cực tốt với nhau (bởi vì AI khá giỏi trong khía cạnh mix style, mix màu và nhất là tái tạo phong cách ảnh không phải là ảnh tả thực)
- Ngoài ra tất cả những từ khóa khác liên quan đến chất ảnh, bố cục ảnh hầu hết sẽ nằm ở đây. Thậm chí có những phong cách mà bạn không ngờ tới đâu nha, chẳng hạn như LEGO, toy action figure, miniature model... Chúng ta sẽ nghiên cứu sâu về nhóm này ở level cao hơn.
Các từ khóa thông dụng để tăng chi tiết chung cho ảnh
Ngoài các hướng khai thác thông dụng ở trên thì đây là phần tương đối "không não", tức là những từ khóa bạn sẽ sử dụng gần như cố định ở cuối prompt để cải thiện độ rõ nét của ảnh. Về bản chất, đây là các từ khóa ra lệnh cho AI phải đưa ra quyết định kĩ hơn trong quá trình nó tạo ảnh, chứ không có cụ thể phong cách nào cả. Ở phần sau chúng ta sẽ phân tách kĩ hơn chút về nhóm từ khóa này.
Taylor Swift is construction worker, eating fries, McDonald hat, satisfied, unfinished bridge background, cement mixer, concrete debris, style by Wes Anderson, saturated shot, red and teal tone, 8K, HDR, intricate details, high quality image, gigapixel, hyper detailed
- Các từ khóa, không chỉ có nhiêu đây là hết đâu ha, bao gồm: 8K, HDR10, intricate details, hyper detailed, micro details, high quality image, gigapixel, ultra high quality details, professional image quality…
Bước bổ sung: nhấn mạnh nhóm từ khóa quan trọng
Với số lượng từ khóa đã tăng lên khá nhiều so với lúc chúng ta bắt đầu viết prompt, bạn sẽ muốn biết thêm một công cụ nhỏ để nhắc cho mô hình AI nhớ các yếu tố trọng tâm nhất bạn muốn trong bức ảnh là gì. Vậy thì để nhấn mạnh, bạn dùng bộ dấu ngoặc () cho một hoặc nhiều từ khóa mà bạn muốn, với 3 mức độ chú ý tương ứng với tối đa 3 bộ dấu ngoặc. Tức là:
(((quan trọng nhất nè))) > ((khá quan trọng nè)) > (quan trọng) > từ khóa bình thường không có dấu ngoặc
((Taylor Swift is construction worker, eating fries)), McDonald hat, satisfied, unfinished bridge background, cement mixer, concrete debris, ((style by Wes Anderson)), saturated shot, red and teal tone, 8K, HDR, intricate details, high quality image, gigapixel, hyper detailed
Thông thường mình sẽ đóng ngoặc chủ ngữ của mình để mô hình AI ưu tiên tái tạo yếu tố này trước. Những từ khóa còn lại sẽ hỗ trợ chủ ngữ để ra thành phẩm cuối cùng. Nhớ là nếu bạn đóng ngoặc quá nhiều từ khóa thì AI nó sẽ lại bị rối nhé (vì cái gì bạn cũng muốn nhấn mạnh, trong khi sức tập trung của AI là có giới hạn haha)
Kết
Và như vậy là bạn đã được cung cấp kiến thức nền tảng nhất về kĩ năng tạo hình với AI rồi đó. Theo mình prompting skill sẽ là một trong những kĩ năng cần thiết trong tương lai, khi các công cụ AI trở nên mạnh hơn và có mặt 24/24 bất kì lúc nào người dùng cần đến. Mặc dù các công cụ AI đang phát triển theo hướng thân thiện hơn, sử dụng ngôn ngữ tự nhiên hơn nhưng nền tảng về cách viết mình cam đoan không bao giờ thay đổi! Như vậy ai "giao tiếp" với AI giỏi hơn, hiệu quả hơn, biến nó thành cánh tay thứ ba thì sẽ chiến thắng trên thị trường lao động. Công việc nhanh chóng hơn, đa dạng hơn cũng giúp bạn kiếm nhiều tiền hơn, sống thoải mái hơn, AI sẽ giúp mình bớt phải làm lụng chân tay tẻ nhạt (trong trường hợp này, bạn phải biết cầm bút, bạn phải vẽ được hình khối, tớ thì chịu đó). Nếu bạn học và hiểu rõ AI thì nó không thể đào thải được bạn và nó sẽ phải phục vụ bạn.
Mình tin bất kì ai với một chút tinh thần cầu tiến, đam mê tự do cũng sẽ học được kĩ năng này. Hãy all in đầu tư học tiếng Anh và cách sử dụng AI nhé! Gặp bạn ở phần sau!