Ai cũng nghĩ tạo hình bằng AI là vui vui, nghịch 1 2 lần rồi bỏ. Mình thì không nghĩ như vậy. Giả sử bạn đang tự thiết kế một website và bạn muốn trang trí bằng hình ảnh như ý của mình thì sao? Bạn viết blog, viết truyện fanfic và cần thêm tranh ảnh để người đọc có thể hiểu hơn diễn biến câu chuyện? Bạn cần truyền tải nhanh ý tưởng logo mà bạn muốn, rồi một designer thật sự sẽ làm theo ý bạn muốn?
Thật sự, prompt writing, hay viết lệnh cho AI là một kĩ năng sẽ ngày càng trở nên phổ biến khi các công cụ AI mạnh hơn, thông minh hơn. Để chuẩn bị cho thực tại đó, bạn cần một nền tảng cứng về logic, cách thức hoạt động của công cụ. Tớ có thể cung cấp cho bạn nền tảng đó ngay bây giờ. Và tớ còn có thể đưa bạn lên đến trình độ bậc thầy. Tùy bạn muốn vui vẻ ở mức độ nhập môn hay tham vọng bước vào ngôi đền huyền thoại của prompt engineering, muốn cái gì thì tạo ra cái đó. Sự lựa chọn là của bạn, và bạn ở đây tức là bạn đã tiến một bước gần hơn đến công cuộc tự mình khai thác, làm chủ sức mạnh của AI.

Công cụ sử dụng: imgnAI

app.imgnai.com

Mặc dù nguyên tắc áp dụng chung cho tất cả dịch vụ từ MidJourney đến DALL-E, Dream Studio… mình sử dụng imgnAI trong series bài viết này, đơn giản là vì nó miễn phí, cực mạnh và đọc hiểu prompt linh hoạt dựa trên nền tảng StableDiffusion XL 1.0. Bài trải nghiệm và hướng dẫn ngay dưới đây nè, trong phạm vi bài này mình phân tích trực tiếp cách viết prompt thôi.

https://tinhte.vn/thread/trai-nghiem-imgnai-dich-vu-tao-hinh-sang-tao-cho-nguoi-truong-thanh-canh-tranh-voi-midjourney.3733735/#post-65075877

(((Eminem)) is spiderman), ((Cinematic Light)), Chaos, Medium shot, (Captivating)

(8k, RAW photo, highest quality), beautiful girl, close up, dress, (detailed eyes:0.8), defiance512, (looking at the camera:1.4), (highest quality), (best shadow), intricate details, interior, ginger hair:1.3, dark studio, muted colors, freckles

Xi Jinxpin, a friendly and enthusiastic grocery store employer, is filling the shelves with fresh produce. He is wearing a white apron and a baseball cap with the store's logo on it. He is smiling and waving at customers as he works, ((cinematic)), ((ultra real))

young beard man chilling with a large fox cuddling by his side, study room, labyrinth bookshelf, autumn windows, organic gouache paint artstyle, 8K, HDR, intricate details, ultra high image quality, teal and orange tone

(((masterpiece)), (((artstyle by stephen gammell))), portrait of a wise man, eyes widened in a moment of profound revelation. His features, etched with years of wisdom, are bathed in the soft glows of mystical light, symbolizing his epiphany. The backdrop is an intricate tapestry of [colourful psychedelic] elements, twilight hues, and shimmering constellations, representing the vast knowledge he has acquired. Around him, ethereal visions manifest, hinting at the nature of his insight. The atmosphere evokes a sense of awe and wonder. Synthwave undertones, Complex 3D render with rtx, raytracing, highly detailed, Finely detailed, Movie Poster.

An artistic revelation of the poignant words ‘hello darkness, my old friend,’ brought to life with a rich palette of deep, brooding colors. This surreal masterpiece transcends mere hues, capturing a narrative of introspection and enigma. The canvas is graced with haunting, shadowy figures, each whispering their own story of solitude and companionship with the darkness in vibrant, mysterious tones. The interplay of light and dark transcends the visual, invoking deep emotions of nostalgia, solace, and the eternal dance between the human soul and the night. This composition is a vivid tribute to the timeless partnership between humanity and the night, inviting contemplation on the mysteries of existence, In the style of the renowned surrealist artist Yves Tanguy.

Nguyên lý cơ bản về đơn vị câu và bố cục prompt

Đầu tiên, để có được thành công lâu dài trên con đường học và sử dụng thành thạo một mô hình tạo hình bằng AI, bạn sẽ cần một nền tảng thật là đơn giản mà vững chắc về cách viết, cách mô tả bằng ngôn ngữ.
Từ nền tảng này trở đi bạn có thể tự khám phá ở mức độ của bản thân, đơn giản thì viết kiểu đơn giản, bậc thầy thì tạo hình kiểu bậc thầy. Một khi thành thục kĩ năng, bạn có thể phá vỡ nguyên tắc. Nhưng đi theo nguyên tắc thì luôn luôn đạt được cái bạn muốn.
Nếu ngay từ khi nhập môn mà bạn chỉ biết thử và sai vô tội vạ thì bạn sẽ rất dễ nản, chán nhất là bạn không có được cái bạn muốn trong khi người khác lại làm ra được. Bắt đầu nhé!

Hãy thuộc nằm lòng cấu trúc của một đơn vị câu hoàn chỉnh:

và mức độ quan trọng của các thành phần trong câu cũng thuận theo đúng thứ tự này.

Subject: chủ thể chính mà bạn muốn trong hình. Hãy chọn một danh từ
Verb: hành động mà chủ thể này đang thực hiện. Hãy chọn một động từ
Object: vật thể phụ đang "nhận" hành động từ chủ thể. Hãy chọn một danh từ

Steve Jobs pointing a gun at the camera

Với nền tảng cơ bản nhưng mạnh mẽ về đơn vị câu, bạn luôn luôn mô tả chính xác nhân vật trung tâm bạn muốn thấy trong tấm hình, hành động họ đang làm, cũng như là các vật thể phụ "đồng hành" với nhân vật trung tâm của bạn. Xem thử các ví dụ dưới đây nè, và bạn cũng có thể thử liền với dịch vụ imgnAI, chả tốn gì hết!

Taylor Swift is construction worker

Wedding dress made by Van Gogh

One punch man work as a cashier at a convenience store in real life

Nếu bạn tinh ý, trong các ví dụ trên hầu như ngữ pháp không chuẩn 100%. Đây là vẻ đẹp của việc viết prompt cho AI, nếu bạn bám đúng theo nguyên tắc duy nhất về trật tự của một câu hoàn chỉnh (chủ thể - hành động - vật thể) thì bạn được “du di” chút xíu về các khía cạnh tinh vi khác của ngôn ngữ. Nói cách khác, câu lệnh của bạn nằm trong phạm vi mô hình AI có thể cố gắng hiểu được, và nó sẽ không rảnh lăm le bắt bẻ như giáo viên cấp 3 của bạn đâu 😁

Từ đây chúng ta cũng rút ra được nguyên lý cơ bản nhất về bố cục của prompt:

Một đơn vị câu chính đầy đủ mô tả chủ thể và vật thể phụ đồng hành + từ khóa râu ria cách nhau bằng dấu phẩy

Coi vậy chứ mình thấy rất nhiều người dùng lần đầu (đa quốc gia, thậm chí người bản xứ) vừa không mô tả theo đơn vị câu cơ bản mà cũng không viết cách các từ khóa ra bằng dấu phẩy. Như vậy AI không hiểu được cái bạn đang muốn thấy và không thể nào giúp bạn hiện thực hóa trí tưởng tượng của bạn được. Prompt của bạn bị lộn xộn và tối nghĩa.

Mở rộng chi tiết cho bức ảnh bằng từ khóa

Từ nền móng cực kì vững chắc về đơn vị câu và bố cục prompt mà bạn đang đứng, bây giờ chúng ta có thể mở rộng số lượng từ khóa trong prompt để thêm chi tiết vào bức ảnh mà bạn muốn. Có một số hướng như sau để bạn thoải mái thí nghiệm, kết hợp, thử và rút kinh nghiệm.

Thêm chi tiết cho chủ thể

Đây là hướng khai thác đơn giản nhất, bạn có thể thêm vào các từ khóa mô tả thêm cho chủ thể chính. Có thể là màu tóc (red hair), kiểu tóc (ponytail), quần áo (skirt), phụ kiện (diamond necklace, golden bracelet), biểu cảm và tính cách (happy, arrogant, tender, cute, shy, awkward). Ở đây mình tiếp tục mở rộng ví dụ với chủ thể Taylor Swift.

Taylor Swift is construction worker, eating fries, McDonald hat, satisfied

Các điểm chính bạn cần để ý đối với hướng mô tả này:

Vị trí: Đặt các từ khóa này Ở NGAY SAU đơn vị câu chính của bạn, cách nhau bằng dấu phẩy
Số lượng và chất lượng từ khóa: nên hình dung rõ chủ thể của bạn và cung cấp càng nhiều chi tiết càng tốt, nhưng cố gắng tránh các từ khóa ngược nhau, chẳng hạn như happy rồi mà đi chung với angry, crying; riding a bicyle rồi sau đó lại walking thì nó hơi kì phải không nè. Tuy nhiên, cũng sẽ có nhiều sự kết hợp cho ra kết quả độc đáo, tùy bạn rút kinh nghiệm sau khi thử
Loại từ nên sử dụng: danh từ; động từ; tính từ đều có thể sử dụng miễn đừng quá trừu tượng và khó có hình ảnh để miêu tả cho nó (competitive, tangible, heretical…)

Hậu cảnh và thêm chi tiết cho hậu cảnh

Đây cũng là hướng khai thác rộng rãi để bạn khám phá. Ở đây bạn có thể thêm các từ khóa liên quan đến khung cảnh mà bạn muốn, có thể kẹp thêm từ khóa "background" để nói rõ đây là cái hậu cảnh, sau đó là các từ khóa liên quan đến hậu cảnh. Chẳng hạn: classroom background, blackboard, desks and chairs, pencils and papers, crayons

Taylor Swift is construction worker, eating fries, McDonald hat, satisfied, unfinished bridge background, cement mixer, concrete debris

Những điểm cần lưu ý:

Vị trí: đằng sau chủ thể chính và chi tiết của chủ thể, cách nhau bằng dấu phẩy
Chất lượng từ khóa: có thể thử kết hợp nhiều từ khóa để có các kết quả sáng tạo
Loại từ nên sử dụng: danh từ; tính từ; ở đây TRÁNH SỬ DỤNG động từ khiến AI bị bối rối

Chất liệu ảnh, phong cách ảnh và màu sắc

Đối với hướng khai thác này, bạn có cơ hội suy nghĩ thêm về loại tranh ảnh mà bạn muốn tái tạo (tranh sơn dầu hay tranh bút chì, ảnh chụp thực tế hay đồ họa CGI); phong cách ảnh mà bạn muốn bắt chước [Hayao Mizayaki hay Junji Ito; Annie Leibovitz(chuyên ảnh chân dung) hay Wes Anderson(đạo diễn chuyên phong cách ảnh đối xứng và màu sắc sặc sỡ)]; và tông màu chủ đạo của bức ảnh (red tone, teal tone, pink and orange duotone…)

Taylor Swift is construction worker, eating fries, McDonald hat, satisfied, unfinished bridge background, cement mixer, concrete debris, style by Annie Leibovitz, dramatic portrait shot

Taylor Swift is construction worker, eating fries, McDonald hat, satisfied, unfinished bridge background, cement mixer, concrete debris, style by Wes Anderson, saturated shot

Một số lưu ý:

Vị trí mô tả: đằng sau chủ thể và hậu cảnh, cách nhau bằng dấu phẩy
Số lượng và chất lượng từ khóa: thông thường bạn chỉ cần một cụm từ khóa cho chất liệu hoặc phong cách ảnh. Chỉ một trong hai thôi nhé vì chẳng hạn tranh của Kim Jung Gi thì đi chung với từ khóa về ảnh chụp bằng máy cơ DSLR thì sẽ rất là vô dụng! Ví dụ từ khóa về chất ảnh: watercolor; oil painting; realism photography; Ví dụ từ khóa về phong cách ảnh: style by Annie Leibovitz; style by Gustav Klmit; Junji Ito artstyle; black and white artstyle). Đối với từ khóa cho màu sắc, đó có thể là: red tone, orange and pink duotone, pastel color palette. Thông thường các từ khóa về chất liệu và màu sắc trong nhóm này kết hợp cực tốt với nhau (bởi vì AI khá giỏi trong khía cạnh mix style, mix màu và nhất là tái tạo phong cách ảnh không phải là ảnh tả thực)
Ngoài ra tất cả những từ khóa khác liên quan đến chất ảnh, bố cục ảnh hầu hết sẽ nằm ở đây. Thậm chí có những phong cách mà bạn không ngờ tới đâu nha, chẳng hạn như LEGO, toy action figure, miniature model... Chúng ta sẽ nghiên cứu sâu về nhóm này ở level cao hơn.

Các từ khóa thông dụng để tăng chi tiết chung cho ảnh

Ngoài các hướng khai thác thông dụng ở trên thì đây là phần tương đối "không não", tức là những từ khóa bạn sẽ sử dụng gần như cố định ở cuối prompt để cải thiện độ rõ nét của ảnh. Về bản chất, đây là các từ khóa ra lệnh cho AI phải đưa ra quyết định kĩ hơn trong quá trình nó tạo ảnh, chứ không có cụ thể phong cách nào cả. Ở phần sau chúng ta sẽ phân tách kĩ hơn chút về nhóm từ khóa này.

Taylor Swift is construction worker, eating fries, McDonald hat, satisfied, unfinished bridge background, cement mixer, concrete debris, style by Wes Anderson, saturated shot, red and teal tone, 8K, HDR, intricate details, high quality image, gigapixel, hyper detailed

Các từ khóa, không chỉ có nhiêu đây là hết đâu ha, bao gồm: 8K, HDR10, intricate details, hyper detailed, micro details, high quality image, gigapixel, ultra high quality details, professional image quality…

Bước bổ sung: nhấn mạnh nhóm từ khóa quan trọng

Với số lượng từ khóa đã tăng lên khá nhiều so với lúc chúng ta bắt đầu viết prompt, bạn sẽ muốn biết thêm một công cụ nhỏ để nhắc cho mô hình AI nhớ các yếu tố trọng tâm nhất bạn muốn trong bức ảnh là gì. Vậy thì để nhấn mạnh, bạn dùng bộ dấu ngoặc () cho một hoặc nhiều từ khóa mà bạn muốn, với 3 mức độ chú ý tương ứng với tối đa 3 bộ dấu ngoặc. Tức là:

(((quan trọng nhất nè))) > ((khá quan trọng nè)) > (quan trọng) > từ khóa bình thường không có dấu ngoặc

((Taylor Swift is construction worker, eating fries)), McDonald hat, satisfied, unfinished bridge background, cement mixer, concrete debris, ((style by Wes Anderson)), saturated shot, red and teal tone, 8K, HDR, intricate details, high quality image, gigapixel, hyper detailed

Thông thường mình sẽ đóng ngoặc chủ ngữ của mình để mô hình AI ưu tiên tái tạo yếu tố này trước. Những từ khóa còn lại sẽ hỗ trợ chủ ngữ để ra thành phẩm cuối cùng. Nhớ là nếu bạn đóng ngoặc quá nhiều từ khóa thì AI nó sẽ lại bị rối nhé (vì cái gì bạn cũng muốn nhấn mạnh, trong khi sức tập trung của AI là có giới hạn haha)

Kết

Và như vậy là bạn đã được cung cấp kiến thức nền tảng nhất về kĩ năng tạo hình với AI rồi đó. Theo mình prompting skill sẽ là một trong những kĩ năng cần thiết trong tương lai, khi các công cụ AI trở nên mạnh hơn và có mặt 24/24 bất kì lúc nào người dùng cần đến. Mặc dù các công cụ AI đang phát triển theo hướng thân thiện hơn, sử dụng ngôn ngữ tự nhiên hơn nhưng nền tảng về cách viết mình cam đoan không bao giờ thay đổi! Như vậy ai "giao tiếp" với AI giỏi hơn, hiệu quả hơn, biến nó thành cánh tay thứ ba thì sẽ chiến thắng trên thị trường lao động. Công việc nhanh chóng hơn, đa dạng hơn cũng giúp bạn kiếm nhiều tiền hơn, sống thoải mái hơn, AI sẽ giúp mình bớt phải làm lụng chân tay tẻ nhạt (trong trường hợp này, bạn phải biết cầm bút, bạn phải vẽ được hình khối, tớ thì chịu đó). Nếu bạn học và hiểu rõ AI thì nó không thể đào thải được bạn và nó sẽ phải phục vụ bạn.
Mình tin bất kì ai với một chút tinh thần cầu tiến, đam mê tự do cũng sẽ học được kĩ năng này. Hãy all in đầu tư học tiếng Anh và cách sử dụng AI nhé! Gặp bạn ở phần sau!

khanhduy.39n

GÀ

một năm

Sao bạn lại dùng (()) vậy

Thế là thế nào?

@khanhduy.39n để nhấn mạnh nha bạn, ((từ khóa trong ngoặc)) sẽ được ưu tiên tái tạo hơn từ khóa bên ngoài nè. Cũng tùy vào dịch vụ bạn xài nữa, chẳng hạn MidJourney thì không có, imgnAI thì có, StableDiffusion offline thì xài [[]]

Kahny La

6 tháng

@Thế là thế nào? mình dùng stable cũng dùng () mà hoặc (keyword:weight)

quocthang88

Tuyệt vời. Quá hữu ích. Tiếp tục đi bạn ơiii

Minh Ben

Trứng

hay hay bạn ơi

XBlue

Ảnh AI có một điểm hơi chung là quá sáng và sạch sẽ, ánh sáng chuẩn,
Kiểu ko mắc những lỗi khi ngta chụp ảnh

p.a.tuan

@XBlue mình thấy lỗi nhất là phần ngón tay chân không giống thật, nhưng với đà này thì nó sửa đc sớm thôi

andymarshall

@XBlue có những loại prompt giúp tăng độ chân thật của hình ảnh lên. bài này basic nên chủ thớt chưa giới thiệu thôi bạn.

TheHardGuy

Hay quá bạn. 😘 những cái bài viết tương tự như vầy, dạng hướng dẫn hay tutorial nên được tổng hợp lại hẵn trong 1 tab riêng trên app tinhte hoặc thay cho cái tab Fact vừa vô bổ mà vừa đặt tên thấy sai sai 🙂 lol

vtbhappy

Bài viết công phu quá. Cảm ơn chủ thớt rất nhiều

minoan

món này chắc sớm không cần thiết vì AI ngày càng khôn lên 😁

zer0_7

@minoan Lúc nào nó cũng khôn, nhưng muốn nó khôn theo ý mình thì cần phải biết ra lệnh đúng cho nó để nó cho ra sản phẩm mà mình muốn. Để còn bắt nó chỉnh sửa sản phẩm nó tạo ra theo đúng ý mình. Chứ đánh lệnh linh tinh, mỗi lúc nó lại ra 1 ảnh ko liên quan gì tới ảnh cũ thì nản và hên xui lắm.

joe1111

Có phải đk tài khoản k bạn?

editzrapper

Chủ thớt ơi cho mình hỏi chút, mình muốn tạo 1 nhân vật AI với quần áo hơi hướng tương lai, sau vài lần prompt, mình đã tạo được nhân vận ưng ý
Tuy nhiên vấn đề mình gặp phải là sau đó mình ko thể tạo được nhân vật với vộ quần áo đó nữa, dù gõ prompt y hệt, quần áo vẫn có nét khác
Bạn có cách nào tạo nhân vật luôn có 1 kiểu quần áo đồng nhất tất cả các chi tiết ko?

ducleminh

Cái bàn tay và ngón tay đến giờ này vẫn lỗi nhiều quá

Series: Từ nhập môn đến bậc thầy kĩ năng viết prompt tạo hình với AI (Level 1 - Nhập môn)

Công cụ sử dụng: imgnAI

Nguyên lý cơ bản về đơn vị câu và bố cục prompt

Mở rộng chi tiết cho bức ảnh bằng từ khóa

Thêm chi tiết cho chủ thể

Hậu cảnh và thêm chi tiết cho hậu cảnh

Chất liệu ảnh, phong cách ảnh và màu sắc

Các từ khóa thông dụng để tăng chi tiết chung cho ảnh

Bước bổ sung: nhấn mạnh nhóm từ khóa quan trọng

Kết

CHỦ ĐỀ TƯƠNG TỰ

DeepSeek AI: sự trỗi dậy của AI phương đông hay AI Trung Quốc có thực sự đe doạ phương tây?

Hướng dẫn cách dùng NAS để lưu ảnh gốc cho Lightroom, không lo hết bộ nhớ nữa

"Em yêu khoa học": Đổi ngàm nhựa ống kính Nikon Z 40mm f2 SE sang ngàm kim loại, có chống nước

Case Study: Công ty thành công với chiến lược AI-First