Câu lệnh hay Prompt là một trong những thành phần cực kỳ quan trọng để tạo ra bức ảnh đúng ý trong Stable Diffusion. Hồi mới nghịch việc tạo ảnh bằng Gen AI, mình chỉ nghĩ đơn giản là gõ 1 câu ngắn bằng tiếng Anh mô tả sơ cái mình nghĩ trong đầu và thường là kết quả không hề tạo ra hình ngon, cũng không đúng ý. Nguyên nhân đơn giản là máy nó không hiểu bạn muốn chính xác cái gì nên chỉ cho ra kết quả cực kỳ chung chung.

Bởi thế, chúng ta cần có một prompt "đúng". Khái niệm đúng ở đây chính xác hơn là một câu lệnh làm sao mà máy nó hiểu được chúng ta muốn chính xác cái gì theo ngôn ngữ hơi của nó một chút. Tương tự như hồi xưa muốn vẽ ra một bức hình bằng Photoshop thì bạn phải biết xài công cụ để ra lệnh cho nó. Chỉ khác bây giờ là thay vì click chuột vào các menu có sẵn, thì bạn gõ từ và ngồi đợi GPU chạy.

Dài dòng đủ rồi, chúng ta vào vấn đề luôn. Đầu tiên là tóm tắt các đề mục mà chúng ta sẽ cần nắm.

Toàn tập về Prompt trong Stable Diffusion.png

Toàn tập về Prompt trong Stable Diffusion.png

1. Thế nào là một Prompt tốt

Một prompt tốt đòi hỏi 2 yếu tố: chính xác và rõ ràng. Nó giống như bạn nhờ ai đó làm cái gì, bạn càng miêu tả chính xác thì người ta càng làm đúng ý bạn, đơn giản vậy thôi ha. Để đạt được sự chính xác và rõ ràng, bạn phải dùng đúng các từ khóa (keyword), sắp xếp nó theo thứ tự, theo cú pháp. Để làm được điều đó, đầu tiên chúng ta sẽ tạm chia từ khóa thành các nhóm yếu tố quyết định 1 bức ảnh:

Topic: Chủ đề chính của bức ảnh, mô tả đúng nhất về hình dung và ý định hình ảnh trong đầu của anh em. Một từ khóa topic tốt sẽ khởi đầu tốt cho các bước tiếp theo.
Camera Angle: các từ khóa xác định góc nhìn vào chủ thể, thể hiện được ý đồ của chúng ta.
Medium: các từ khóa liên quan tới công cụ, vật liệu, cách thức tạo ra tác phẩm (digital, oil, watercolor, photograph,...)
Style: Trường phái nghệ thuật của bức ảnh (đương đại, siêu thực, trừu tượng, cyberpunk,...)
Artist: phong cách của nghệ sĩ nào đó
Focus: từ khóa bổ sung độ chi tiết của hình ảnh
Lightning: từ khóa hoàn thiện ánh sáng của hình ảnh
Refined details: từ khóa bổ sung thêm các chi tiết khác để hoàn thiện bức hình

Những thứ cần chuẩn bị

Máy đã có cái Stable Diffusion: Anh em nào chưa rõ cách cài thì có thể vào

Hướng dẫn cài đặt Stable Diffusion
và
Cách hoạt động của Stable Diffusion và những công cụ cần biết để tạo ảnh đúng ý

Trong bài này mình sẽ dùng model DreamShaper 8 được build trên Stable Diffusion 1.5. Đây là model train cực nổi trên Civitai, anh em có thể vào link này để tải về và cài vào nha.

DreamShaper - 8 | Stable Diffusion Checkpoint | Civitai

1.1 Chọn chủ đề

Chủ đề chính là trái tim của một bức ảnh. Đây là hình dung cơ bản nhất trong đầu của anh em về bức ảnh. Cái này dễ mà khó, anh em phải định hình được trong đầu anh em muốn bức ảnh chủ đề gì, nói về cái gì (người hay vật), theme màu gì, hoạt động gì,...

Screen-Shot-2023-08-10-at-3.43.28-PM.png.webp

Screen-Shot-2023-08-10-at-3.43.28-PM.png.webp

Thí dụ cụ thể hơn, thí dụ như anh em đang nghĩ về "Nữ siêu anh hùng" thì chắc hơn 90% chúng ta sẽ dịch nó sang prompt tiếng Anh là "female superhero". Tuy nhiên prompt này quá chung chung. Hãy nghĩ thêm xíu nữa là: Nữ siêu anh hùng đó xuất hiện với diện mạo gì? Cô ấy mặc quần áo màu gì? Cô ấy có siêu năng lực gì? Cô ấy đang đứng yên hay đang hành động, chuyển động gì? Phông nền phía sau là gì?....

Bây giờ chúng ta sẽ lấy một thí dụ. Với tình huống này, trong đầu mình đã nghĩ tới Wonder Woman trong phim Marvel do em gái Gal Gadot thủ vai.

huong dan toan tap prompt stable diffusion-12.jpg

huong dan toan tap prompt stable diffusion-12.jpg

Thử để prompt: A female superhero
Bây giờ Prompt ở đây mình sẽ để nhanh là

Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers

Rõ ràng anh em thấy kết quả có sự khác nhau rõ ràng khi chúng ta nói rõ hơn chút xíu. Tuy nhiên, thí dụ này vẫn còn quá dễ khi mà Gal Gadot hay Wonder Woman quá nổi tiếng, quá đông fan, khiến cho hình ảnh của cô này chắc chắn sẽ được người ta nhét vào mô hình rất nhiều. Vậy nếu muốn tạo nhân vật khác, người khác thì sao. Lúc đó chúng ta cần phải miêu tả kỹ hơn nữa.

1.2 Kiểm soát camera

Một trong những yếu tố quan trọng ảnh hưởng tới bức ảnh AI tạo ra cho chúng ta chính là góc máy. Việc xác định luôn góc máy (tuy không bắt buộc) nhưng nó sẽ giúp chúng ta định hình cụ thể hơn bố cục hình ảnh trong đầu, từ đó dễ làm những bước sau hơn.

Góc nhìn

Screenshot 2024-04-02 at 1.37.29 PM.jpg

Trong chụp ảnh, mỗi góc máy khác nhau sẽ cho ra những bức ảnh khác nhau, với những ý đồ, mục đích khác nhau. Tương tự như vậy, khi tạo ảnh bằng SD thì anh em cũng cần tưởng tượng anh em đang đứng nhìn chủ thể đó ở góc nào (dưới lên, ngang qua, trên xuống,..) và nói điều đó cho SD biết bằng từ khóa trong prompt. Bên dưới đây là một hình minh họa các "từ khóa" tương ứng với các góc máy.

Thử tiếp thí dụ ở prompt bên trên, bây giờ chúng ta thử 2 prompt sau:

huong dan toan tap prompt stable diffusion-11.jpg

huong dan toan tap prompt stable diffusion-11.jpg

Trái: High angle shot of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers
Phải: Low angle shot of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers

Có thể thấy sau khi cố định góc máy lại, chúng ta sẽ thể hiện được nhiều hơn góc nhìn vào chủ thể, có cảm xúc hơn chút.

Độ cao camera

Screenshot 2024-04-02 at 1.37.37 PM.jpg

Cái này sẽ thường áp dụng khi anh em tạo ảnh chủ thể là người. Chúng ta sẽ có những từ khóa về độ cao của camera, quyết định xem là anh em muốn ảnh thẻ, chân dung, bán thân hay cả người,... Thêm một chi tiết khác là frame hình, anh em muốn đặc tả vào miệng, mắt, hay muốn lấy chân dung cả mặt, hay lại xa hơn nữa để lấy cảnh xung quanh nhiều hơn,.... Hình bên trên là một số từ khóa hay dùng kèm theo các minh họa vị trí cho anh em dễ hình dung.

Screenshot 2024-04-02 at 1.37.49 PM.jpg

Độ cao của camera và góc máy cận, trung hay toàn cảnh sẽ làm rõ hơn cảm xúc, ý đồ mà chúng ta muốn trong bức ảnh đó. Anh em nào làm phim hay chụp ảnh street life này nọ sẽ rất rõ điều này. Thí dụ như góc cận, cao ngang mắt chủ thể sẽ đặc tả nhân vật đó nhiều hơn, còn máy toàn rộng ra sẽ đặt chủ thể vào môi trường, lúc này phải có màu sắc, theme, ánh sáng hay các vật khác trong background xung quanh để diễn tả nhiều hơn.

Lấy tiếp thí dụ bên trên cho anh em dễ hình dung.

huong dan toan tap prompt stable diffusion-10.jpg

huong dan toan tap prompt stable diffusion-10.jpg

Đây là prompt mình muốn có cảnh toàn thân (toàn thân lâu lâu sẽ dễ xuất hiện rách hoặc lỗi trên quần áo chủ thể): Full body shot of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with holo outline powers
Giờ thử một Prompt khác (phải): Closeup shot of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers

huong dan toan tap prompt stable diffusion-09.jpg

huong dan toan tap prompt stable diffusion-09.jpg

Rồi thử thêm góc máy từ trên xuống: Closeup shot of Gal Gadot as a female super hero, high angle shot dark mysterious, yellow magic dust with orange holo outline powers

Phần góc máy, lấy cận hay toàn này là tùy vào ý muốn của anh em. Lắm lúc phải thử đi thử lại nhiều kiểu khác nhau chúng ta mới ra được góc máy ưng ý, diễn tả đúng cái chúng ta muốn, có cảm xúc.

Miêu tả về camera

Trong một số tình huống, chúng ta có thể dùng thêm các thông số phần cứng camera như thương hiệu máy ảnh, tiêu cự ống kính, tốc độ chụp để diễn tả cho model biết là chúng ta cần frame hình, màu sắc ra sao.

Thí dụ prompt ống kính máy ảnh:

Wide angle shot, 10mm focal length, 35mm
50mm focal length
85mm focal length, 200mm focal length

Thí dụ prompt tốc độ chụp

Slow shutter speed, 1/30 shutter speed
Fast shutter speed, 1/1000s

Thí dụ vài prompt tên máy ảnh:

Leica Q2
Fujifilm X-T4
Fujifilm X-T3
Canon EOS 5D Mark
Nikon D850
Sony A6400
Sony A7 IV
Fujifilm X100V

1.3 Medium của bức ảnh

Khái niệm này để diễn tả công cụ hay nguyên liệu mà người nghệ sĩ dùng để tạo ra bức ảnh, thí dụ như tranh sơn dầu sẽ khác với tranh vẽ màu nước, lại khác với ảnh chụp bằng máy ảnh hay ảnh dựng đồ họa máy tính. Việc chọn đúng medium không chỉ đơn thuần là khía cạnh thẩm mỹ mà nó quyết định luôn phong cách của bức ảnh do SD gen ra.

Một số từ khóa thường gặp để tạo ảnh trong SD có thể kể tới là:

Illustration: thường có liên quan tới các yếu tố nét vẽ bằng tay (bằng bút chì, mực, bút dạ hoặc vẽ tay trên phần mềm, tablet,...). Cái này kết hợp thêm với các từ khóa nữa như sketches (nét vẽ đơn bằng bút chì, bút mực), black and white / BW / Colors có màu hay đơn sắc,...
Oil Painting: các ảnh có chiều sâu, chồng nhiều lớp màu lên nhau để tạo chiều sâu, miêu tả ánh sáng,... thêm vào đó sẽ có thêm các yếu tố như tranh vẽ lâu sẽ khô dần theo thời gian,....
3D rendering: đây là một dạng digital Art, hình ảnh sẽ là các model 3 chiều, các cảnh được dựng bằng 3D. Này anh em nhìn vào cảm nhận ngay bởi độ sắc nét, chi tiết, ánh sáng và shadow phân biệt rõ,...
Photorealistic: từ khóa này thường liên quan tới ảnh chụp, ảnh thực, muốn tạo ảnh giống như chụp bằng máy ảnh, chủ thể và cả các chi tiết khác xung quanh sẽ giống ngoài đời hơn về sắc thái màu sắc, tương phản, ánh sáng,...

huong dan toan tap prompt stable diffusion-08.jpg

Thử một prompt (trái): Oilpainting of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers
Và prompt (phải): Anime image of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers

Anh em lưu ý là từ một medium trên đây sẽ rẽ ra nhiều nhánh khác, nghĩa là thêm các từ khóa khác, thí dụ như Film Noir, Black and White photography, Anime, Vector Illustration,.... nhiều lắm. Cái này anh em tham khảo ở link bên dưới và cứ tự khám phá cho vui nha.

1.4 Trường phái nghệ thuật - Style

Screenshot 2024-04-02 at 1.53.44 PM.jpg

Trường phái được chi phối bởi không chỉ kỹ thuật tạo ra tác phẩm mà còn phương pháp, rồi đặc tính riêng như cách sử dụng màu, chi tiết, hình thể,... đại khái vậy chứ mình cũng không rành về nghệ thuật lắm đâu. Ở đây chúng ta sẽ có một số từ khóa hay dùng trong SD:

Impressionist: trường phái ấn tượng
Surrealist: trường phái siêu thực
Pop Art: trường phái nghệ thuật đại chúng
Hyperrealistic: trường phái cực thực (cái này mình cũng mới biết luôn)
Fantasy: Kỳ ảo, anh em nào tạo như phù thủy, rồng, huyền thoại, các trận chiến thần thánh,... này nọ là có cái này.
Anime: Cái này khỏi phải bàn nhiều nữa rồi, wibu mãi đỉnh
Cinematic: kiểu cảnh trong phim, ảnh mang tính chất điện ảnh
Cyberpunk: phong cách khoa học viễn tưởng
Steampunk: cũng là một nhánh của khoa học viễn tưởng nhưng phong cách thời Victoria với những công nghệ vận hành bằng bánh răng, động cơ hơi nước,...

Thêm một số từ khóa style khác: Anime Style, Photographic Style, Digital Art Style, Comic Book Style, Neon Punk Style, Isometric Style, Low Poly Style, Origami Style, Line Art Style, 3D Model Style, Pixel Art Style, Abstract Art Style, ASCII Art Style, Cubism Art Style, Metaphysical Art Style, Pop Surrealism Style, Rococo Art Style, Surrealism Art Style, Fauvism Art Style

Tất nhiên là danh sách các phong cách còn nhiều nữa, anh em cứ nghịch mới được. Giờ mình thử bổ sung thêm vào hình em Wonder Woman nha.

huong dan toan tap prompt stable diffusion-14.jpg

huong dan toan tap prompt stable diffusion-14.jpg

Prompt: Hyperrealistic full body portrayal of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers

1.5 Phong cách của nghệ sĩ

Screenshot 2024-04-02 at 1.44.48 PM.jpg

Trong lĩnh vực nghệ thuật thì những nghệ sĩ lớn, nổi tiếng đều sẽ có một phong cách riêng, thể hiện rõ trong tác phẩm mà nhìn vào là nhận biết là tác phẩm của người đó ngay. Bởi thế nên sử dụng thêm tên của nghệ sĩ làm từ khóa cũng là một cách để tạo ra bức hình mà anh em muốn, thể hiện cảm xúc, ý đồ,... hay thậm chí là "nhái" tác phẩm của nghệ sĩ đó.

huong dan toan tap prompt stable diffusion-07.jpg

huong dan toan tap prompt stable diffusion-07.jpg

Thử một prompt (trái): drawing of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with holo orange outline powers, in style of Aaron Horkey
Prompt khác (phải): colorful water color drawing, full body of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers, in style of Agnes Cecile

Screenshot 2024-04-02 at 1.46.40 PM.jpg

Cái này thì muôn trùng, anh em vào link supagruen.github.io/StableDiffusion-CheatSheet/ để tham khảo rất nhiều phong cách trong đó, tha hồ mà chọn.

Thêm một link nữa cho anh em lựa chọn so sánh là Artist list for Stable Diffusion XL

1.6 Độ chi tiết

Sau khi đã xác định bố cục, góc máy, phong cách ảnh,.... thì bây giờ chúng ta bắt đầu dùng thêm các từ khóa để làm ảnh có chi tiết cao hơn, nhìn hấp dẫn và đã mắt hơn. Một số từ mà mình luôn bỏ vào prompt sẽ là: 8k, ultra high res, sharp focus,... những từ này sẽ "thuyết phục" Stable Diffusion tạo ra ảnh độ chi tiết cao hơn. Chỗ này mình chưa đề cập tới độ phân giải của bức ảnh, nhưng dù 512. x 768 thì chi tiết trong hình được thể hiện nhiều cũng sẽ cho chất lượng tổng thể cao lên.

Thử phát qua 2 prompt bên dưới:

huong dan toan tap prompt stable diffusion-06.jpg

huong dan toan tap prompt stable diffusion-06.jpg

Trái: Photorealistic, 8k, ultra high res, full body portrayal of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers
Phải: Photorealistic, 8k, ultra high res, close up portrayal of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers

1.7 Miêu tả ánh sáng

Vẽ tranh hay chụp ảnh ngoài đời hay vẽ ảnh trên máy tính, thì ánh sáng cũng là yếu tố cực kỳ quan trọng, tạo ảnh bằng SD cũng không ngoại lệ. Việc tổ chức vùng sáng và vùng tối trong bức ảnh sẽ giúp nó có chiều sâu hơn, có cảm xúc và tâm trạng hơn.

Hơn thế, trong việc tạo ảnh bằng AI, các từ khóa có liên quan tới ánh sáng là công cụ cực mạnh để tinh chỉnh, định hình bức ảnh, giúp nó "art" hơn, đẹp hơn. Những từ khóa hay dùng phổ biến sẽ là "cinematic lightning" và "perfect lighting" sẽ giúp SD định hướng hơn trong việc tạo ra các bức ảnh có hồn hơn.

Mình thử cố định seed, một prompt có yêu cầu về ánh sáng và một cái thì không cho anh em dễ hình dung nha.

huong dan toan tap prompt stable diffusion-14.jpg

Trái: Photorealistic, 8k, ultra high res, full body portrayal of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers
Phải: Photorealistic, 8k, ultra high res, full body portrayal of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers, cinematic lightning, perfect lightning

1.8 Tinh chỉnh thêm các yếu tố trong hình

Mặc dù nắm hết các công cụ cơ bản, rồi cũng nắm luôn cả các thành phần của một prompt, rồi có cả model ngon,... nhưng không phải lúc nào chúng ta cũng có thể tạo ra ngay một tấm hình hoàn hảo. Việc tạo ra bức ảnh đó là một quá trình, thử đi thử lại, chỉnh tới chỉnh lui, thêm thắt các yếu tố của chủ thể, của background,... mới tạo ra được sự ưng ý. Đây có lẽ là sự beauty của việc chơi ảnh bằng Stable Diffusion.

Tiếp tục hoàn thiện hình của Wonder Woman. Bây giờ mình thử thêm một số yếu tố vào nha.

huong dan toan tap prompt stable diffusion-05.jpg

huong dan toan tap prompt stable diffusion-05.jpg

Photorealistic, 8k, ultra high res, full body portrayal of Gal Gadot as a female super hero, dark mysterious, yellow magic dust with orange holo outline powers, cinematic lightning, perfect lightning, medieval city in background

Photorealistic, 8k, ultra high res, full body portrayal of Gal Gadot as a dark, mysterious female super hero in a high fantasy setting, highly detailed superhero suit, intricate details, yellow magic dust with orange holo outline powers, cinematic lightning, perfect lightning, medieval city in background

huong dan toan tap prompt stable diffusion-04.jpg

huong dan toan tap prompt stable diffusion-04.jpg

Photorealistic, 8k, ultra high res, full body portrayal of Gal Gadot as a dark, mysterious female super hero in a high fantasy setting, medieval superhero suit, highly detailed superhero suit, intricate details, yellow magic dust with orange holo outline powers, cinematic lightning, perfect lightning, medieval city in background

Photorealistic, 8k, ultra high res, full body portrayal of Gal Gadot as a dark, mysterious female super hero in a high fantasy setting, medieval superhero suit, highly detailed superhero suit, intricate details, yellow magic dust with orange holo outline powers, casting spell, cinematic lightning, perfect lightning, medieval city in background, full moon, dark souls, moonlight shining through hair

2. Negative Prompt

Nếu như phần trên là Prompt - những gì chúng ta muốn có trong bức hình mà SD tạo ra, thì Negative Prompt thể hiện luôn những gì mà chúng ta không muốn có trong tấm hình. Chắc chắn, đó sẽ là những từ khóa liên quan tới những thứ mà chúng ta không hề muốn xuất hiện đối với chủ thể, thí dụ nư "ugly" hoặc "deformed" hay "hand" (bàn tay, vốn dĩ là điểm yếu của SD 1.5)

Thường thì mình sẽ có một list các từ khóa luôn bỏ vào trong Negative Prompt trong mọi hình muốn tạo, bất kể chủ đề gì.
ugly, bad anatomy, bad hands, bad proportions, bad quality, blurry, cropped, deformed, disconnected limbs, out of frame, out of focus, dehydrated, error, disfigured, disgusting, extra arms, extra digit, extra limbs, extra hands, fused fingers, gross proportions, long neck, low res, low quality, jpeg, jpeg artifacts, normal quality, malformed limbs, mutated, mutated hands, mutated limbs, missing arms, missing fingers, picture frame, poorly drawn hands, poorly drawn face, text, signature, username, watermark, worst quality, collage, pixel, pixelated, grainy, signature

Những Negative Prompt khi tạo ảnh con người:
Bad anatomy, Bad hands, Amputee, Missing fingers, Missing hands, Missing limbs, Missing arms, Extra fingers, Extra hands, Extra limbs, Mutated hands, Mutated, Mutation, Multiple heads, Malformed limbs, Disfigured, Poorly drawn hands, Poorly drawn face, Long neck, Fused fingers, Fused hands, Dismembered, Duplicate, Improper scale, Ugly body, Cloned face, Cloned body, Gross proportions, Body horror, Too many fingers

Những Negative Prompt khi tạo ảnh Realistic
Cartoon, CGI, Render, 3D, Artwork, Illustration, 3D render, Cinema 4D, Artstation, Octane render, Painting, Oil painting, Anime, 2D, Sketch, Drawing, Bad photography, Bad photo, Deviant art

Negative Prompt Không cho tạo ảnh NSFW
Nsfw, Uncensored, Cleavage, Nude, Nipples

Negative Prompt hay dùng khi tạo ảnh phong cảnh, thiên nhiên
Overexposed, Simple background, Plain background, Grainy, Portrait, Grayscale, Monochrome, Underexposed, Low contrast, Low quality, Dark, Distorted, White spots, Deformed structures, Macro, Multiple angles

Negative Prompt khi tạo ảnh các vật thể
Asymmetry, Parts, Components, Design, Broken, Cartoon, Distorted, Extra pieces, Bad proportion, Inverted, Misaligned, Macabre, Missing parts, Oversized, Tilted

Thử thí dụ bên dưới, anh em sẽ thấy chất lượng bức ảnh sẽ được tăng thêm một bậc nữa.

huong dan toan tap prompt stable diffusion-13.jpg

huong dan toan tap prompt stable diffusion-13.jpg

Prompt:
Photorealistic, 8k, ultra high res, full body portrayal of Gal Gadot as a dark, mysterious female super hero in a high fantasy setting, medieval superhero suit, highly detailed superhero suit, intricate details, yellow magic dust with orange holo outline powers, casting spell, cinematic lightning, perfect lightning, medieval city in background, full moon, dark souls, moonlight shining through hair

Negative Prompt:
lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry

3. Các cú pháp để điều khiển từ khóa

Từ khóa rõ ràng có vai trò tối quan trọng trong việc tạo ảnh bằng AI. Phần trên chúng ta đã bàn về nội dung của từ khóa. Tuy nhiên, không phải các từ khóa có vai trò ngang nhau mà thay vào đó, chúng ta có thể nhấn mạnh, giảm tác dụng, pha trộn các từ khóa để model chạy ra tấm hình theo ý muốn.

3.1 Cú pháp cần biết

Để điều khiển độ mạnh / nhẹ của từ khóa chúng ta xài cú pháp là

(từ khóa:hệ số)

Cú pháp này có thể áp dụng cho hầu hết các từ khóa, từ vật thể, tới ánh sáng, phong cách, trường phái,... Hệ số đó nhỏ hơn 1 thì từ khóa sẽ được giảm tác động, ngược lại càng lớn hơn 1 thì sẽ càng được nhấn mạnh. Lấy thí dụ bên dưới. Bây giờ chúng ta thử tạo 3 tấm hình, xài cú pháp này cho từ khóa "mặt trăng" ở các hệ số 0.5, 1.1 và 1.3.

huong dan toan tap prompt stable diffusion-03.jpg

huong dan toan tap prompt stable diffusion-03.jpg

Photorealistic, 8k, ultra high res, full body portrayal of Gal Gadot as a dark, mysterious female super hero in a high fantasy setting, medieval superhero suit, highly detailed superhero suit, intricate details, yellow magic dust with orange holo outline powers, casting spell, cinematic lightning, perfect lightning, (full moon:X) medieval city in background, full moon, dark souls, moonlight shining through hair

Một công thức khác mà chúng ta cần nhớ để điều chỉnh sức mạnh của từ khóa là dùng ( ) và [ ]. Cú pháp (từ khóa) sẽ tăng sức mạnh của từ khóa theo hệ số 1.1, nghĩa là tương đương với (Từ khóa:1.1). Cú pháp [Từ khóa] sẽ giảm sức mạnh của từ khóa theo hệ số 0.9, nghĩa là tương đương với (từ khóa:0.9). Điểm đặc biệt ở đây là () hoặc [] có thể dùng nhiều lần. Thí dụ:

(từ khóa) cho kết quả là nhấn mạnh theo hệ số 1.1
((từ khóa)) cho kết quả là nhấn mạnh theo hệ số 1.21
(((từ khóa))) cho kết quả là nhấn mạnh theo hệ số 1.33

Tương tự

[từ khóa] cho kết quả giảm theo hệ số 0.9
[[từ khóa]] cho kết quả giảm theo hệ số 0.81
[[[từ khóa]]] cho kết quả giảm theo hệ số 0.73

3.2 Ảnh hưởng của thứ tự của từ khóa

Thứ tự các từ khóa trong prompt không phải ngẫu nhiên mà phải có sự sắp đặt. Model sẽ nhìn vào vị trí của từ khóa nằm ở đầu hay cuối để xác định tầm quan trọng của từ khóa. Các từ khóa càng nằm ở đầu thường có trọng lượng hơn so với các từ khóa nằm về phía sau.

Lưu ý ở đây là việc xáo trộn thứ tự các từ khóa trong quá trình tạo ảnh có thể tạo ra một bố cục hoàn toàn khác. Bởi vậy, nếu đang tạo hình, bạn chỉ muốn điều chỉnh một khía cạnh nào đó của hình thì nên chỉnh bằng cú pháp ( ) thay vì đổi thứ tự.

3.3 Định kiến của một model tạo ảnh

Mỗi model AI đều được train từ một bộ dữ liệu cực lớn. Trong bộ data này, mặc dù cực kỳ phong phú nhưng đồng thời, nó cũng có chứa luôn cả những dữ liệu bias hoặc định kiến. Do đó, kết quả đầu ra của model cũng có khả năng vô tình giữ lại hoặc thậm chí là khuếch đại các bias, định kiến này lên, dẫn tới các tác dụng phụ không mong muốn trong bức ảnh đầu ra.

Lấy thí dụ cho dễ hiểu với prompt: Photorealistic, 8k, ultra high res, portrayal of a software developer sitting at a desk programming, highly detailed, intricate details, (cinematic lighting, perfect lighting:1.1)

huong dan toan tap prompt stable diffusion-02.jpg

huong dan toan tap prompt stable diffusion-02.jpg

Thoạt nhìn có vẻ các bức ảnh này là bình thường, đều là hình ảnh của lập trình viên nam. Nhưng nghĩ kỹ hơn chút thì "ủa, trong prompt đâu có kêu tạo ra lập trình viên nam". Nhưng gần như mọi hình ảnh tạo ra với prompt này đều là nam lập trình viên chứ không có nữ. Đây chính là định kiến của một model. Nghĩa là cứ nhắc tới lập trình viên thì nó mặc định luôn phải là nam.

Không chỉ vấn đề giới tính mà bias kiểu này còn xuất hiện ở nhiều vấn đề khác, thí dụ như chủng tộc, độ tuổi, nghề nghiệp hoặc một số thuộc tính khác. Đây là vấn đề mà chúng ta cần thận trọng khi tạo ảnh bằng AI. Nhiều vụ lùm xùm khi tạo ảnh bằng AI gần đây cũng có 1 trong những nguyên nhân xuất phát từ đây. Điển hình như vụ model của Google tạo ảnh bị cho là phân biệt chủng tộc rồi ở VN luôn cũng có vụ tạo ảnh Chú bộ đội cầm súng mà lại là hình ảnh của một người lính / vũ khí không phải của VN.

photo-2024-04-02 13.58.38.jpeg

Nguyên tắc ở đây là máy tính, model có giới hạn của nó, tấm hình đầu ra thoạt nhìn có vẻ đẹp, hợp lý,... nhưng có thể mang thông tin sai lệch. Cái này thì hiện chỉ có con người mới xác định được dễ dàng. Do đó thận trọng khi tạo hình và sử dụng nó vẫn là yếu tố tiên quyết.

4. Tận dụng sức mạnh của các model custom

Cộng đồng chơi ảnh bằng Stable Diffusion đã phát triển cực kỳ sôi động. Vô số những model được train, custom lại đang tồn tại trên các trang chia sẻ như civitai, cho phép chúng ta có thể tạo ra vô số những bức ảnh mà chúng ta muốn với độ chi tiết, chính xác, đúng ý cực cao. Việc chọn một model giống như anh em thuê một họa sĩ theo đúng phong cách, trường phái, kỹ thuật, nội dung,... mà anh em muốn. Sau đó, anh em còn có thể tùy biến thêm bằng cách train tiếp cho mô hình đó, rồi cả gộp 2 model lại với nhau nữa (cái này mình sẽ share ở bài khác chứ ở đây nói về prompt thôi nha). Mình thử dùng đúng 1 câu lệnh bằng các model khác nhau, dễ thấy kết quả hình ảnh trả về là khác nhau.

Tuy nhiên, các model custom khác nhau cũng có thể "hiểu" những từ khóa theo cách khác nhau. Một từ khóa chỉ phong cách hoặc hiệu ứng nào đó trong model chuẩn sẽ được hiểu khác khi xài từ khóa đó ở model custom, khiến cho bức ảnh tạo ra đôi khi khác xa nhau. Điều này đặc biệt đúng đối với các từ khóa liên quan tới phong cách, thí dụ như từ khóa "retro" có thể tạo ảnh phong cách thập niên 70 ở model này, nhưng xài ở model khác thì lại là thập niên 80 hoặc 90.

5. Một số thủ thuật để hoàn thiện Prompt

Khi khởi động Stable Diffusion lên, lắm lúc chúng ta sẽ dễ rơi vào trạng thái không biết tạo cái gì, bắt đầu từ đâu. Lúc này anh em cũng đừng lo quá vì hiện có vô số công cụ và tài nguyên để giúp chúng ta có thêm ý tưởng sáng tạo.

Tìm ý tưởng từ những ảnh người khác tạo

Screenshot 2024-04-02 at 1.59.28 PM.jpg

Anh em cứ lên trên các trang chia sẻ như CivitAi, vô số các bức ảnh được tạo ra và ở đó, người ta cũng để luôn prompt được dùng để tạo ra ảnh đó. Đọc các prompt đó, anh em có thể bắt đầu có ý tưởng để tiếp tục làm một loạt hình cho riêng mình.

Tận dụng chat bot để nhờ nó cho ý tưởng prompt

Screenshot 2024-04-02 at 1.13.25 PM.jpg

Đây là cái mà mình dùng siêu nhiều để tham khảo các từ khóa về một chủ đề gì đó. Lắm lúc dùng cách này nó cũng cho mình biết được thêm một số từ khóa có thể xài để hoàn thiện bức hình, đặc biệt là các chi tiết trong hình. Thí dụ như mình đang muốn tạo một hình một elf cung thủ đang bắn bọn zombie, mình sẽ kêu Copilot "describe a scene where an elven archer is evading zombies", nó sẽ cho bạn cả một đoạn văn, trong đó có chứa những câu "giá trị" để tạo ảnh đại loại như:

"Elven archer with glistening armor, darting through a misty forest, with shadows of zombies looming behind."
"Moonlit scene of an elf with a drawn bow, her footsteps echoing as she flees from the haunting growls of pursuing zombies."
"An ancient woodland setting, where an elven warrior, arrows shimmering, races against time and the undead."

Quá nhiều từ khóa rồi, cứ căn vào đó mà phát triển ra thêm thôi.

Thử nghiệm và điều chỉnh cho tới khi ưng ý

Stable Diffusion đẹp ở chỗ là nó cho phép chúng ta điều chỉnh cực kỳ nhanh bằng nhiều cách, bao gồm cả thêm hay bớt, tăng độ mạnh nhẹ của các từ khóa cho tới khi nào vừa ý thì thôi. Nếu hồi xưa vẽ tranh thì người ta thêm hoặc xóa chi tiết rất lâu, sau này có photoshop hoặc các ứng dụng vẽ trên máy tính thì chúng ta phải biết xài công cụ và bản chất cũng xóa, vẽ thêm tới khi có tác phẩm ưng ý thì bây giờ với SD, chúng ta làm chuyện đó nhanh hơn rất nhiều, đổi lệnh một phát là ảnh mới xuất hiện ngay.

Tóm lại

Phù, xong rồi đó. Coi như tới đây là anh em đã nắm được hầu hết mọi thứ về một prompt tạo ảnh trong Stable Diffusion, bắt đầu đi sáng tạo được rồi. Xin được tóm tắt lại 10 điều cần ghi nhớ về Prompt trong SD.

Khởi đầu với sự rõ ràng: Trước khi đi sâu vào các kỹ thuật, hãy có một tầm nhìn rõ ràng. Bạn muốn hình ảnh cuối cùng truyền tải điều gì? Sự rõ ràng này là kim chỉ nam cho một prompt, định hướng tất cả các quyết định tiếp theo trong quá trình tạo ảnh.
Keyword Dynamics: Hiểu trọng lượng và ý nghĩa của từng từ khóa. Hãy nhớ rằng, thứ tự có tầm quan trọng và sự nhấn mạnh / giảm nhẹ cũng vậy. Sử dụng các công cụ như dấu ngoặc đơn và dấu ngoặc vuông một cách thận trọng để điều chỉnh độ mạnh của từ khóa.
Kiểm soát các định kiến: Hãy nhận thức được định kiến tiềm ẩn vốn có mà một số từ khóa nhất định. Nắm được điều này sẽ giúp bạn tránh những cạm bẫy và thành kiến tiềm ẩn, đảm bảo đầu ra phù hợp với hình dung trong đầu của bạn.
Negative Prompt là đồng minh của bạn: Vai trò của nó cũng quan trọng như những gì bạn muốn là những gì bạn không muốn. Negative Prompt giúp tinh chỉnh hình ảnh, loại bỏ các yếu tố không mong muốn và tinh chỉnh đầu ra cuối cùng.
Nắm bắt các custom model: Đối với những người tìm kiếm một phong cách hoặc gu cụ thể, các custom model là dành cho họ. Tuy nhiên, hãy chuẩn bị tinh thần điều chỉnh xíu sự hiểu biết của bạn về từ khóa khi chuyển đổi giữa các model.
Thử tới, thử lui: Prompt crafting là một quá trình lặp đi lặp lại. Bắt đầu đơn giản, và sau đó tinh chỉnh. Mỗi lần lặp lại sẽ đưa bạn đến gần hơn với kết quả hình dung của mình.
Luôn cập nhật: Thế giới tạo hình ảnh AI đang phát triển nhanh chóng. Luôn cập nhật các kỹ thuật, mô hình và thông tin chi tiết mới nhất từ các cộng đồng mã nguồn mở liên quan tới Stable Diffusion
Trách nhiệm đạo đức: Khi bạn đưa ra prompt, hãy nhận thức được những tác động xã hội rộng lớn hơn khi bạn tạo ra và phát tán tấm ảnh đó. Model dù gì vẫn là cái máy, trách nhiệm của nó là chạy thuật toán, còn bạn chịu trách nhiệm với xã hội về việc xài tấm hình đó.
Thử nghiệm và khám phá: Mặc dù các hướng dẫn là cần thiết, nhưng đừng ngại thử nghiệm. Đôi khi, sự kết hợp bất ngờ nhất có thể tạo ra kết quả ngoạn mục.
Ghi lại hành trình của bạn: Khi bạn tạo và tinh chỉnh lời nhắc, hãy ghi lại quy trình của bạn. Điều này không chỉ phục vụ như một tài liệu tham khảo có giá trị mà còn giúp bạn hiểu rõ hơn về nghề chơi này. Khi đã ghi lại, đừng ngại share quá trình lên Tinhte.vn để nhiều anh em tham khảo, bàn và giúp nhau xài tốt lên nha.

Tuy nhiên hãy nhớ Prompt dù quan trọng vẫn là 1 trong những yếu tố để sáng tạo ảnh bằng SD, ngoài ra chúng ta còn Lora, VAE, controlnet, inpainting, train model,... nhiều nữa, hẹn anh em ở các bài viết sắp tới nha.

congthanhgiong

VIP

4 tháng

có cách nào tái tạo hình trắng đen thành màu ko nhỉ?

traithanhnam90

TÍCH CỰC

@congthanhgiong Có đó bác,

hjepsi_culan

Định kiến là gì khi bro ko ghi rõ thì làm sao A.I nó hiểu đc mà vẽ ?

HIMYM

ĐẠI BÀNG

Wonder Woman trong phim Marvel????

Cũng đang giải trí với nó đây các bác, từ ngày biết đến cái SD ít dùng MXH hẳn!

01647-20240402170333-3210956341-Euler a-before-bmab.png

01627-20240402165204-3390800882-Euler a.png

01648-20240402170354-3210956341-Euler a.png

KamiSama91

Bài rất dễ hiểu và chi tiết. Mong sớm có bài tương tự hướng dẫn về prompt cho các mô hình ngôn ngữ như ChatGPT Gemini…

drizzles

Em Gal Dagot này có nụ cười rất là...mời gọi, rất sexy. Nhưng trong các ảnh ở trên ko có ảnh nào cười.

Donald Trump

Nói chung là Gal Gadot ngon thật các ông ạ!

LamTung91

@Donald Trump Trump có vợ người mẫu rồi mà vẫn thèm à 😆

@LamTung91 Thèm là trạng thái bình thường thôi mà. 😁

batmanletruc

Bài này xứng đáng 10/10, quá kì công và mang tính kĩ thuật
Dốt như em xin phép chỉ ngắm ảnh thôi

Thiên biến vạn hoá

CAO CẤP

Giờ nhiều quá nó lại bớt hấp dẫn. Người tạo ra cũng mang máng giống nhau.

SilverWolf501

@Thiên biến vạn hoá Thì con AI nó có biết gì đâu, nhiều người duyệt 1 'style' là ok thì con AI cứ theo khuynh hướng đấy thôi 😆)) sáng với chả tạo :v

Mrraj36

@Thiên biến vạn hoá AI nó tạo ra cũng dựa vào dữ liệu nạp vào. Mà dữ liệu cũng từ người này truyền tay người kia.
Còn sự sáng tạo của nó đôi khi nằm ở sự tưởng tượng của người sử dụng nó thôi

Ng Mạnh Huy

Chủ đề hay, bài viết chất lượng

Momus

Bài viết hay, công phu.

olajuwon

bài hay quá, thanks op

ndbpro

tạo ảnh của trang này cũng sài Diffusion bản light cho ae nào muốn quick-test và free
https://monai.vn

MonAI.vn - AI Assistant

Trợ lý ảo Mon AI là ứng dụng công nghệ AI, hỗ trợ công việc như dịch thuật, viết thư, hỏi đáp tìm kiếm. Vận hành bởi Tripical

monai.vn

Anh em nào muốn vọc sâu nên tự cài và run trên máy, sẽ custom được nhiều hơn

tahitivn

Tool ai để phục chế ảnh cũ có giống cái này ko bác?

ND Minh Đức

@tahitivn Được đó bạn

kixx

có thể định hướng cho AI về topic mình mún vẽ ko
kiểu như
do u know wonderwoman
do u know bloody moon
do u know thunder lightning
->okay .combine those 3 into a photo 😁
https://photo2.tinhte.vn/data/attachment-files/2024/04/8298626_huong_dan_toan_tap_prompt_stable_diffusion-04.jpg

tourist123

có thể gọi là chiên da tạo ảnh😃

thagnv

Có nút donate tiền không? Mình muốn mời mod ly cà phê!

@thagnv VCB ndminhduc nha bạn hihihihi

@ND Minh Đức Nhờ chuyển khoản cho bạn mà mình mới biết tính năng chuyển tiền qua nickname này. 😘

khakute

Bài viết hay quá, lưu lại để nghiên cứu thôi, thanks chủ thớt.

HDD18HAMLONG

Cách nhanh nhất để học Prompt và nhiều thứ khác, là "học ngược": lên Civitai bấm vào các hình mà họ đăng, lấy Prompt và các thông số họ public rồi về chỉnh sửa lại để thấy sự thay đổi, từ đó rút ra và sẽ dần hiểu và làm chủ đc quy luật, nguyên lý vận hành

Hướng dẫn toàn tập về prompt tạo ảnh trong Stable Diffusion

1. Thế nào là một Prompt tốt

2. Negative Prompt

3. Các cú pháp để điều khiển từ khóa

4. Tận dụng sức mạnh của các model custom

5. Một số thủ thuật để hoàn thiện Prompt

Tóm lại

MonAI.vn - AI Assistant

CHỦ ĐỀ TƯƠNG TỰ

Đọ sức mạnh AI Mỹ và AI Trung Quốc: Runway Gen-3 Alpha vs Kuaishou Kling AI

X dùng bài đăng của người dùng dạy AI mà không thông báo

The Information: Chi phí vận hành khổng lồ có thể khiến OpenAI hết tiền trong 12 tháng tới

iPhone 16 và Apple Intelligence: iFan đừng nên kỳ vọng quá nhiều