Stable Diffusion
המדריך המלא — ComfyUI, SDXL, Flux ו-LoRA
יצירת תמונות AI חינמית, ללא מנוי, עם שליטה מוחלטת. מה זה Diffusion Process, איך מתקינים ComfyUI, איך כותבים Prompts, ControlNet, LoRA, ו-Flux.1 — הכל כאן.
מה זה Stable Diffusion ולמה הוא מהפכני?
Stable Diffusion הוא מודל Open Source ליצירת תמונות מטקסט שניתן להריץ מקומית על המחשב שלך — ללא תשלום, ללא מנוי, ללא מגבלות תוכן. שוחרר ב-2022 על ידי Stability AI ושינה לחלוטין את עולם יצירת תמונות AI.
בשונה מ-Midjourney (שרת, בתשלום) או DALL-E (API בתשלום), SD רץ אצלך בבית. אף אחד לא רואה את הפרומפטים שלך, אין הגבלות על כמות התמונות, ואפשר לשנות כל היבט של תהליך היצירה.
איך עובד Diffusion Process?
תהליך ה-Diffusion (הפצה) עובד בשני שלבים:
המודל לומד להפוך רעש לתמונה, מונחה ע"י ה-Prompt שכתבת (CLIP Text Encoding)
השוואה מהירה — SD vs Midjourney
| קריטריון | Stable Diffusion | Midjourney | DALL-E 3 |
|---|---|---|---|
| עלות | חינמי לגמרי | $10/חודש+ | ChatGPT Plus |
| קלות שימוש | בינוני–מתקדם | קל מאוד | קל |
| שליטה על תמונה | מלאה לחלוטין | מוגבלת | מוגבלת |
| ControlNet / LoRA | כן — מובנה | לא | לא |
| פרטיות | מלאה — לוקלי | שרת Discord | שרתי OpenAI |
| גמישות מודלים | אלפי מודלים | מודל אחד | מודל אחד |
ה-Bottom line: אם אתה רוצה שליטה מקצועית, LoRA על פנים, ControlNet לתנוחות, batch generation — SD הוא הבחירה. אם אתה רוצה תמונות יפות מיד ב-2 שניות ללא הגדרות — Midjourney.
מה אפשר לעשות עם Stable Diffusion?
- txt2img — יצירת תמונה מטקסט (הפונקציה הבסיסית)
- img2img — עריכת תמונה קיימת לפי Prompt
- Inpainting — עריכה של אזור ספציפי בתמונה
- Outpainting — הרחבת גבולות תמונה לחלקים חדשים
- ControlNet — שמירה על תנוחה/עומק/קווים בשינוי סגנון
- LoRA Training — אימון מודל על פנים/סגנון ספציפי
- API / Automation — הפקת מאות תמונות בסקריפט Python
התקנה — ComfyUI ו-A1111
קיימות שתי אפשרויות עיקריות: ComfyUI (מומלץ — מבוסס Node Graph, עוצמתי, גמיש) ו-AUTOMATIC1111 (A1111 — ממשק קלאסי, קל יותר למתחילים). נסביר את שניהם.
ComfyUI — ההתקנה המומלצת
# שלב 1 — ודא Python 3.10–3.11 מותקן
python3 --version
# שלב 2 — שכפל את הריפו
git clone https://github.com/comfyanonymous/ComfyUI
cd ComfyUI
# שלב 3 — התקן תלויות
pip install -r requirements.txt
# שלב 4 — הורד מודל SDXL (1.8GB)
# הנח ב: models/checkpoints/dreamshaper_xl.safetensors
# שלב 5 — הפעל
python main.py --listen
# פתח בדפדפן: http://localhost:8188
AUTOMATIC1111 — ממשק קלאסי
# Mac / Linux:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
./webui.sh
# Windows:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
cd stable-diffusion-webui
webui-user.bat
# פתח ב: http://127.0.0.1:7860
- Google Colab — חפש "ComfyUI Colab" ב-GitHub. חינם, T4 GPU, ללא התקנה מקומית.
- Replicate.com — API + ממשק, ~$0.002 לתמונה. מצוין ל-ControlNet.
- RunPod.io — GPU בענן לפי שעה, ~$0.2/שעה. הכי גמיש לניסויים.
מודלים, Checkpoints ו-VAE
הלב של Stable Diffusion הוא ה-Checkpoint model — קובץ .safetensors שמכיל את משקלי הרשת העצבית. כל checkpoint נותן סגנון ואיכות שונים. הורד אותם מ-Civitai.com ו-HuggingFace.co.
Checkpoint Models — השוואה מלאה
| מודל | בסיס | גודל | סגנון | VRAM |
|---|---|---|---|---|
| SDXL Base 1.0 | SDXL | 6.5GB | כללי | 8GB |
| DreamShaper XL | SDXL | 6.5GB | אמנותי / ריאליסטי | 8GB |
| Juggernaut XL | SDXL | 6.5GB | פוטוריאליסטי | 8GB |
| RealVisXL v4 | SDXL | 6.5GB | ריאליסטי מאוד | 8GB |
| Flux.1 Dev | Flux | 24GB (FP8: 12GB) | מדהים | 16GB+ |
| Flux.1 Schnell | Flux | 24GB (GGUF: 8GB) | מהיר (4 צעדים) | 8GB GGUF |
VAE — מה זה ולמה חשוב?
ה-VAE (Variational Autoencoder) הוא ה"מתרגם" בין Latent Space (מרחב הלטנטי הפנימי של המודל) לתמונות פיקסל. כשה-VAE גרוע — תמונות יוצאות עם צבעים רוויים מדי, פרצופים מטושטשים, ועיניים מוזרות.
- SDXL VAE (
sdxl_vae.safetensors) — ה-VAE הרשמי ל-SDXL. הורד בנפרד ושמור ב-models/vae/ - vae-ft-mse-840000 — VAE מעולה ל-SD 1.5
ControlNet Models
- controlnet-canny-sdxl-1.0 — זיהוי קווי מתאר (Canny Edge)
- controlnet-depth-sdxl-1.0 — שמירת עומק 3D
- controlnet-openpose-sdxl-1.0 — שמירת תנוחת גוף
- ip-adapter-plus_sdxl_vit-h — העברת סגנון ופנים
LoRA Models
קבצי LoRA (.safetensors, 50–200MB) מוסיפים סגנונות ספציפיים מעל ה-Checkpoint הראשי. שמור ב-models/loras/.
כתיבת Prompts לתמונות
Prompt לתמונה עובד אחרת מ-Prompt לטקסט. הוא מבנה תיאורי, לא שאלה. הנוסחה הבסיסית:
[איכות] + [נושא ראשי] + [סגנון] + [תאורה] + [צלם/אמן] + [פרטים נוספים]
Prompt מלא — דוגמה עם הסבר
POSITIVE PROMPT:
(masterpiece, best quality:1.2), ohwx woman,
portrait photography, studio lighting, sharp focus,
bokeh background, wearing elegant suit, confident pose,
Canon EOS R5, f/1.8, 8k, skin texture, photorealistic
NEGATIVE PROMPT:
(worst quality, low quality:1.4), deformed hands,
extra fingers, blurry, watermark, text, jpeg artifacts,
bad anatomy, disfigured, ugly, mutation
משקל מילים — Prompt Weighting
(beautiful:1.3) # דגש חזק יותר — 30% יותר השפעה
(beautiful:0.7) # דגש חלש יותר
[fade out] # אפקט דעיכה
(red:1.2) dress # הדגשת הצבע בלבד
((very important)) # כפולים = דגש מקסימלי
פרמטרים קריטיים
| פרמטר | טווח | מומלץ | הסבר |
|---|---|---|---|
| CFG Scale | 1–20 | 6–8 | כמה המודל "מאזין" לפרומפט. גבוה מדי = אוברסטורייטד |
| Steps | 5–150 | 20–30 | כמה צעדים של Denoising. יותר = איכות גבוהה, איטי יותר |
| Seed | 0–∞ | -1 (אקראי) | מספר ה-seed קובע את נקודת ההתחלה. קבוע = תוצאה קבועה |
| Sampler | רבים | DPM++ 2M Karras | אלגוריתם ה-denoising. מכתיב איכות vs מהירות |
| Resolution | 512–2048 | 1024×1024 (SDXL) | SDXL מאומן על 1024. SD1.5 — 512×512 |
Quality Tags — רשימת עזר
# איכות גבוהה:
masterpiece, best quality, ultra detailed, 8k, RAW photo
# סגנון ריאליסטי:
photorealistic, hyperrealistic, photography, DSLR, film grain
# תאורה:
studio lighting, golden hour, cinematic lighting,
soft diffused light, dramatic shadows, rim lighting
# סגנון אמנותי:
oil painting, watercolor, digital art, concept art,
anime style, illustration, artstation
ComfyUI Workflows
ComfyUI עובד עם Node Graph — כל שלב ביצירת התמונה מיוצג ב-Node, וה-Nodes מחוברים ב-Wires. זה נותן שקיפות מלאה ושליטה על כל היבט של התהליך.
ה-Nodes הבסיסיים
- CheckpointLoaderSimple — טוען את מודל ה-Checkpoint
- CLIPTextEncode — מקודד את ה-Prompt ל-Embeddings (תמיד שניים: חיובי ושלילי)
- EmptyLatentImage — יוצר תמונה ריקה (Latent) בגודל הרצוי
- KSampler — הלב — מבצע את תהליך ה-Denoising
- VAEDecode — מפענח את ה-Latent לפיקסלים
- SaveImage — שומר את התמונה לדיסק
Workflow — img2img
# במקום EmptyLatentImage:
Load Image → VAEEncode → KSampler (עם denoise: 0.5–0.8)
# denoise 0.3 = שינוי קל (שמר 70% מהתמונה המקורית)
# denoise 0.8 = שינוי גדול (רק 20% מהמקור)
studio lighting"
שיתוף Workflows — JSON
כל workflow ב-ComfyUI ניתן לשמירה/טעינה כקובץ JSON. תמצא אלפי workflows ב-comfyworkflows.com ו-openart.ai/workflows. פשוט גרור לממשק.
ComfyUI-Manager מוסיף חנות של Custom Nodes — ControlNet, IP-Adapter, FaceSwap ועוד. התקן מ-GitHub: ComfyUI-Manager ← שמור ב-custom_nodes/
ControlNet — שליטה מדויקת על מבנה התמונה
ControlNet הוא אחד החידושים המשמעותיים ביותר ב-SD. הוא מאפשר לשלוט על מבנה, תנוחה, עומק ומתאר של התמונה — תוך שמירת הגמישות של הפרומפט. זה מה שמבדיל SD ממיד׳ג׳רני.
סוגי ControlNet ומתי להשתמש
- Canny Edge — מזהה קווי מתאר חדים. מצוין לשמירת צורות: בניינים, מוצרים, לוגואים
- Depth Map — מזהה עומק 3D. מצוין לשמירת מבנה סצנה בשינוי סגנון
- OpenPose — מזהה 18 נקודות גוף. מאפשר העתקת תנוחה לדמות אחרת
- IP-Adapter — Style Transfer — לוקח "essence" מתמונה אחת ומעביר לאחרת
- Lineart — שמירת קווי Lineart. מצוין לאנימציה ואיורים
- Inpaint — שמירת הרקע תוך שינוי אזורים ספציפיים
קוד Python — ControlNet עם Diffusers
from diffusers import StableDiffusionXLControlNetPipeline, ControlNetModel
import torch, cv2, numpy as np
from PIL import Image
# טעינת ControlNet Canny
controlnet = ControlNetModel.from_pretrained(
"diffusers/controlnet-canny-sdxl-1.0",
torch_dtype=torch.float16
)
# טעינת Pipeline
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0",
controlnet=controlnet,
torch_dtype=torch.float16
).to("cuda")
# הכנת Canny Edge
image = Image.open("input.jpg")
img_array = np.array(image)
canny = cv2.Canny(img_array, 100, 200)
canny_rgb = np.stack([canny] * 3, axis=-1)
canny_pil = Image.fromarray(canny_rgb)
# יצירת תמונה עם ControlNet
result = pipe(
prompt="portrait of woman, studio lighting, photorealistic, 8k",
negative_prompt="blurry, deformed, worst quality",
image=canny_pil,
controlnet_conditioning_scale=0.8, # עוצמת ControlNet
num_inference_steps=25,
guidance_scale=7.5
).images[0]
result.save("output_controlnet.png")
IP-Adapter — Style Transfer ו-Face Transfer
IP-Adapter הוא ControlNet מיוחד שלוקח תמונת "רפרנס" ומשתמש בה כמנחה לסגנון או לפנים. מצוין ליצירת תמונות עם אותו אדם בסגנונות שונים.
from diffusers import StableDiffusionXLPipeline
from ip_adapter import IPAdapterPlusXL
pipe = StableDiffusionXLPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0",
torch_dtype=torch.float16
).to("cuda")
ip_adapter = IPAdapterPlusXL(
pipe,
image_encoder_path="h94/IP-Adapter/models/image_encoder",
ip_ckpt="ip-adapter-plus_sdxl_vit-h.bin",
device="cuda"
)
ref_image = Image.open("face_reference.jpg")
images = ip_adapter.generate(
pil_image=ref_image,
prompt="portrait, oil painting style, Van Gogh",
negative_prompt="worst quality, blurry",
scale=0.6, # עוצמת ה-IP-Adapter
num_samples=1,
num_inference_steps=30,
seed=42
)
Flux.1 — המודל הטוב ביותר ב-2025
Flux.1 שוחרר ב-2024 על ידי Black Forest Labs (המייסדים המקוריים של Stable Diffusion) ומייצג קפיצת מדרגה משמעותית באיכות. 12 מיליארד פרמטרים, ארכיטקטורת Transformer (לא U-Net), ותמונות ריאליסטיות ברמה שלא נראתה קודם.
Flux.1 Dev vs Schnell vs Pro
| גרסה | Steps | מהירות | איכות | רישיון | VRAM |
|---|---|---|---|---|---|
| Flux.1 Dev | 20–50 | איטי | מעולה | Non-Commercial | 16GB+ (FP8: 12GB) |
| Flux.1 Schnell | 4 | מהיר מאוד | טוב | Apache 2.0 | 8GB (GGUF) |
| Flux.1 Pro | — | API בלבד | הטוב ביותר | Commercial API | API |
GGUF Quantization — Flux על 8GB VRAM
GGUF quantization מאפשר להריץ Flux.1 גם על כרטיסים עם 8GB VRAM על ידי דחיסת המשקלים מ-BF16 ל-Q4_K_S (4-bit). איכות מעט נמוכה יותר, אבל נגישה לרוב המשתמשים.
# הורד Flux.1 Schnell GGUF (8GB):
# https://huggingface.co/city96/FLUX.1-schnell-gguf
# בחר: flux1-schnell-Q4_K_S.gguf (~8.3GB)
# ComfyUI — השתמש ב-UNETLoader במקום CheckpointLoader:
# models/unet/flux1-schnell-Q4_K_S.gguf
# הגדרות מומלצות ל-Flux Schnell:
# Steps: 4 | CFG: 1 | Sampler: euler | Scheduler: simple
- Flux.1 Dev/Schnell — איכות תמונה גבוהה יותר, טקסט בתוך תמונות, פחות תמיכה ב-LoRA/ControlNet (עדיין בפיתוח)
- SDXL — ecosystem בשל, אלפי LoRAs, ControlNet מלא, מהיר יותר
- לצורכי יצירה כללית ב-2025 — Flux.1 Dev אם יש לך 16GB VRAM, אחרת SDXL
5 פרויקטים מעשיים
הפרויקטים מסודרים לפי רמת קושי — מתחיל עד מתקדם. כל פרויקט כולל מה צריך, מה ה-Workflow, ואיפה להתחיל.
Portrait Generator — דיוקן מקצועי מטקסט
יצירת פורטרטים מקצועיים עם תאורת סטודיו. מצוין ל-LinkedIn, פרופילים, כרטיסי ביקור.
Prompt: (masterpiece:1.2), professional headshot, business portrait,
studio lighting, sharp focus, bokeh, clean background, 8k
Product Photography — צילום מוצר AI
צלם מוצר על רקע לבן, ואז השתמש ב-img2img להחליף את הרקע לסביבה מעניינת. חוסך אלפי שקלים בצילום.
שלב 2: ComfyUI img2img, denoise: 0.4
Prompt: product on wooden table, coffee shop background,
warm lighting, professional photography, bokeh
Face Swap עם IP-Adapter
העבר פנים של אדם לסגנון ויזואלי אחר — ציור שמן, אנימציה יפנית, פוטוריאליזם. עם IP-Adapter.
מודל: SDXL + ip-adapter-plus_sdxl_vit-h.bin
IP Scale: 0.5–0.7 (נמוך = יותר גמיש, גבוה = דומה יותר)
Batch Generation API — 100 תמונות אוטומטית
סקריפט Python לייצור מאסיבי של תמונות דרך ComfyUI API. מצוין ל-Dataset, Stock Images, A/B Testing.
import requests, json, random
COMFY_URL = "http://127.0.0.1:8188"
def generate_image(prompt, seed=None):
seed = seed or random.randint(0, 2**32)
workflow = {
"3": {"class_type": "KSampler",
"inputs": {"seed": seed, "steps": 25, "cfg": 7,
"sampler_name": "dpmpp_2m", "scheduler": "karras",
"denoise": 1.0, "model": ["4", 0],
"positive": ["6", 0], "negative": ["7", 0],
"latent_image": ["5", 0]}},
"4": {"class_type": "CheckpointLoaderSimple",
"inputs": {"ckpt_name": "dreamshaper_xl.safetensors"}},
"5": {"class_type": "EmptyLatentImage",
"inputs": {"width": 1024, "height": 1024, "batch_size": 1}},
"6": {"class_type": "CLIPTextEncode",
"inputs": {"text": prompt, "clip": ["4", 1]}},
"7": {"class_type": "CLIPTextEncode",
"inputs": {"text": "worst quality, blurry", "clip": ["4", 1]}},
"8": {"class_type": "VAEDecode",
"inputs": {"samples": ["3", 0], "vae": ["4", 2]}},
"9": {"class_type": "SaveImage",
"inputs": {"images": ["8", 0], "filename_prefix": "batch"}}
}
r = requests.post(f"{COMFY_URL}/prompt",
json={"prompt": workflow})
return r.json()
prompts = [f"portrait of person {i}, studio lighting" for i in range(100)]
for i, p in enumerate(prompts):
generate_image(p, seed=i)
print(f"Generated {i+1}/100")
ComfyUI Custom Workflow — סגנון עקבי
Pipeline שלם לדמות עקבית: LoRA + IP-Adapter + ControlNet Pose. כל תמונה אותה דמות, תנוחות שונות.
IP-Adapter (face ref, scale:0.5) → ControlNet OpenPose →
CLIP Text Encode → KSampler (steps:30, cfg:6.5) →
VAE Decode → Save Image
תוצאה: אותה דמות, 20 תנוחות שונות, סגנון עקבי לחלוטין
גיליון עזר — Cheat Sheet מלא
Sampler Comparison — איזה Sampler לבחור?
| Sampler | מהירות | איכות | שימוש אידיאלי |
|---|---|---|---|
| DPM++ 2M Karras | מהיר | מעולה | ברירת מחדל מומלצת לרוב הצרכים |
| DPM++ 3M SDE Karras | בינוני | מצוין | פורטרטים ריאליסטיים, פרטים עדינים |
| Euler a | מהיר מאוד | טוב | ניסויים מהירים, variation גבוה |
| DDIM | בינוני | טוב | Inpainting, img2img — תוצאות עקביות |
| LCM | מהיר × 10 | בסיסי | Real-time preview, draft מהיר |
CFG Scale Guide
Resolution Best Practices
| מודל | רזולוציה מומלצת | פורטרט (9:16) | לנדסקייפ (16:9) |
|---|---|---|---|
| SD 1.5 | 512×512 | 512×768 | 768×512 |
| SDXL | 1024×1024 | 832×1216 | 1216×832 |
| Flux.1 | 1024×1024 | 832×1216 | 1344×768 |
Common Errors — תיקון שגיאות נפוצות
--lowvram (4GB) או --medvram (6–8GB). אפשר גם להוריד checkpoint FP8 במקום FP16.(blurry:1.3), (soft focus:1.2). נסה להעלות Steps ל-30–35.(deformed hands:1.4), (extra fingers:1.4), bad anatomy. או השתמש ב-ControlNet OpenPose ל-Pose מדויק..safetensors נמצא בנתיב הנכון: ComfyUI/models/checkpoints/. הפעל מחדש את ComfyUI לאחר הוספת קבצים.Quality Tags — רשימה מהירה
# Positive — תמיד להוסיף בתחילת ה-Prompt:
(masterpiece, best quality:1.2), ultra detailed, 8k
# Photography:
RAW photo, DSLR, sharp focus, f/1.8, Canon EOS R5
# Lighting:
studio lighting, golden hour, cinematic, rim light
# Faces:
detailed eyes, perfect skin, natural makeup
# Negative — תמיד להוסיף:
(worst quality, low quality:1.4), deformed,
extra fingers, bad anatomy, watermark, text,
blurry, duplicate, mutation, ugly
הצעדים הבאים
אחרי שמבינים SD — הצעד הבא הוא LoRA Training. אמן מודל על תמונות שלך ותמיד תקבל תמונות עם אותו אדם, סגנון, או מוצר.