arrow_forwardמדריכים / AI Image Training
מעודכן לאפריל 2026 30 דקות קריאה מתחילים ומתקדמים

מדריך LoRA Training
אימון מודלים לדמויות ו-Styles

LoRA (Low-Rank Adaptation) מאפשרת לך לאמן מודל AI על דמות, סגנון אמנותי או אובייקט ספציפי — ב-6GB GPU בלבד, תוך שעה, בגודל קובץ של 3MB. המדריך המלא מ-Dataset ועד ComfyUI.

~15h
להכנת Dataset מלא
6GB+
GPU RAM נדרש
3MB
LoRA vs 7GB Full Model

מה זה LoRA? Mode 2 — Beginner

LoRA, קיצור של Low-Rank Adaptation, היא טכניקת Fine-tuning שמאפשרת לאמן מודל AI ענק (כמו Stable Diffusion) על תמונות שלך — מבלי לשנות את כל המשקלות של המודל. התוצאה: קובץ קטן של 3–50MB שאפשר "לחבר" לכל מודל בסיס ולקבל תמונות עם הדמות, הסגנון, או האובייקט שאימנת.

האנלוגיה — ספר עם הערות שוליים

דמיין ספר ענק של 7GB (המודל הבסיסי). Full Fine-tuning = לכתוב ספר חדש לגמרי מאפס. LoRA = להוסיף הערות שוליים לשולי הדפים — קובץ קטן שמציין: "כשמדובר בדמות הזאת, שנה את הפלט כך וכך". המודל המקורי נשאר שלם, אבל עכשיו הוא "זוכר" את הדמות שלך.

lightbulb
מה LoRA הפכה אפשרי?

לפני LoRA, אימון מודל אישי דרש GPU של $10,000+, שרת ענן לשבועות, ו-100GB+ אחסון. כיום כל אחד עם כרטיס גרפי נוצל מ-$300 יכול לאמן LoRA בביתו בשעה אחת.

למה LoRA ולא Full Fine-tuning?

גישה GPU RAM זמן אימון גודל קובץ
Full Fine-tuning 24GB+ 24+ שעות 7GB
LoRA 6–8GB 1–3 שעות 3–50MB
QLoRA (Quantized) 4–6GB 2–4 שעות 3–20MB

מה אפשר לאמן עם LoRA?

איך LoRA עובד? Mode 4 — Deep Concept

כדי להבין LoRA צריך להבין את הרעיון של מטריצות Low-Rank. כשמודל AI לומד, הוא שומר את "הידע" בתוך מטריצות ענקיות של מספרים (Weights). Full Fine-tuning = לשנות את כולן. LoRA = לשנות קירוב זול של אותן מטריצות.

המתמטיקה מאחורי LoRA — A × B במקום W

במקום לשנות את המטריצה המלאה W (גדולה מאוד), LoRA מוסיפה שתי מטריצות קטנות: A ו-B. המכפלה A × B מקרבת את השינוי הרצוי תוך שמירה על ממד נמוך (Low-Rank). ה-W המקורי נשאר קפוא — רק A ו-B מתעדכנים.

Original Layer W (עצום — עשרות מיליוני פרמטרים)
         ↓
W_frozen + (A × B) = W_new
        (3MB LoRA בלבד)

דוגמה מספרית:
  W  = מטריצה 1024 × 1024 = ~4,000,000 פרמטרים
  A  = מטריצה 1024 × 16   =    16,384  פרמטרים
  B  = מטריצה 16   × 1024 =    16,384  פרמטרים
  LoRA סך הכל = 32,768 במקום 4,000,000 (פחות מ-1%!)

Rank (r) — כמה "חכמה" ה-LoRA?

פרמטר ה-Rank קובע את הממד של המטריצות A ו-B. ערכים נפוצים: 4, 8, 16, 32, 64. ככל שה-Rank גדול יותר — ה-LoRA מסוגלת ללמוד יותר, אבל גם גדולה יותר ועלולה ל-overfit על ה-dataset.

Rank גודל קובץ מתאים ל סיכון
r=4~3MBStyle קל, Flux.1Underfitting
r=8~6MBStyle בינוני, אובייקטיםנמוך
r=16~12MBדמות / Style מורכבנמוך–בינוני
r=32~24MBדמות עם פרטים רביםOverfitting בקל
r=64~48MBמקרים מיוחדים בלבדגבוה

Alpha — יחס הלמידה

פרמטר ה-Alpha קובע כמה חזק ה-LoRA "משפיע" על המודל במהלך האימון. הנוסחה הפנימית: weight = alpha / rank. Best practice מקובל: alpha = rank / 2. לדוגמה עם r=16, השתמש alpha=8 (weight=0.5).

settings
Best Practice — r=16, alpha=8

זהו השילוב הנפוץ ביותר בקהילה. Rank=16 נותן מספיק קיבולת ללמוד דמות מפורטת, ו-Alpha=8 שומר על יציבות האימון. לסגנונות אמנותיים — r=8, alpha=4 לרוב מספיק וחוסך זמן ודיסק.

Network Dimension vs Alpha — ההבדל המעשי

ב-Kohya SS, "Network Dimension" = Rank. "Network Alpha" = Alpha. הגדרת Alpha=Rank (למשל r=16, alpha=16) נותנת weight=1.0 — חזק יותר אבל פחות יציב. Alpha נמוך מה-Rank (alpha=rank/2 עד alpha=rank/4) הוא הגישה היציבה יותר.

איפה LoRA מוחלת — UNet Attention Layers

LoRA לא מוחלת על כל שכבות המודל. היא מתמקדת ב-Attention Layers של ה-UNet — אלה השכבות שאחראיות על "הבנה" של ה-prompt ויצירת הקשרים בין חלקי התמונה. הסיבה שהיא עובדת: רוב המידע החזותי הגנרי כבר "מוכן" בשכבות הקונבולוציה הקפואות.

הכנת Dataset Mode 3 — Curriculum

איכות ה-Dataset היא הגורם הכי חשוב להצלחת ה-LoRA. תמונות גרועות = LoRA גרועה, גם עם ההגדרות הכי טובות. שלב ההכנה הוא לרוב הקשה ביותר.

כמה תמונות צריך?

דרישות לתמונות

warning
מה להימנע ממנו ב-Dataset

אל תכלול תמונות מטושטשות, חתוכות חלקית, עם פילטרים חזקים (Snapchat/Instagram filters), תמונות שבהן הדמות מופיעה עם אנשים אחרים בולטים ברקע, או תמונות נמוכות-קונטרסט. כל תמונה "בעייתית" מלמדת את ה-LoRA דברים לא רצויים.

Caption Writing — תיאור כל תמונה

כל תמונה ב-Dataset צריכה קובץ TXT תואם עם caption מדויק. ה-Caption מלמד את ה-LoRA מה לקשר ל-trigger word שלך ומה כבר ידוע מהמודל הבסיסי. ככל שה-caption מדויק יותר, כך ה-LoRA לומדת בצורה נקייה יותר.

כלים ל-Auto-Captioning

Trigger Word — המפתח לדמות שלך

ה-Trigger Word הוא מילה ייחודית ב-prompt שמפעילה את ה-LoRA. חשוב שתהיה נדירה ולא מילה שהמודל כבר מכיר ומקשר לאחר.

מבנה תיקיות Dataset

dataset/
├── 20_ohwx_man/                   ← "20" = repeats, "ohwx_man" = class name
│   ├── photo001.jpg
│   ├── photo001.txt               ← "ohwx man, portrait, white background, looking at camera"
│   ├── photo002.jpg
│   ├── photo002.txt               ← "ohwx man, outdoor, smiling, casual clothing, sunny day"
│   ├── photo003.jpg
│   ├── photo003.txt               ← "ohwx man, side profile, studio lighting, dark background"
│   └── ... (סך הכל 20-30 זוגות)
└── regularization/                ← אופציונלי — תמונות "גבר כלשהו" למניעת drift
    ├── reg001.jpg
    ├── reg001.txt                 ← "a man, portrait, photorealistic"
    └── ...
folder
שם התיקייה קובע את ה-Repeats

המספר לפני שם הקלאס (20_ohwx_man) קובע כמה פעמים כל תמונה תיספר ב-epoch. עם 25 תמונות ו-20 repeats = 500 steps per epoch. עם 10 epochs = 5,000 steps. כלל אצבע: steps כוללים 1,500–3,000 לדמות.

אימון עם Kohya SS Mode 4 — Technical

Kohya SS הוא הכלי הנפוץ ביותר לאימון LoRA. יש לו GUI נוח ותמיכה ב-SDXL, SD 1.5, ו-Flux.1. ניתן להריץ לוקלית או ב-Google Colab.

אפשרויות התקנה

הגדרות חשובות ב-Kohya GUI

הגדרה ערך מומלץ (דמות) הסבר
Base ModelSDXL 1.0 / Flux.1-devהמודל שעליו מאמנים
LoRA Rank (network_dim)16גודל מטריצות A,B
Alpha8עוצמת ה-LoRA (rank/2)
Learning Rate (UNet)1e-40.0001 — קצב למידת UNet
Learning Rate (Text Encoder)5e-50.00005 — שמרני יותר
Epochs10–15מספר מעברים על ה-Dataset
Batch Size1–2תמונות במקביל (1 ל-6GB GPU)
Noise Offset0.1שיפור ניגודיות וצבע בפלט
OptimizerAdamW8bitיעיל בזיכרון GPU
LR Schedulercosine_with_restartsירידה חלקה בקצב הלמידה
Save every N epochs5שמירת checkpoints לבדיקה

הרצה ישירה עם Kohya Script

accelerate launch train_network.py \
  --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0" \
  --dataset_config=dataset.toml \
  --output_dir="./lora_output" \
  --output_name="my_character" \
  --network_module=networks.lora \
  --network_dim=16 \
  --network_alpha=8 \
  --learning_rate=1e-4 \
  --unet_lr=1e-4 \
  --text_encoder_lr=5e-5 \
  --optimizer_type="AdamW8bit" \
  --lr_scheduler="cosine_with_restarts" \
  --lr_warmup_steps=100 \
  --noise_offset=0.1 \
  --max_train_epochs=15 \
  --save_every_n_epochs=5 \
  --save_model_as=safetensors \
  --mixed_precision=fp16 \
  --gradient_checkpointing \
  --xformers

קובץ dataset.toml

[general]
shuffle_caption = true
caption_extension = ".txt"
keep_tokens = 1          # trigger word תמיד ראשון

[[datasets]]
resolution = 1024        # עבור SDXL (512 עבור SD 1.5)
batch_size = 1

  [[datasets.subsets]]
  image_dir = "./dataset/20_ohwx_man"
  class_tokens = "ohwx man"
  num_repeats = 20

  # Regularization — אופציונלי
  [[datasets.subsets]]
  image_dir = "./dataset/regularization"
  class_tokens = "a man"
  num_repeats = 1
  is_reg = true
schedule
בדוק Checkpoints, לא רק ה-Final

הגדר save_every_n_epochs=5 כדי לשמור checkpoints. השווה epoch 5, 10, 15 — לא תמיד ה-epoch האחרון הוא הטוב ביותר. לפעמים epoch 10 נותן דמות נכונה יותר מ-15 אם יש overfitting.

שימוש ב-LoRA Mode 4 — Practical

לאחר שהאימון הסתיים, קיבלת קובץ .safetensors. עכשיו אפשר לטעון אותו בכל ממשק ולהתחיל ליצור תמונות.

טעינה ב-ComfyUI

ב-ComfyUI מוסיפים Load LoRA node בין ה-Checkpoint Loader ל-KSampler:

Checkpoint Loader
      ↓ model + clip
 Load LoRA Node
  ├── lora_name: my_character.safetensors
  ├── strength_model: 0.8
  └── strength_clip:  0.8
      ↓ model + clip
CLIP Text Encode → KSampler → VAE Decode → תמונה

טעינה ב-Automatic1111 (A1111)

בשדה ה-Prompt הוסף את ה-LoRA syntax ישירות:

# Syntax בסיסי:
<lora:שם_קובץ_LoRA_ללא_סיומת:עוצמה>

# דוגמה לדמות:
ohwx man wearing a spacesuit, professional photo, 4k <lora:my_character:0.8>

# דוגמה לסגנון אמנותי:
a serene landscape <lora:monet_style:0.6>

# שילוב שני LoRAs:
ohwx man in anime style, vibrant colors <lora:my_character:0.7> <lora:anime_xl:0.5>

עוצמת LoRA — Strength Guide

סוג LoRA טווח מומלץ הערה
דמות (Face)0.7–1.0גבוה מדי מ-1.0 = עיוותים
סגנון (Style)0.3–0.7נמוך = מיזוג עדין עם הסגנון
אובייקט0.6–0.9תלוי בבולטות האובייקט
LoRA שנייה (Stack)כ-0.1 פחות מהראשוןלמנוע קונפליקט בין LoRAs

Python עם diffusers

from diffusers import StableDiffusionXLPipeline
import torch

# טעינת המודל הבסיסי
pipe = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16,
    use_safetensors=True
).to("cuda")

# טעינת ה-LoRA
pipe.load_lora_weights(
    "./loras/my_character.safetensors",
    adapter_name="character"
)

# הגדרת עוצמה
pipe.set_adapters(["character"], adapter_weights=[0.8])

# יצירת תמונה
image = pipe(
    prompt="ohwx man wearing a spacesuit, professional photo, 4k, detailed",
    negative_prompt="blurry, low quality, distorted face, extra limbs",
    num_inference_steps=30,
    guidance_scale=7.5,
    width=1024,
    height=1024,
).images[0]

image.save("output.png")
print("נשמר בהצלחה!")

Stacking LoRAs — שילוב כמה LoRAs יחד

# Python — טעינת שתי LoRAs יחד
pipe.load_lora_weights("./loras/character.safetensors", adapter_name="char")
pipe.load_lora_weights("./loras/style.safetensors",     adapter_name="style")

# הגדרת עוצמות לכל אחת
pipe.set_adapters(["char", "style"], adapter_weights=[0.8, 0.5])

# prompt עם trigger words של שתיהן:
# "ohwx man in style_myname artstyle, ..."

פתרון בעיות נפוצות

Overfitting — הדמות שוברת פרופורציות

תסמינים: תמונות נראות "נעולות" מדי על ה-training data, רקעים מוזרים שחוזרים, פרצופים מעוותים בזוויות לא ראשיות, חוסר גמישות ב-prompt.

Underfitting — הדמות לא נראית נכון

תסמינים: ה-trigger word לא מייצר את הדמות, הפנים שונות מהמקור, ה-LoRA נראית "חלשה" גם בעוצמה גבוהה.

Style Bleeding — ה-LoRA "נדבק" לכל תמונה

תסמינים: גם ללא ה-trigger word, המודל מייצר תמונות שנראות כמו האימון. הסגנון/דמות "דולפים" לכל הפלטים.

OOM — Out of Memory

תסמינים: שגיאת CUDA out of memory מיד בתחילת האימון. ה-GPU לא מסוגל להחזיק את כל מה שצריך בזיכרון.

memory
Gradient Checkpointing — כמעט תמיד כדאי

הפעלת --gradient_checkpointing מקטינה את צריכת ה-VRAM ב-30–40% תמורת האטה קלה של ~10–20% בזמן האימון. אם ה-GPU שלך 8GB ומטה — הפעל תמיד. גם ב-12GB לרוב שווה.

פרויקטים Mode 5 — Hands-On

ארבעה פרויקטים בסדר עולה של קושי — מהתחלה קלה ועד Workflow מורכב. כל אחד בונה על הקודם.

1
מתחיל — צבע ירוק

LoRA לדמות — אימון על פנים שלך

הפרויקט הקלאסי — LoRA שמאמנת את המודל לייצר פנים שלך בכל סצנה ופוזה. מתאים כהתחלה לכל מי שרוצה ללמוד LoRA.

  • צלם 20–30 תמונות סלפי מזוויות שונות — בחוץ, בפנים, ביום ובלילה
  • השתמש ב-BLIP2 או Florence-2 ל-captions אוטומטיים
  • הגדר trigger word: ohwx man / ohwx woman
  • אמן עם Kohya Colab Notebook — r=16, alpha=8, 15 epochs, SDXL
  • בדוק: ohwx man as an astronaut, professional photo <lora:me:0.8>
  • השווה epochs 5, 10, 15 ובחר את הטוב ביותר

זמן משוער: 3–4 שעות סך הכל כולל הכנת תמונות

2
בינוני — צבע צהוב

LoRA לסגנון — אמן או Aesthetic מסוים

אמן LoRA שמשחזרת סגנון אמנותי ספציפי — ציור מים, anime, ניאון noir, פסטל מתוק, וינטאג' שנות ה-70 ועוד.

  • אסוף 50–100 תמונות בסגנון הרצוי (WikiArt, Pinterest, Civitai)
  • השתמש ב-WD14 Tagger לאיורים, CLIP Interrogator לציורים
  • הגדר trigger word: style_myname artstyle
  • אמן עם r=8, alpha=4 — סגנון לא צריך rank גבוה
  • בדוק: a cat in style_myname artstyle <lora:mystyle:0.6>
  • נסה עוצמות שונות: 0.3, 0.5, 0.7 וראה את ההבדל

זמן משוער: 5–6 שעות כולל איסוף תמונות ועריכה

3
בינוני–מתקדם — צבע צהוב

LoRA ל-Flux.1 — הדור הבא

Flux.1 של Black Forest Labs הוא מודל הדיפוזיה החזק ביותר כיום (2026). אימון LoRA עבורו מייצר תוצאות ריאליסטיות מרהיבות, בעיקר עבור פנים וידיים.

  • הורד Flux.1-dev מ-Hugging Face (23GB — נדרש אישור license)
  • השתמש ב-Kohya SS עם --flux_train flag
  • הגדרות Flux: rank=4 מספיק, lr=1e-4, 8–10 epochs (Flux לומד מהר)
  • Text Encoder ב-Flux: T5-XXL — לא לאמן אותו (רק UNet)
  • זמן אימון: ~2 שעות ב-RTX 4090, ~5 שעות ב-RTX 3080
  • השווה את איכות הפנים לעומת SDXL — תראה הבדל ברור

זמן משוער: 6–8 שעות כולל הורדת מודל, הכנה ואימון

4
מתקדם — צבע אדום

Consistent Characters — LoRA + ComfyUI Workflow

בניית Workflow מלא ב-ComfyUI לייצור דמות עקבית בסצנות שונות — לסיפורים, קומיקס, storyboard, ופרסום.

  • אמן Character LoRA על הדמות (פרויקט 1 כבסיס)
  • בנה ComfyUI Workflow עם IPAdapter לשמירת עקביות פנים מתמונת reference
  • הוסף ControlNet Pose לשליטה על פוזות בכל תמונה
  • צור batch אוטומטי של 10+ תמונות בסצנות שונות
  • אופציה: הוסף LCM-LoRA לייצור drafts מהיר בשניות
  • שמור Workflow כ-JSON לשימוש חוזר

זמן משוער: 8–10 שעות (כולל לימוד ComfyUI Nodes)

גיליון עזר — LoRA Quick Reference Mode 7 — Reference

הגדרות מומלצות לפי מטרה

מטרה Rank Alpha UNet LR TE LR Epochs תמונות
דמות (SDXL) 16 8 1e-4 5e-5 15 20–30
סגנון (SDXL) 8 4 5e-5 2e-5 10 50–100
דמות (Flux.1) 4 2 1e-4 10 20–25
סגנון (Flux.1) 4 4 5e-5 8 40–60
אובייקט (SDXL) 8 8 1e-4 5e-5 12 15–25

Trigger Word Best Practices

Dataset Checklist לפני האימון

כלים מומלצים — Ecosystem

כלי שימוש מחיר
Kohya SSאימון LoRA — הכלי העיקריחינם (Open Source)
ComfyUIהרצת LoRA + Workflowsחינם (Open Source)
Automatic1111ממשק פשוט לשימוש ב-LoRAחינם (Open Source)
Civitaiשוק LoRAs + שיתוף קהילתיחינם + פרימיום
RunPodGPU ענן לאימון$0.20–0.80/h
Google Colabאימון חינמי עם מגבלותחינם / Pro $9.99/m
Florence-2Auto-captioning מדויקחינם (HuggingFace)
WD14 TaggerAuto-captioning לאיוריםחינם (HuggingFace)
rocket_launch

הצעד הבא — התחל לאמן

כנס ל-Google Colab, בחר Notebook מוכן ל-Kohya SDXL LoRA, ואמן את ה-LoRA הראשונה שלך תוך שעתיים — בחינם. תמצא Notebooks עדכניים ב-Civitai ו-GitHub.