מעודכן ליוני 2026 20 דקות קריאה יוצרים ומפתחים

מדריך ElevenLabs המלא
Text-to-Speech, שכפול קול ו-Voice Agents

ElevenLabs הוא הסטנדרט ל-Voice AI — קול טבעי, רב-לשוני (כולל עברית), שכפול קול, דיבוב אוטומטי, וסוכני קול בזמן אמת. במדריך הזה תלמד מ-TTS בסיסי ועד בניית Voice Agent שמדבר בטלפון, כולל ה-API.

30+ שפות
כולל עברית
~75ms
Latency נמוך
Voice Agents
זמן אמת

מה זה ElevenLabs?

ElevenLabs היא פלטפורמת Voice AI — קול מלאכותי — שנחשבת כיום לסטנדרט בתעשייה. היא נוסדה ב-2022 על ידי Piotr Dabkowski ו-Mati Staniszewski, ובתוך פחות משלוש שנים הפכה לשם הנרדף לקול AI טבעי ואיכותי. בליבה עומד מנוע Text-to-Speech (טקסט-לדיבור) שמייצר קול אנושי כל כך, עד שבמקרים רבים קשה להבחין בינו לבין הקלטה אמיתית של דובר.

אבל ElevenLabs היא הרבה יותר מ-TTS. הפלטפורמה מציעה היום מערך מלא של יכולות: שכפול קול (Voice Cloning) שמשחזר קול אנושי מדגימה קצרה, דיבוב אוטומטי (Dubbing) שמתרגם וידאו לשפה אחרת תוך שמירה על קול הדובר המקורי, אפקטים קוליים (Sound Effects) מתוך תיאור טקסטואלי, וכל ה-stack של Conversational AI / Voice Agents — סוכני קול שמנהלים שיחה בזמן אמת, כולל חיבור לטלפון.

ElevenLabs רב-לשונית באמת — היא תומכת בלמעלה מ-30 שפות, וביניהן עברית. זה הופך אותה לכלי רלוונטי במיוחד עבור יוצרים ומפתחים בישראל שרוצים קריינות עברית טבעית, בוטים קוליים בעברית, או דיבוב תוכן לעברית ומעברית.

map
המפה של עולם ה-Voice AI

ElevenLabs היא השחקנית המובילה, אבל לא היחידה. לתשתית של Voice Agents תמצא גם את Vapi ו-LiveKit Agents (אורקסטרציה וטלפוניה), ולמנועי TTS מתחרים את Cartesia, PlayHT ו-Inworld. במדריך הזה נתמקד ב-ElevenLabs כסטנדרט, אך נזכיר היכן כלים אחרים משלימים אותה.

שימושים נפוצים

שלוש הדרכים לעבוד עם ElevenLabs

Studio (ממשק)
למתחילים
עורך ויזואלי בדפדפן — מדביקים טקסט, בוחרים קול, מורידים MP3. אפס קוד.
API
למפתחים
SDK ל-Python ו-Node, streaming בזמן אמת, אינטגרציה לכל אפליקציה.
Agents
מתקדם
Conversational AI מלא — STT + LLM + TTS + טלפוניה, ללא בניית pipeline מאפס.

Text-to-Speech — הליבה

Text-to-Speech הוא הבסיס של ElevenLabs: אתה נותן טקסט, ומקבל קובץ אודיו בקול שבחרת. אבל בין "טקסט גולמי" ל"קול שנשמע מושלם" יש כמה החלטות שמשנות לחלוטין את התוצאה. זרימת העבודה הסטנדרטית: בוחרים קול → מכווננים את ה-sliders → בוחרים מודל → מייצרים.

ה-Sliders — מה כל אחד עושה

בחירת מודל

מודל חוזק מתי
Multilingual v2 איכות מקסימלית קריינות, audiobooks, עברית איכותית
Turbo / Flash v2.5 latency נמוך (~75ms) Voice Agents, זמן אמת, streaming
v3 (expressive) הבעתיות מקסימלית דמויות, רגש, דיאלוג דרמטי

שליטה בהגייה והפסקות

ElevenLabs מבינה רמזים בתוך הטקסט עצמו. סימני פיסוק משפיעים על האינטונציה: פסיק יוצר הפסקה קצרה, נקודה יוצרת ירידה בטון, וסימן שאלה מעלה את הטון בסוף. ניתן גם להוסיף הפסקות מפורשות באמצעות תגיות בסגנון SSML, למשל <break time="1.0s" /> לשתיקה של שנייה. למילים בעייתיות בהגייה אפשר להשתמש במילון הגייה (Pronunciation Dictionary) או לכתוב את המילה פונטית.

lightbulb
Stability מול אקספרסיביות — האיזון

אם הקול נשמע "שטוח" מדי — הורד Stability והעלה Style. אם הוא "קופץ" בין הרצות או נשמע לא יציב — העלה Stability. עבור קריינות ארוכה תרצה עקביות (Stability גבוה); עבור פרסומת או דמות תרצה רגש (Stability נמוך). תמיד תייצר 2–3 וריאציות ותבחר.

קולות ו-Voice Library

מאחורי כל יצירת אודיו עומד קול — ולכל קול יש voice_id ייחודי שמזהה אותו ב-API. ל-ElevenLabs שלוש דרכים להשיג קול: קולות מובנים, ה-Voice Library הקהילתית, ועיצוב קול חדש מאפס.

Pre-made Voices — קולות מובנים

ElevenLabs מספקת אוסף של קולות מקצועיים מובנים — גברים, נשים, טונים שונים, מבטאים שונים. אלה נקודת ההתחלה הטובה ביותר: הם איכותיים, יציבים, ומורשים לשימוש מסחרי. כל אחד מהם נושא voice_id שתוכל להעתיק ולהשתמש בו ישירות ב-API.

Voice Library — הספרייה הקהילתית

ה-Voice Library היא שוק קולות שיוצרים שיתפו. כאן תמצא מגוון עצום של קולות בסגנונות שונים — מקריין דרמטי ועד קול צעיר ואנרגטי. אפשר לסנן לפי שפה, מגדר, גיל וסגנון. שים לב: חלק מהקולות מיועדים לשימושים מסוימים בלבד, אז בדוק את תנאי השימוש של כל קול לפני שאתה משלב אותו במוצר מסחרי.

Voice Design — יצירת קול מתיאור

התכונה החזקה ביותר: Voice Design מאפשרת ליצור קול חדש לגמרי מתיאור טקסטואלי. אתה כותב משהו כמו "אישה צעירה, חמה ובוטחת, עם טון מקצועי" — וElevenLabs מייצרת מספר וריאציות קול שתוכל לבחור ולשמור. זה פותר את בעיית הזכויות והפרטיות לחלוטין: הקול אינו שייך לאף אדם אמיתי.

איך לבחור קול לפי שימוש

שכפול קול (Voice Cloning)

שכפול קול הוא היכולת לקחת קול אנושי אמיתי ולשחזר אותו כך ש-ElevenLabs תוכל "להקריא" כל טקסט באותו קול. יש שני סוגים, ששונים מהותית באיכות ובדרישות.

Instant Voice Cloning
מהיר
שכפול מדגימה קצרה (דקה–שתיים של אודיו). מוכן תוך שניות. איכות טובה לרוב השימושים, אך לא מושלם. אידיאלי לפרוטוטייפ ולתוכן אישי.
Professional Voice Cloning
איכות מקסימלית
שכפול ממאגר ארוך ואיכותי (30+ דקות אודיו נקי). אימון מעמיק שלוקח זמן, אך התוצאה כמעט בלתי ניתנת להבחנה מהמקור. מיועד לקריינים מקצועיים ולמותגים.

שיטות עבודה לדגימה איכותית

gavel
הסכמה, אתיקה וחוק — חובה לקרוא

שכפל אך ורק קולות שיש לך הרשאה מפורשת להשתמש בהם — שלך, או של אדם שנתן הסכמה מתועדת. שכפול קול של אדם ללא רשותו עלול להוות הפרת זכויות, פגיעה בפרטיות, וב-deepfake קולי. ElevenLabs דורשת אישור בעלות בעת שכפול, ומפעילה מנגנוני זיהוי. בישראל ובמדינות רבות זהו גם נושא משפטי רגיש. כלל אצבע: אם אינך בטוח שיש לך רשות — אין לך.

דיבוב ותרגום אוטומטי

Dubbing היא אחת היכולות המרשימות של ElevenLabs: אתה מעלה וידאו או אודיו בשפה אחת, ומקבל אותו בשפה אחרת — תוך שמירה על קול הדובר המקורי ועל התזמון. במילים אחרות, אותו אדם "מדבר" עכשיו אנגלית, ספרדית או עברית, בקול שלו ממש.

התהליך משלב מספר שלבים אוטומטיים: זיהוי דיבור (תמלול), זיהוי דוברים נפרדים (Speaker Diarization), תרגום, ויצירת אודיו חדש בקול תואם המסונכרן לתזמון המקורי. עבור יוצרי תוכן בישראל זה כלי עוצמתי — אפשר ללקחת סרטון הסבר בעברית ולהפיץ אותו באנגלית לקהל גלובלי, או להפך: ללוקליז' תוכן זר לעברית.

זרימת עבודה טיפוסית

1
העלאת מקור — וידאו או אודיו בשפת המקור (כולל קישור YouTube)
2
בחירת שפת יעד — למשל מעברית לאנגלית, או מאנגלית לעברית
3
עיבוד אוטומטי — תמלול, זיהוי דוברים, תרגום ויצירת קול תואם
4
בדיקה ידנית — סקירת התרגום ותיקון מקטעים לפני ייצוא סופי
rate_review
תמיד עברו על התרגום ידנית

תרגום אוטומטי מצוין, אך לא חף משגיאות — במיוחד בביטויים, סלנג ומונחים מקצועיים. השתמש ב-Dubbing Studio כדי לסקור כל מקטע, לתקן את התרגום, ולכוונן את התזמון לפני ייצוא. בעברית, בדוק במיוחד מין דקדוקי וכיווניות.

Voice Agents בזמן אמת

כאן ElevenLabs עוברת מ"כלי יצירה" ל"תשתית מוצר". Conversational AI (או Voice Agents) הוא סוכן קולי שמנהל שיחה דו-כיוונית בזמן אמת — אתה מדבר, הוא מבין, חושב, ומשיב בקול טבעי, תוך פחות משנייה.

איך עובד Voice Agent — הלולאה

בליבו, כל סוכן קולי הוא לולאה של שלושה רכיבים:

1
STT (Speech-to-Text) — ממיר את דיבור המשתמש לטקסט
2
LLM — מודל שפה מחליט מה לענות (לפי System Prompt, ידע וכלים)
3
TTS — ממיר את תשובת ה-LLM לקול (כאן ElevenLabs מבריקה — Turbo, latency נמוך)

האתגר האמיתי הוא לא הרכיבים אלא ניהול התור (Turn-taking): לדעת מתי המשתמש סיים לדבר, מתי להתחיל לענות, ובעיקר — לטפל בהפרעות (Interruptions). אם המשתמש קוטע את הסוכן באמצע משפט, הסוכן צריך לעצור ולהקשיב. ElevenLabs Agents מטפלת בכל זה מאחורי הקלעים.

קונפיגורציה של ElevenLabs Agent

hub
ElevenLabs Agents מול Vapi / LiveKit

ElevenLabs Agents נותנת לך stack מלא ומובנה — הכי מהיר להתחיל. Vapi ו-LiveKit Agents הן שכבות אורקסטרציה גמישות יותר: הן מאפשרות לערבב ספקים (למשל TTS של ElevenLabs + STT של ספק אחר + LLM לבחירתך) ולשלוט מדויק בטלפוניה. כלל אצבע: התחל עם ElevenLabs Agents; עבור ל-Vapi/LiveKit כשאתה צריך שליטה עמוקה יותר ב-pipeline.

לעומק על תכנון הסוכן עצמו — System Prompts, RAG ו-Tool Use — קרא את מדריך AI Agents. ולחיבור ה-Backend וההאוטומציה מאחורי הסוכן (CRM, מיילים, עדכון מסדי נתונים), מדריך n8n הוא נקודת ההתחלה המושלמת.

ה-API ב-Python

ה-SDK הרשמי של ElevenLabs הופך את ה-TTS לכמה שורות קוד. נתחיל בהתקנה ובדוגמה בסיסית, ואז נעבור ל-streaming בזמן אמת.

התקנה ו-Authentication

# התקנה
pip install elevenlabs

# Environment variable (מומלץ — לעולם לא לכתוב את המפתח בקוד!)
export ELEVENLABS_API_KEY="your_api_key"

TTS בסיסי — יצירת אודיו

from elevenlabs.client import ElevenLabs
from elevenlabs import play

client = ElevenLabs(api_key="YOUR_API_KEY")

# טקסט לדיבור
audio = client.text_to_speech.convert(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_multilingual_v2",
    text="שלום, ברוכים הבאים ל-Automation4MI. איך אפשר לעזור?",
    voice_settings={"stability": 0.5, "similarity_boost": 0.8, "style": 0.0},
)
play(audio)

ה-voice_id מזהה את הקול (העתק אותו מ-Voice Library או מהקולות המובנים). ה-model_id בוחר את המנוע — כאן eleven_multilingual_v2 לאיכות עברית גבוהה. ה-voice_settings הם בדיוק ה-sliders שראינו: stability, similarity_boost ו-style.

שמירה לקובץ במקום השמעה

from elevenlabs import save

audio = client.text_to_speech.convert(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_multilingual_v2",
    text="זהו קובץ קריינות שנשמר לדיסק.",
)
save(audio, "narration.mp3")  # שמירה כ-MP3

סטרימינג בזמן אמת — latency נמוך

# סטרימינג בזמן אמת (latency נמוך)
stream = client.text_to_speech.stream(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_turbo_v2_5",
    text="המשפט הזה מושמע תוך כדי יצירה, ללא המתנה לקובץ המלא.",
)
for chunk in stream:
    # כל chunk הוא בייטים של אודיו — נגן או שמור
    pass
key
אבטחת ה-API key

לעולם אל תכתוב את המפתח ישירות בקוד או תעלה אותו ל-Git. השתמש ב-environment variable (ELEVENLABS_API_KEY) או ב-secrets manager. אם מפתח דלף — סובב אותו מיד בלוח הבקרה. בצד-לקוח (דפדפן) לעולם אל תחשוף מפתח — נתב את הבקשות דרך שרת שלך.

tune
איזה מודל לבחור ב-API?

eleven_turbo_v2_5 — לסוכנים ולכל מה שצריך זמן אמת (latency נמוך). eleven_multilingual_v2 — לקריינות, ספרים ותוכן עברי שבו האיכות חשובה יותר מהמהירות. אל תשתמש ב-Turbo לקריינות פרימיום, ואל תשתמש ב-Multilingual v2 בסוכן שבו כל מילישנייה נספרת.

5 פרויקטים מעשיים

להלן 5 פרויקטים מדורגים לפי רמת קושי — מקריינות פשוטה ועד pipeline אוטומטי מלא.

מתחיל פרויקט 1: קריינות לסרטון

קריינות עברית טבעית לסרטון — מטקסט ל-MP3 מוכן לעריכה. מודל Multilingual v2 לאיכות מקסימלית.

from elevenlabs.client import ElevenLabs
from elevenlabs import save

client = ElevenLabs()  # לוקח מ-ELEVENLABS_API_KEY

script = """ברוכים הבאים לסרטון.
היום נלמד איך לבנות אוטומציה עם AI.
בואו נתחיל."""

audio = client.text_to_speech.convert(
    voice_id="JBFqnCBsd6RMkjVDRZzb",
    model_id="eleven_multilingual_v2",
    text=script,
    voice_settings={"stability": 0.6, "similarity_boost": 0.8},
)
save(audio, "voiceover.mp3")
print("הקריינות נשמרה: voiceover.mp3")
מתחיל-בינוני פרויקט 2: אודיו-בלוג מפוסטים

המרת מאמרים בבלוג לגרסת אודיו אוטומטית — כל פוסט הופך לקובץ MP3 להאזנה.

from elevenlabs.client import ElevenLabs
from elevenlabs import save
import os

client = ElevenLabs()

def article_to_audio(title: str, body: str, slug: str):
    text = f"{title}. {body}"
    audio = client.text_to_speech.convert(
        voice_id="JBFqnCBsd6RMkjVDRZzb",
        model_id="eleven_multilingual_v2",
        text=text,
        voice_settings={"stability": 0.65, "similarity_boost": 0.75},
    )
    path = f"audio/{slug}.mp3"
    os.makedirs("audio", exist_ok=True)
    save(audio, path)
    return path

# המרת כל הפוסטים
posts = [
    {"title": "מה זה אוטומציה", "body": "...", "slug": "what-is-automation"},
    {"title": "AI Agents מסבירים", "body": "...", "slug": "ai-agents"},
]
for p in posts:
    print("נוצר:", article_to_audio(p["title"], p["body"], p["slug"]))
בינוני פרויקט 3: דיבוב סרטון לאנגלית/עברית

דיבוב אוטומטי של וידאו לשפה אחרת תוך שמירה על קול הדובר — דרך ה-Dubbing API.

from elevenlabs.client import ElevenLabs

client = ElevenLabs()

# יצירת פרויקט דיבוב מקובץ וידאו
with open("source_video.mp4", "rb") as f:
    dub = client.dubbing.create(
        file=f,
        target_lang="en",     # מעברית לאנגלית (או "he" להפך)
        source_lang="he",
        num_speakers=1,
    )

dubbing_id = dub.dubbing_id
print("פרויקט דיבוב נוצר:", dubbing_id)

# המתנה לסיום העיבוד, ואז הורדת התוצאה
# (בייצור: poll על status עד שהוא 'dubbed', ואז:)
result = client.dubbing.get_dubbed_file(dubbing_id, language_code="en")
with open("dubbed_en.mp4", "wb") as out:
    for chunk in result:
        out.write(chunk)
print("הדיבוב הושלם: dubbed_en.mp4")
מתקדם פרויקט 4: בוט קולי לשירות לקוחות

Voice Agent מלא — System Prompt, Knowledge Base (RAG) וחיבור טלפוני. הסוכן עונה לשיחות, עונה משאלות נפוצות, ופותח פניות.

from elevenlabs.client import ElevenLabs

client = ElevenLabs()

# יצירת Voice Agent (Conversational AI)
agent = client.conversational_ai.agents.create(
    name="נציג שירות Automation4MI",
    conversation_config={
        "agent": {
            "prompt": {
                "prompt": (
                    "אתה נציג שירות חם ומקצועי של Automation4MI. "
                    "ענה בעברית, בקצרה ובאדיבות. אם אינך יודע, "
                    "הצע להעביר לנציג אנושי. אל תמציא מידע."
                ),
            },
            "language": "he",
        },
        "tts": {
            "voice_id": "JBFqnCBsd6RMkjVDRZzb",
            "model_id": "eleven_turbo_v2_5",  # latency נמוך לזמן אמת
        },
    },
)
print("Agent ID:", agent.agent_id)

# שלבים נוספים בלוח הבקרה:
# 1. העלאת מסמכי FAQ ל-Knowledge Base (RAG)
# 2. הגדרת Tools (פתיחת פנייה, בדיקת הזמנה)
# 3. חיבור מספר טלפון (Telephony) לשיחות נכנסות
מתקדם מאוד פרויקט 5: Pipeline קריינות אוטומטי

n8n מאזין ל-webhook, שולח טקסט ל-ElevenLabs API, ומפרסם את האודיו אוטומטית. אפשר batch של עשרות פריטים בבת אחת.

# Webhook handler — מופעל מ-n8n על כל פריט תוכן חדש
from elevenlabs.client import ElevenLabs
from elevenlabs import save

client = ElevenLabs()

def handle_webhook(payload: dict):
    """payload מגיע מ-n8n: {id, text, lang}"""
    audio = client.text_to_speech.convert(
        voice_id="JBFqnCBsd6RMkjVDRZzb",
        model_id="eleven_multilingual_v2",
        text=payload["text"],
    )
    path = f"out/{payload['id']}.mp3"
    save(audio, path)
    return {"status": "done", "file": path}

# batch — עיבוד אצווה של פריטים
def process_batch(items: list[dict]):
    return [handle_webhook(item) for item in items]

# הזרימה המלאה ב-n8n:
# Trigger (RSS/DB חדש) -> HTTP Request לשרת זה
#   -> ElevenLabs TTS -> Upload (S3/Drive)
#   -> פרסום (YouTube/פודקאסט/אתר)

להקמת הזרימה ב-n8n עצמה — webhook, batching ו-error handling — ראו את מדריך n8n.

גיליון עזר — ElevenLabs

בחירת מודל

model_id חוזק מתי
eleven_turbo_v2_5 latency נמוך Agents, זמן אמת
eleven_multilingual_v2 איכות גבוהה קריינות, עברית, audiobooks
eleven_v3 הבעתיות דמויות, רגש, דיאלוג

הגדרות Voice — מתי לכוונן

stability
גבוה = יציב ומונוטוני (קריינות ארוכה). נמוך = רגשי ומשתנה (דמות, פרסומת).
similarity_boost
גבוה = נצמד למקור (חשוב בקול משוכפל). אם הדגימה רועשת — הורד.
style
מוסיף הבעתיות. בסוכני קול שמור על 0 (יציבות + latency).

טיפים להגייה בעברית

סוגי שכפול קול

Instant Cloning
דגימה קצרה (דקה–שתיים), מוכן מיד, איכות טובה. לפרוטוטייפ ותוכן אישי.
Professional Cloning
מאגר ארוך ונקי (30+ דק'), אימון מעמיק, איכות כמעט מושלמת. למותגים וקריינים.

Latency לפי שימוש

שימוש עדיפות מודל מומלץ
Voice Agent / טלפון latency נמוך Turbo / Flash
קריינות / Audiobook איכות Multilingual v2
דמות / רגש הבעתיות v3
graphic_eq

מוכן להתחיל?

כנס ל-elevenlabs.io ונסה את ה-Studio חינם, או קבל API key והתחל לבנות עם הדוגמאות מהמדריך הזה. רוצה לבנות סוכן קולי שלם? המשך למדריכים הקשורים.