מדריך ElevenLabs המלא
Text-to-Speech, שכפול קול ו-Voice Agents
ElevenLabs הוא הסטנדרט ל-Voice AI — קול טבעי, רב-לשוני (כולל עברית), שכפול קול, דיבוב אוטומטי, וסוכני קול בזמן אמת. במדריך הזה תלמד מ-TTS בסיסי ועד בניית Voice Agent שמדבר בטלפון, כולל ה-API.
מה זה ElevenLabs?
ElevenLabs היא פלטפורמת Voice AI — קול מלאכותי — שנחשבת כיום לסטנדרט בתעשייה. היא נוסדה ב-2022 על ידי Piotr Dabkowski ו-Mati Staniszewski, ובתוך פחות משלוש שנים הפכה לשם הנרדף לקול AI טבעי ואיכותי. בליבה עומד מנוע Text-to-Speech (טקסט-לדיבור) שמייצר קול אנושי כל כך, עד שבמקרים רבים קשה להבחין בינו לבין הקלטה אמיתית של דובר.
אבל ElevenLabs היא הרבה יותר מ-TTS. הפלטפורמה מציעה היום מערך מלא של יכולות: שכפול קול (Voice Cloning) שמשחזר קול אנושי מדגימה קצרה, דיבוב אוטומטי (Dubbing) שמתרגם וידאו לשפה אחרת תוך שמירה על קול הדובר המקורי, אפקטים קוליים (Sound Effects) מתוך תיאור טקסטואלי, וכל ה-stack של Conversational AI / Voice Agents — סוכני קול שמנהלים שיחה בזמן אמת, כולל חיבור לטלפון.
ElevenLabs רב-לשונית באמת — היא תומכת בלמעלה מ-30 שפות, וביניהן עברית. זה הופך אותה לכלי רלוונטי במיוחד עבור יוצרים ומפתחים בישראל שרוצים קריינות עברית טבעית, בוטים קוליים בעברית, או דיבוב תוכן לעברית ומעברית.
ElevenLabs היא השחקנית המובילה, אבל לא היחידה. לתשתית של Voice Agents תמצא גם את Vapi ו-LiveKit Agents (אורקסטרציה וטלפוניה), ולמנועי TTS מתחרים את Cartesia, PlayHT ו-Inworld. במדריך הזה נתמקד ב-ElevenLabs כסטנדרט, אך נזכיר היכן כלים אחרים משלימים אותה.
שימושים נפוצים
- קריינות (Narration) — סרטוני YouTube, קורסים, פרסומות, פודקאסטים
- ספרים מוקלטים (Audiobooks) — המרת ספרים שלמים לקול אחיד ונעים
- IVR ומענה טלפוני — הודעות מערכת, תפריטים קוליים, מענה אוטומטי
- דמויות (Characters) — קולות למשחקים, אנימציות ואווטארים
- סוכני תמיכה — בוטים קוליים שמנהלים שיחה אמיתית עם לקוחות
שלוש הדרכים לעבוד עם ElevenLabs
Text-to-Speech — הליבה
Text-to-Speech הוא הבסיס של ElevenLabs: אתה נותן טקסט, ומקבל קובץ אודיו בקול שבחרת. אבל בין "טקסט גולמי" ל"קול שנשמע מושלם" יש כמה החלטות שמשנות לחלוטין את התוצאה. זרימת העבודה הסטנדרטית: בוחרים קול → מכווננים את ה-sliders → בוחרים מודל → מייצרים.
ה-Sliders — מה כל אחד עושה
- Stability (יציבות) — קובע כמה הקול "צפוי". ערך גבוה = קול אחיד, רגוע, מונוטוני יותר. ערך נמוך = קול אקספרסיבי ורגשי יותר, אך גם פחות צפוי בין הרצות. לקריינות ארוכה כדאי ערך בינוני-גבוה; לדמות דרמטית — נמוך.
- Similarity / Similarity Boost — עד כמה הקול נצמד למקור (במיוחד רלוונטי בקול משוכפל). ערך גבוה משחזר את הדובר המקורי בנאמנות, אך אם הדגימה רועשת — הוא ישחזר גם את הרעש.
- Style — מגביר הבעתיות וסגנון. ערך גבוה מוסיף "אישיות", אך עלול להחליש את היציבות ולהאריך את ה-latency. בסוכני קול עדיף 0.
- Speaker Boost — מחזק את דמיון הקול לדובר, על חשבון מעט latency.
בחירת מודל
| מודל | חוזק | מתי |
|---|---|---|
| Multilingual v2 | איכות מקסימלית | קריינות, audiobooks, עברית איכותית |
| Turbo / Flash v2.5 | latency נמוך (~75ms) | Voice Agents, זמן אמת, streaming |
| v3 (expressive) | הבעתיות מקסימלית | דמויות, רגש, דיאלוג דרמטי |
שליטה בהגייה והפסקות
ElevenLabs מבינה רמזים בתוך הטקסט עצמו. סימני פיסוק משפיעים על האינטונציה: פסיק יוצר הפסקה קצרה, נקודה יוצרת ירידה בטון, וסימן שאלה מעלה את הטון בסוף. ניתן גם להוסיף הפסקות מפורשות באמצעות תגיות בסגנון SSML, למשל <break time="1.0s" /> לשתיקה של שנייה. למילים בעייתיות בהגייה אפשר להשתמש במילון הגייה (Pronunciation Dictionary) או לכתוב את המילה פונטית.
אם הקול נשמע "שטוח" מדי — הורד Stability והעלה Style. אם הוא "קופץ" בין הרצות או נשמע לא יציב — העלה Stability. עבור קריינות ארוכה תרצה עקביות (Stability גבוה); עבור פרסומת או דמות תרצה רגש (Stability נמוך). תמיד תייצר 2–3 וריאציות ותבחר.
קולות ו-Voice Library
מאחורי כל יצירת אודיו עומד קול — ולכל קול יש voice_id ייחודי שמזהה אותו ב-API. ל-ElevenLabs שלוש דרכים להשיג קול: קולות מובנים, ה-Voice Library הקהילתית, ועיצוב קול חדש מאפס.
Pre-made Voices — קולות מובנים
ElevenLabs מספקת אוסף של קולות מקצועיים מובנים — גברים, נשים, טונים שונים, מבטאים שונים. אלה נקודת ההתחלה הטובה ביותר: הם איכותיים, יציבים, ומורשים לשימוש מסחרי. כל אחד מהם נושא voice_id שתוכל להעתיק ולהשתמש בו ישירות ב-API.
Voice Library — הספרייה הקהילתית
ה-Voice Library היא שוק קולות שיוצרים שיתפו. כאן תמצא מגוון עצום של קולות בסגנונות שונים — מקריין דרמטי ועד קול צעיר ואנרגטי. אפשר לסנן לפי שפה, מגדר, גיל וסגנון. שים לב: חלק מהקולות מיועדים לשימושים מסוימים בלבד, אז בדוק את תנאי השימוש של כל קול לפני שאתה משלב אותו במוצר מסחרי.
Voice Design — יצירת קול מתיאור
התכונה החזקה ביותר: Voice Design מאפשרת ליצור קול חדש לגמרי מתיאור טקסטואלי. אתה כותב משהו כמו "אישה צעירה, חמה ובוטחת, עם טון מקצועי" — וElevenLabs מייצרת מספר וריאציות קול שתוכל לבחור ולשמור. זה פותר את בעיית הזכויות והפרטיות לחלוטין: הקול אינו שייך לאף אדם אמיתי.
איך לבחור קול לפי שימוש
- קריינות / הסבר — קול יציב, ברור, בקצב מתון. העדף Stability גבוה.
- פרסומת — קול אנרגטי עם אישיות. Style גבוה יותר.
- דמות / משחק — קול ייחודי ואקספרסיבי, אולי מ-Voice Design.
- סוכן קולי / תמיכה — קול נעים, ניטרלי ויציב, עם מודל Turbo ל-latency נמוך.
שכפול קול (Voice Cloning)
שכפול קול הוא היכולת לקחת קול אנושי אמיתי ולשחזר אותו כך ש-ElevenLabs תוכל "להקריא" כל טקסט באותו קול. יש שני סוגים, ששונים מהותית באיכות ובדרישות.
שיטות עבודה לדגימה איכותית
- אודיו נקי — ללא רעש רקע, הד או מוזיקה. הקלט בחדר שקט עם מיקרופון טוב.
- טון עקבי — שמור על אותו סגנון דיבור לאורך כל הדגימה. אל תערבב לחישה עם צעקה.
- איכות אחידה — אל תשלב הקלטות ממקורות שונים באיכות שונה; המנוע ילמד את הממוצע.
- אורך מספיק — ל-Professional, כמה שיותר (אך נקי). דקה רועשת גרועה מ-30 שניות נקיות.
שכפל אך ורק קולות שיש לך הרשאה מפורשת להשתמש בהם — שלך, או של אדם שנתן הסכמה מתועדת. שכפול קול של אדם ללא רשותו עלול להוות הפרת זכויות, פגיעה בפרטיות, וב-deepfake קולי. ElevenLabs דורשת אישור בעלות בעת שכפול, ומפעילה מנגנוני זיהוי. בישראל ובמדינות רבות זהו גם נושא משפטי רגיש. כלל אצבע: אם אינך בטוח שיש לך רשות — אין לך.
דיבוב ותרגום אוטומטי
Dubbing היא אחת היכולות המרשימות של ElevenLabs: אתה מעלה וידאו או אודיו בשפה אחת, ומקבל אותו בשפה אחרת — תוך שמירה על קול הדובר המקורי ועל התזמון. במילים אחרות, אותו אדם "מדבר" עכשיו אנגלית, ספרדית או עברית, בקול שלו ממש.
התהליך משלב מספר שלבים אוטומטיים: זיהוי דיבור (תמלול), זיהוי דוברים נפרדים (Speaker Diarization), תרגום, ויצירת אודיו חדש בקול תואם המסונכרן לתזמון המקורי. עבור יוצרי תוכן בישראל זה כלי עוצמתי — אפשר ללקחת סרטון הסבר בעברית ולהפיץ אותו באנגלית לקהל גלובלי, או להפך: ללוקליז' תוכן זר לעברית.
זרימת עבודה טיפוסית
תרגום אוטומטי מצוין, אך לא חף משגיאות — במיוחד בביטויים, סלנג ומונחים מקצועיים. השתמש ב-Dubbing Studio כדי לסקור כל מקטע, לתקן את התרגום, ולכוונן את התזמון לפני ייצוא. בעברית, בדוק במיוחד מין דקדוקי וכיווניות.
Voice Agents בזמן אמת
כאן ElevenLabs עוברת מ"כלי יצירה" ל"תשתית מוצר". Conversational AI (או Voice Agents) הוא סוכן קולי שמנהל שיחה דו-כיוונית בזמן אמת — אתה מדבר, הוא מבין, חושב, ומשיב בקול טבעי, תוך פחות משנייה.
איך עובד Voice Agent — הלולאה
בליבו, כל סוכן קולי הוא לולאה של שלושה רכיבים:
האתגר האמיתי הוא לא הרכיבים אלא ניהול התור (Turn-taking): לדעת מתי המשתמש סיים לדבר, מתי להתחיל לענות, ובעיקר — לטפל בהפרעות (Interruptions). אם המשתמש קוטע את הסוכן באמצע משפט, הסוכן צריך לעצור ולהקשיב. ElevenLabs Agents מטפלת בכל זה מאחורי הקלעים.
קונפיגורציה של ElevenLabs Agent
- System Prompt — מי הסוכן, מה תפקידו, איך הוא מדבר, ומה הגבולות שלו
- Knowledge Base (RAG) — מסמכים, FAQ ומאגרי מידע שהסוכן שולף מהם תשובות מדויקות
- Tools / Function Calling — חיבור הסוכן ל-API חיצוני: בדיקת מלאי, קביעת תור, פתיחת פנייה
- Telephony — חיבור מספר טלפון אמיתי כך שהסוכן עונה לשיחות נכנסות או מתקשר החוצה
- Voice & Language — בחירת הקול והשפה (כולל עברית) ומודל ה-TTS
ElevenLabs Agents נותנת לך stack מלא ומובנה — הכי מהיר להתחיל. Vapi ו-LiveKit Agents הן שכבות אורקסטרציה גמישות יותר: הן מאפשרות לערבב ספקים (למשל TTS של ElevenLabs + STT של ספק אחר + LLM לבחירתך) ולשלוט מדויק בטלפוניה. כלל אצבע: התחל עם ElevenLabs Agents; עבור ל-Vapi/LiveKit כשאתה צריך שליטה עמוקה יותר ב-pipeline.
לעומק על תכנון הסוכן עצמו — System Prompts, RAG ו-Tool Use — קרא את מדריך AI Agents. ולחיבור ה-Backend וההאוטומציה מאחורי הסוכן (CRM, מיילים, עדכון מסדי נתונים), מדריך n8n הוא נקודת ההתחלה המושלמת.
ה-API ב-Python
ה-SDK הרשמי של ElevenLabs הופך את ה-TTS לכמה שורות קוד. נתחיל בהתקנה ובדוגמה בסיסית, ואז נעבור ל-streaming בזמן אמת.
התקנה ו-Authentication
# התקנה
pip install elevenlabs
# Environment variable (מומלץ — לעולם לא לכתוב את המפתח בקוד!)
export ELEVENLABS_API_KEY="your_api_key"
TTS בסיסי — יצירת אודיו
from elevenlabs.client import ElevenLabs
from elevenlabs import play
client = ElevenLabs(api_key="YOUR_API_KEY")
# טקסט לדיבור
audio = client.text_to_speech.convert(
voice_id="JBFqnCBsd6RMkjVDRZzb",
model_id="eleven_multilingual_v2",
text="שלום, ברוכים הבאים ל-Automation4MI. איך אפשר לעזור?",
voice_settings={"stability": 0.5, "similarity_boost": 0.8, "style": 0.0},
)
play(audio)
ה-voice_id מזהה את הקול (העתק אותו מ-Voice Library או מהקולות המובנים). ה-model_id בוחר את המנוע — כאן eleven_multilingual_v2 לאיכות עברית גבוהה. ה-voice_settings הם בדיוק ה-sliders שראינו: stability, similarity_boost ו-style.
שמירה לקובץ במקום השמעה
from elevenlabs import save
audio = client.text_to_speech.convert(
voice_id="JBFqnCBsd6RMkjVDRZzb",
model_id="eleven_multilingual_v2",
text="זהו קובץ קריינות שנשמר לדיסק.",
)
save(audio, "narration.mp3") # שמירה כ-MP3
סטרימינג בזמן אמת — latency נמוך
# סטרימינג בזמן אמת (latency נמוך)
stream = client.text_to_speech.stream(
voice_id="JBFqnCBsd6RMkjVDRZzb",
model_id="eleven_turbo_v2_5",
text="המשפט הזה מושמע תוך כדי יצירה, ללא המתנה לקובץ המלא.",
)
for chunk in stream:
# כל chunk הוא בייטים של אודיו — נגן או שמור
pass
לעולם אל תכתוב את המפתח ישירות בקוד או תעלה אותו ל-Git. השתמש ב-environment variable (ELEVENLABS_API_KEY) או ב-secrets manager. אם מפתח דלף — סובב אותו מיד בלוח הבקרה. בצד-לקוח (דפדפן) לעולם אל תחשוף מפתח — נתב את הבקשות דרך שרת שלך.
eleven_turbo_v2_5 — לסוכנים ולכל מה שצריך זמן אמת (latency נמוך). eleven_multilingual_v2 — לקריינות, ספרים ותוכן עברי שבו האיכות חשובה יותר מהמהירות. אל תשתמש ב-Turbo לקריינות פרימיום, ואל תשתמש ב-Multilingual v2 בסוכן שבו כל מילישנייה נספרת.
5 פרויקטים מעשיים
להלן 5 פרויקטים מדורגים לפי רמת קושי — מקריינות פשוטה ועד pipeline אוטומטי מלא.
קריינות עברית טבעית לסרטון — מטקסט ל-MP3 מוכן לעריכה. מודל Multilingual v2 לאיכות מקסימלית.
from elevenlabs.client import ElevenLabs
from elevenlabs import save
client = ElevenLabs() # לוקח מ-ELEVENLABS_API_KEY
script = """ברוכים הבאים לסרטון.
היום נלמד איך לבנות אוטומציה עם AI.
בואו נתחיל."""
audio = client.text_to_speech.convert(
voice_id="JBFqnCBsd6RMkjVDRZzb",
model_id="eleven_multilingual_v2",
text=script,
voice_settings={"stability": 0.6, "similarity_boost": 0.8},
)
save(audio, "voiceover.mp3")
print("הקריינות נשמרה: voiceover.mp3")
המרת מאמרים בבלוג לגרסת אודיו אוטומטית — כל פוסט הופך לקובץ MP3 להאזנה.
from elevenlabs.client import ElevenLabs
from elevenlabs import save
import os
client = ElevenLabs()
def article_to_audio(title: str, body: str, slug: str):
text = f"{title}. {body}"
audio = client.text_to_speech.convert(
voice_id="JBFqnCBsd6RMkjVDRZzb",
model_id="eleven_multilingual_v2",
text=text,
voice_settings={"stability": 0.65, "similarity_boost": 0.75},
)
path = f"audio/{slug}.mp3"
os.makedirs("audio", exist_ok=True)
save(audio, path)
return path
# המרת כל הפוסטים
posts = [
{"title": "מה זה אוטומציה", "body": "...", "slug": "what-is-automation"},
{"title": "AI Agents מסבירים", "body": "...", "slug": "ai-agents"},
]
for p in posts:
print("נוצר:", article_to_audio(p["title"], p["body"], p["slug"]))
דיבוב אוטומטי של וידאו לשפה אחרת תוך שמירה על קול הדובר — דרך ה-Dubbing API.
from elevenlabs.client import ElevenLabs
client = ElevenLabs()
# יצירת פרויקט דיבוב מקובץ וידאו
with open("source_video.mp4", "rb") as f:
dub = client.dubbing.create(
file=f,
target_lang="en", # מעברית לאנגלית (או "he" להפך)
source_lang="he",
num_speakers=1,
)
dubbing_id = dub.dubbing_id
print("פרויקט דיבוב נוצר:", dubbing_id)
# המתנה לסיום העיבוד, ואז הורדת התוצאה
# (בייצור: poll על status עד שהוא 'dubbed', ואז:)
result = client.dubbing.get_dubbed_file(dubbing_id, language_code="en")
with open("dubbed_en.mp4", "wb") as out:
for chunk in result:
out.write(chunk)
print("הדיבוב הושלם: dubbed_en.mp4")
Voice Agent מלא — System Prompt, Knowledge Base (RAG) וחיבור טלפוני. הסוכן עונה לשיחות, עונה משאלות נפוצות, ופותח פניות.
from elevenlabs.client import ElevenLabs
client = ElevenLabs()
# יצירת Voice Agent (Conversational AI)
agent = client.conversational_ai.agents.create(
name="נציג שירות Automation4MI",
conversation_config={
"agent": {
"prompt": {
"prompt": (
"אתה נציג שירות חם ומקצועי של Automation4MI. "
"ענה בעברית, בקצרה ובאדיבות. אם אינך יודע, "
"הצע להעביר לנציג אנושי. אל תמציא מידע."
),
},
"language": "he",
},
"tts": {
"voice_id": "JBFqnCBsd6RMkjVDRZzb",
"model_id": "eleven_turbo_v2_5", # latency נמוך לזמן אמת
},
},
)
print("Agent ID:", agent.agent_id)
# שלבים נוספים בלוח הבקרה:
# 1. העלאת מסמכי FAQ ל-Knowledge Base (RAG)
# 2. הגדרת Tools (פתיחת פנייה, בדיקת הזמנה)
# 3. חיבור מספר טלפון (Telephony) לשיחות נכנסות
n8n מאזין ל-webhook, שולח טקסט ל-ElevenLabs API, ומפרסם את האודיו אוטומטית. אפשר batch של עשרות פריטים בבת אחת.
# Webhook handler — מופעל מ-n8n על כל פריט תוכן חדש
from elevenlabs.client import ElevenLabs
from elevenlabs import save
client = ElevenLabs()
def handle_webhook(payload: dict):
"""payload מגיע מ-n8n: {id, text, lang}"""
audio = client.text_to_speech.convert(
voice_id="JBFqnCBsd6RMkjVDRZzb",
model_id="eleven_multilingual_v2",
text=payload["text"],
)
path = f"out/{payload['id']}.mp3"
save(audio, path)
return {"status": "done", "file": path}
# batch — עיבוד אצווה של פריטים
def process_batch(items: list[dict]):
return [handle_webhook(item) for item in items]
# הזרימה המלאה ב-n8n:
# Trigger (RSS/DB חדש) -> HTTP Request לשרת זה
# -> ElevenLabs TTS -> Upload (S3/Drive)
# -> פרסום (YouTube/פודקאסט/אתר)
להקמת הזרימה ב-n8n עצמה — webhook, batching ו-error handling — ראו את מדריך n8n.
גיליון עזר — ElevenLabs
בחירת מודל
| model_id | חוזק | מתי |
|---|---|---|
| eleven_turbo_v2_5 | latency נמוך | Agents, זמן אמת |
| eleven_multilingual_v2 | איכות גבוהה | קריינות, עברית, audiobooks |
| eleven_v3 | הבעתיות | דמויות, רגש, דיאלוג |
הגדרות Voice — מתי לכוונן
טיפים להגייה בעברית
- השתמש ב-
eleven_multilingual_v2אוv3לעברית — לא במודלים אנגליים בלבד - פיסוק נכון = אינטונציה נכונה. הוסף פסיקים ונקודות במקומות הטבעיים של נשימה
- למילים לועזיות בעברית — נסה לכתוב אותן פונטית אם ההגייה יוצאת שגויה
- הוסף הפסקות מפורשות עם
<break time="0.7s" />בין משפטים ארוכים - תמיד תייצר 2–3 וריאציות ותבחר את הטבעית ביותר
סוגי שכפול קול
Latency לפי שימוש
| שימוש | עדיפות | מודל מומלץ |
|---|---|---|
| Voice Agent / טלפון | latency נמוך | Turbo / Flash |
| קריינות / Audiobook | איכות | Multilingual v2 |
| דמות / רגש | הבעתיות | v3 |
מוכן להתחיל?
כנס ל-elevenlabs.io ונסה את ה-Studio חינם, או קבל API key והתחל לבנות עם הדוגמאות מהמדריך הזה. רוצה לבנות סוכן קולי שלם? המשך למדריכים הקשורים.