אינטליגנציה של מסמכים
עיבוד וניתוח חכם של מסמכים באמצעות AI
check_circle מה תלמדו בקורס?
מבוא לאינטליגנציה של מסמכים
45 דקות
שיעורים בחלק זה:
-
play_circle
מה היא אינטליגנציה של מסמכים
היכרות עם הקונספט הבסיסי של Document Intelligence וחשיבותה בעולם הדיגיטלי המודרני
-
play_circle
יישומים ותרחישים עסקיים
דוגמאות מעשיות של כיצד ארגונים משתמשים בטכנולוגיה זו לשיפור תהליכים
-
play_circle
טכנולוגיות עדכניות בתחום
סקירת הכלים המובילים בשוק - Azure Document Intelligence, Google Document AI ועוד
תוכן מעמיק
אינטליגנציה של מסמכים (Document Intelligence) היא תחום מהפכני המשלב בין טכנולוגיות OCR (Optical Character Recognition) ו-AI מתקדם. במודול זה נחקור את היסודות של תחום זה ונבין כיצד הוא משנה את דרך ניהול המסמכים בעסקים.
הבעיה המקורית: לעשרות שנים, עיבוד מסמכים היה תהליך ידני שגוזל זמן. טופסים, חשבוניות, חוזים וביצוע מסמכים דרשו יד אדם לקריאה, הבנה וחילוץ מידע. זה היה בקבוק צוואר משמעותי בכל ארגון גדול.
💡 טיפ מקצועי
Document Intelligence לא עוד רק קריאת טקסט - זו הבנה של ההקשר, המשמעות והקשרים בין מידע בתוך מסמך
הפתרון המודרני: בעזרת Machine Learning וטכנולוגיות ראייה מחשב, אנחנו יכולים כעת לאוטומט את כל התהליך הזה. המערכת יכולה לא רק לקרוא טקסט, אלא גם להבין את המבנה, לזהות טבלאות, להפקיד חתימות ולחלץ מידע חכם ממסמכים מורכבים.
דוגמה: עיבוד חשבוניות
Input: קובץ PDF של חשבונית סופר
↓
1. זיהוי סוג המסמך (חשבונית)
2. אבחון הגבולות של האזורים החשובים
3. חילוץ: שם ספק, מספר הזמנה, סכום כולל
4. אימות נתונים
5. העברה למערכת ממיטה
Output: נתונים מובנים, מוכן לעיבוד אוטומטי
תהליך זה שלעבר דרש שעות של עבודה ידנית, כעת יכול להתבצע בשניות עם דיוק של 99%+
יישומים עסקיים חוקיים
- בנקים וביטוח: עיבוד בקשות הלוואה, אישור דוקומנטים
- משפטי: ניתוח חוזים, חילוץ תנאים חשובים
- בריאות: עיבוד רשימות רפואיות, תביעות保険
- קמעונאות: ניהול שרשרת אספקה וקבלות
- משאבי אנוש: עיבוד קורות חיים, בדיקת מסמכים
שאלה לחשיבה: באיזה תהליך בחברתך היה יכול להיות יישום של Document Intelligence?
טכנולוגיות OCR וזיהוי
60 דקות
שיעורים בחלק זה:
-
play_circle
עיקרונות ה-OCR
הבנה עמוקה של כיצד מערכות ממירות תמונות טקסט לנתונים דיגיטליים
-
play_circle
זיהוי טקסט ודמויות
טכניקות חדישות לזיהוי כתב יד, דמויות מיוחדות וטקסט בזוויות שונות
-
play_circle
טיפול בתמונות וקבצים שונים
עבודה עם JPEG, PNG, PDF, סריקות ברזולוציות שונות
תוכן מעמיק
OCR (Optical Character Recognition) היא הטכנולוגיה הבסיסית המאפשרת מחשבים לקרוא טקסט מתמונות. אבל זה הרבה יותר מורכב ממה שנראה בהתחלה.
שלבי התהליך ב-OCR מודרני
שלב 1: עיבוד תמונה ראשוני (Preprocessing)
הסרת רעש, התאמת ניגודיות, תיקון סיבוב, שיפור איכות התמונה
שלב 2: פילוח מרחבי (Segmentation)
חלוקת התמונה לאזורים לוגיים - אזור כותרת, גוף טקסט, טבלאות, אזור חתימה
שלב 3: זיהוי תו (Character Recognition)
שימוש בNeuron Networks עמוקות לזיהוי כל תו בנפרד
שלב 4: תיקון שגיאות (Post-Processing)
השוואה מול מילון, תיקון שגיאות, זיהוי בעיות יודע
⚡ ידע חיוני
OCR מודרני משתמש ב-Deep Learning Networks (CNN + RNN) שמאומנים על מיליוני תמונות. דיוק יכול להגיע ל-99.9% למסמכים בעלי איכות טובה
סוגי תמונות ואתגרים
📄 סריקות בשחור לבן (בעיה: איכות נמוכה)
פתרון: אלגוריתמים של שיפור דינמי של ניגודיות ותיקון תווים שקרועים
🖼️ תמונות צבעוניות (בעיה: רקע מורכב)
פתרון: הפרדה של טקסט מרקע, מסנני צבע מתאימים
✍️ כתב יד (בעיה: השתנות גדולה בין אנשים)
פתרון: מודלים מיוחדים מאומנים על כתב יד, דיוק נמוך יותר (70-80%)
📋 טבלאות מורכבות (בעיה: זיהוי המבנה)
פתרון: זיהוי קווים, הבנת הקשרים בין תאים, שמירת מבנה הנתונים
דוגמה קוד: עיבוד בסיסי של תמונה
import pytesseract
from PIL import Image, ImageEnhance, ImageFilter
# טעינת תמונה
img = Image.open('document.png')
# שלב preprocessing
enhancer = ImageEnhance.Contrast(img)
img = enhancer.enhance(2) # הגברת ניגודיות
img = img.filter(ImageFilter.SHARPEN) # חידוד
# חילוץ טקסט עם OCR
text = pytesseract.image_to_string(img, lang='heb')
print(text)
השוואה בין כלים עיקריים
| כלי | דיוק OCR | זיהוי טבלאות | תמיכה בעברית |
|---|---|---|---|
| Google Vision API | 98%+ | ✅ מעולה | ✅ כן |
| Azure Document Intelligence | 99%+ | ✅ מעולה | ✅ כן |
| Tesseract (Open Source) | 85-95% | ⚠️ בסיסי | ✅ כן |
עיבוד וניתוח נתונים
60 דקות
שיעורים בחלק זה:
-
play_circle
חילוץ מידע מובנה
הפיכת טקסט חופשי לנתונים מובנים ומסודרים
-
play_circle
ניקיון וטיהור נתונים
טכניקות להסרת שגיאות, כפילויות ודאטה שגויה
-
play_circle
זיהוי דפוסים וקטגוריות
שימוש בטכניקות ML לסיווג ממתיקה של מסמכים והמידע בתוכם
תוכן מעמיק
לאחר שהחילצנו טקסט מהתמונה, עלינו להפוך אותו לנתונים ממובנים וישימים. זוהי אחת ההנדסה החשובה ביותר בתהליך, שכן נתונים גרוע יוביל לתוצאות גרוע.
שלבי עיבוד הנתונים
1️⃣ שלב טנטוריות (Tokenization)
פיצול הטקסט לטוקנים בודדים (מילים, מספרים, סימנים)
2️⃣ זיהוי גופים (Named Entity Recognition - NER)
זיהוי אנשים, חברות, תאריכים, סכומים כסף, מיקומים וכו'
3️⃣ נורמליזציה (Normalization)
התאמת פורמט - הסרת רווחים עודפים, יישור תאריכים לפורמט אחד
4️⃣ לינקונג (Linking)
חיבור מידע ממופות שונות של המסמך למסד נתונים קיים
דוגמה: עיבוד טקסט מחשבונית
# נתונים גולמיים מ-OCR
raw_text = """
חברת תקווה בע"מ
ת.ז. 123456789
תאריך: 15/04/2024
סכום: 1,250.50 ש"ח
אחוז מס: 17%
סכום מס: 212.59 ש"ח
סה"כ לתשלום: 1,463.09
"""
# שלב 1: Tokenization ו-NER
import spacy
nlp = spacy.load('he_core_news_sm')
doc = nlp(raw_text)
# שלב 2: חילוץ ישויות
for ent in doc.ents:
print(f"{ent.text}: {ent.label_}")
# שלב 3: חילוץ שדות ספציפיים
import re
date = re.search(rr'(\d{1,2}/\d{1,2}/\d{4})', raw_text).group(1)
amount = re.search(rr'סכום:\s*([\d.,]+)', raw_text).group(1)
# שלב 4: נורמליזציה
amount = amount.replace(',', '').replace('.', ',') # לפורמט עברי
date_obj = datetime.strptime(date, "%d/%m/%Y")
structured_data = {
"company": "תקווה בע\"מ",
"date": date_obj.isoformat(),
"amount": float(amount.replace(',', '.')),
"currency": "ILS"
}
טיהור נתונים - בעיות נפוצות ופתרונות
❌ בעיה: כפילויות
דוגמה: אותו מספר הזמנה מופיע פעמיים בטבלה
✅ פתרון: השוואה hashless של שדות, זיהוי דפוסים חוזרים
❌ בעיה: פורמטים לא עקביים
דוגמה: תאריך כתוב כ- "15/4/24" או "2024-04-15" או "15 באפריל"
✅ פתרון: Regex patterns ו-date parsing libraries
❌ בעיה: ערכים חסרים
דוגמה: שדה חובה כמו מחיר אינו קיים בקו מסוים
✅ פתרון: Rule-based imputation, inference models או דגלול הנתון
🎯 חומר לחשיבה
באופן סטטיסטי, 80% מהזמן בפרויקטי Data ב-AI מושקע בטיהור ועיבוד נתונים. זו לא עבודה סקסית, אבל היא קריטית!
יישומים מעשיים ואוטומציה
45 דקות
שיעורים בחלק זה:
-
play_circle
אוטומציה של תהליכי עסק
איך לשלב Document Intelligence ב-RPA וWorkflow Automation
-
play_circle
אינטגרציה עם מערכות קיימות
חיבור ל-ERP, CRM, מערכות ניהול מסמכים
-
play_circle
פרויקט סיום — מערכת עיבוד מסמכים
בנייה מלאה של pipeline לעיבוד חשבוניות ב-production