חברת דיפסיק (DeepSeek) הסינית השיקה לאחרונה מודל חדש בשם DeepSeek-OCR, מערכת המבוססת על בינה מלאכותית שמציעה גישה חדשה לבעיה ישנה: כיצד לעבד מסמכים ארוכים ביעילות.
במקום להזין טקסט ישירות למודל השפה, המערכת דוחסת את התוכן לתמונות דו-ממדיות ומפענחת אותן בחזרה לטקסט בדיוק גבוה. המערכת מוכיחה שתמונה אחת אכן יכולה להיות שווה אלף מילים – במובן המילולי.
הבעיה שהמודל פותר
מודלי שפה גדולים סובלים מבעיית אורך. כאשר מזינים להם מסמך באורך של 100,000 טוקנים (יחידות טקסט), המערכת מתקשה: זמן התגובה עולה, צריכת הזיכרון מתפוצצת והעלויות מטפסות.
הסיבה לכך היא שמנגנון ההתייחסות (Attention) במודלים אלו גדל בצורה ריבועית ביחס לאורך הטקסט.
הרעיון של DeepSeek-OCR הוא פשוט אך מפתיע: במקום להזין את כל הטקסט, המערכת מציגה אותו למודל כתמונה.
דף טקסט שיכול לתפוס 2,000-5,000 טוקנים טקסט, יכול להיות מיוצג כתמונה שדורשת רק 200-400 טוקנים חזותיים. זוהי דחיסה של פי 10.
כיצד המערכת עובדת
DeepSeek-OCR מורכב משני חלקים עיקריים: מקודד חזותי בשם DeepEncoder ומפענח בשם DeepSeek-3B-MoE.
המקודד מבוסס על שילוב של טכנולוגיות: SAM לתפיסה מקומית של פרטים קטנים, ו-CLIP להבנה גלובלית של המסמך. ביניהם פועל מדחס קונבולוציה שמקטין את מספר הטוקנים פי 16.
לדוגמה: תמונה בגודל 1024×1024 פיקסלים מתחלקת ל-4,096 חלקים. אחרי הדחיסה, נשארים רק 256 טוקנים.
המפענח, מודל Mixture-of-Experts קטן יחסית של 3 מיליארד פרמטרים עם 570 מיליון פרמטרים פעילים, משחזר את הטקסט מהטוקנים הדחוסים.
ביצועים מרשימים
המודל הצליח להראות ביצועים מרשימים במבחן הביצועים Fox עם דיוק של 97% בשחזור הטקסט בדחיסה של פי 9-10.
גם בדחיסה של פי 10-12, הדיוק נשאר גבוה במיוחד עם כ-90% דיוק. אפילו בדחיסה קיצונית של פי 20, הדיוק עמד על כ-60%, תוצאה מרשימה בהתחשב בקיטון הדרמטי בנפח.
במבחן הביצועים OmniDocBench, שבוחן ביצועים בעיבוד מסמכים אמיתיים, DeepSeek-OCR השיג תוצאות מובילות בשוק.
המודל עבר את GOT-OCR2.0 (שמשתמש ב-256 טוקנים לדף) תוך שימוש ב-100 טוקנים בלבד, והצליח לנצח את MinerU2.0 (שדורש בממוצע יותר מ-6,000 טוקנים לדף) תוך שימוש בפחות מ-800 טוקנים – שיפור דרמטי ביעילות.

יכולות נוספות
המערכת לא מסתפקת בזיהוי טקסט בלבד. DeepSeek-OCR יכול להמיר גרפים ותרשימים לטבלאות HTML, לזהות נוסחאות כימיות ולהציגן בפורמט SMILES, להבין דיאגרמות גיאומטריות פשוטות, ולתמוך ב-OCR רב-לשוני בקרוב ל-100 שפות.
המודל שומר גם על יכולות ראייה כלליות כמו תיאור תמונות.
יישומים נוספים כוללים דיגיטציה של מסמכים היסטוריים, יצירת מנגנוני זיכרון ושכחה במודלי שפה, וייצור בקנה מידה של נתוני אימון למודלי AI מהדור הבא.
מודל ה-DeepSeek-OCR החדש זמין כעת ב-GitHub.