דיקטה משיקה את Dicta-LM 3.0: שלושה מודלי AI שאומנו על עברית

תמונה באמצעות Nano Banana Pro תמונה באמצעות Nano Banana Pro

עמותת דיקטה הישראלית השיקה את Dicta-LM 3.0, משפחה חדשה של מודלי שפה גדולים בקוד פתוח המיועדים במיוחד לעברית.

בניגוד למודלי השפה הבינלאומיים שמוסיפים תמיכה בעברית רק בשלבים מאוחרים, המודלים של דיקטה אומנו על טקסטים עבריים כבר משלב האימון הראשוני, מה שמאפשר להם הבנה עמוקה יותר של השפה והתרבות העברית.

המודל החדש מחליף את Dicta-LM 2.0 שהוצג בשנה הקודמת, כאשר השקת המודל החדש מגיעה כחלק משיתוף פעולה עם אנבידיה, במסגרת יוזמה רחבה יותר של החברה לפיתוח מודלי AI ריבוניים לשפות מקומיות באירופה ובישראל.

שלושה מודלים בגדלים שונים

משפחת מודלי ה-Dicta-LM 3.0 החדשה כוללת שלושה דגמים, כאשר כולם תומכים בחלון הקשר של 65,000 טוקנים – המקבילים לכ-26,000 מילים בעברית:

  • Dicta-LM 3.0 24B, מודל הדגל של הסדרה, מבוסס על Mistral Small 3.1 וכולל 24 מיליארד פרמטרים. המודל מיועד להנמקה מתקדמת ולשיחות ארוכות טווח, ומציג ביצועים גבוהים במיוחד במשימות הדורשות הבנה עמוקה של מורפולוגיה וסמנטיקה עבריות.
  • Dicta-LM 3.0 Nemotron 12B, מבוסס על ארכיטקטורת Hybrid-SSM ומודל ה-Nemotron Nano V2 של אנבידיה וכולל 12 מיליארד פרמטרים. הארכיטקטורה הייחודית מאפשרת עיבוד חלונות הקשר ארוכים במיוחד תוך צריכת זיכרון נמוכה יחסית, מה שהופך אותו ליעיל במיוחד לייצור תוכן.
  • Dicta-LM 3.0 1.7B, המודל השלישי והקטן ביותר עם 1.7 מיליארד פרמטרים בלבד מתבסס על Qwen3, המיועד להרצה על מכשירי קצה אישיים כמו מחשבים ניידים וטאבלטים.
שיפור הביצועים בעברית בין מודלי ה-Dicta-LM 3.0 למודלים עליהם הם מבוססים (מקור דיקטה)
שיפור הביצועים בעברית בין מודלי ה-Dicta-LM 3.0 למודלים עליהם הם מבוססים (מקור דיקטה)

אימון משולב של עברית ואנגלית

המודלים אומנו על מאגר עצום של כ-150 מיליארד טוקנים, מתוכם כ-75% בעברית ו-25% באנגלית.

מקורות הדאטה העברי כוללים טקסטים פומביים, ארכיונים, אוספים מהספרייה הלאומית וחומרים ייעודיים שנמסרו לעמותה על ידי גופים ציבוריים ופרטיים.

השילוב עם דאטה איכותי באנגלית נועד לשמר את יכולות ההסקה והידע הגלובלי של המודלים הבסיסיים, תוך הוספת עומק בהבנת העברית.

תהליך האימון כלל שלושה שלבים עיקריים: אימון ראשוני (Pretraining) על מיליארדי מילים בעברית ובאנגלית, התאמה (Fine-tuning) לשיחה אמיתית והתנהגות מועילה, ושלב חיזוק (RL) המשפר את איכות התשובות על בסיס משוב. האימון בוצע באמצעות מסגרת NeMo של אנבידיה.

ביצועים מובילים בקטגוריה

במדדי הביצועים של Hebrew LLM Leaderboard, מודל הדגל של 24 מיליארד פרמטרים הוא המודל הפתוח בעל הביצועים הגבוהים ביותר בעברית מבין כל המודלים עד גודל של 70 מיליארד פרמטרים.

המודל מציג ביצועים יוצאי דופן במשימות כמו ניקוד אוטומטי (86.86%), סיכום טקסטים (56.86%) והבנת הקשר (78.06%).

השוואת ביצועים Hebrew LLM Leaderboard (מקור Hugging Face)
השוואת ביצועים Hebrew LLM Leaderboard (מקור Hugging Face)

זמינות

מודלי ה-Dicta-LM 3.0 החדשים זמינים להורדה חופשית דרך Hugging Face תחת רישיון Apache 2.0, ומאפשרים שימוש בלתי מוגבל למטרות פרטיות, מסחריות ואקדמיות. ניתן להתנסות בגרסת ה-24 מיליארד פרמטרים דרך chat.dicta.org.il.

השוואת מפרטים