⭐ נקודות עיקריות
- חברת Mistral AI מכריזה על משפחת מודלי תמלול חדשה הכוללת את Voxtral Realtime ו-Mini Transcribe V2.
- המודלים מציעים שיהוי נמוך במיוחד של מתחת ל-200 מילישניות ויכולות זיהוי והפרדת דוברים.
- מודל ה-Realtime משוחרר בקוד פתוח תחת רישיון Apache 2.0 לשימוש מקומי ועל גבי מכשירי קצה.
- השירות מוצע במחיר התחלתי של פחות מאגורה לדקה, נמוך משמעותית מהמתחרים בשוק.
מיסטרל (Mistral AI), חברת הבינה המלאכותית הצרפתית, השיקה את Voxtral Transcribe 2, הדור החדש של מודלי התמלול של החברה.
ההשקה כוללת שני מודלים מרכזיים המיועדים לצרכים שונים: Voxtral Mini Transcribe V2 המיועד לתמלול קבצי שמע ו-Voxtral Realtime המיועד לתמלול בזמן אמת עם שיהוי של פחות מ-200 מילישניות.
המהלך של מיסטרל מתמקד בשילוב של ביצועים גבוהים, שיהוי נמוך ומחיר אגרסיבי העומד על פחות מאגורה לדקת שמע, זאת במטרה להתחרות ישירות בפתרונות קיימים של חברות כמו OpenAI ו-Google.
פרט חשוב בהכרזה החדשה הוא שחרור מודל ה-Realtime כמודל פתוח המאפשר למפתחים להריץ אותו באופן עצמאי.
הכירו את המודלים החדשים
מודל ה-Voxtral Realtime מבוסס על ארכיטקטורת הזרמה (Streaming) חדשנית, המעבדת את האודיו בזמן שהוא מגיע ולא בגושים (Chunks) כפי שנהוג במודלים אחרים.
טכנולוגיה זו מאפשרת למודל להגיע לשיהוי (Latency) נמוך במיוחד הניתן להגדרה עד לרמה של פחות מ-200 מילישניות, מה שחיוני עבור סוכנים קוליים ושיחות בזמן אמת.
לעומתו, מודל ה-Voxtral Mini Transcribe V2 מתמקד בדיוק ובפיצ’רים. הוא כולל לראשונה יכולת הפרדת דוברים (Speaker Diarization), המאפשרת לזהות ולתייג דוברים שונים בשיחה, וכן חותמות זמן ברמת המילה הבודדת.
המודל תומך גם ב”הטיית הקשר” (Context Biasing), המאפשרת למשתמשים להזין רשימה של עד 100 מונחים, שמות או ז’רגון מקצועי כדי לשפר את דיוק התמלול במקרים ספציפיים.
Introducing Voxtral Transcribe 2, next-gen speech-to-text models by @MistralAI.
State-of-the-art transcription, speaker diarization, sub-200ms real-time latency.
Details in ???? pic.twitter.com/0IeiJOpiAZ— Mistral AI (@MistralAI) February 4, 2026
ביצועים
על פי הנתונים שפרסמה החברה, המודלים החדשים מציגים שיפור משמעותי ביחס עלות-תועלת. המודלים תומכים ב-13 שפות, בהן אנגלית, סינית, ערבית, צרפתית, רוסית וגרמנית, ומציגים “שיעור שגיאת מילה” (Word Error Rate) של כ-4% במבחן FLEURS.
מיסטרל מציינת כי המודלים החדשים מתעלים בביצועים שלהם על פני מתחרים בולטים כמו GPT-4o mini Transcribe, Gemini 2.5 Flash ו-Deepgram Nova בפרמטרים של דיוק.
בהשוואה למודל Scribe v2 של ElevenLabs, החברה טוענת למהירות עיבוד הגבוהה פי 3 בעלות של כחמישית מהמחיר.

יכולות
המודלים החדשים תומכים בקבצי אודיו ארוכים של עד 3 שעות בבקשה אחת ובנפח של עד 1GB. התמיכה בפורמטים כוללת את סוגי הקבצים הנפוצים כגון mp3, wav, flac ועוד.
החברה השיקה גם Audio Playground (“מגרש משחקים”) בתוך פלטפורמת Mistral Studio, המאפשר למפתחים לבחון את יכולות התמלול, הפרדת הדוברים וחותמות הזמן באופן מיידי ללא צורך בכתיבת קוד.
זמינות
מודל ה-Voxtral Realtime זמין להורדה תחת רישיון Apache 2.0 דרך Hugging Face.