חברת Mistral משיקה את Voxtral TTS: מודל טקסט לדיבור מתקדם ב-9 שפות

מודל Voxtral TTS תמונה באמצעות Gemini

⭐ נקודות עיקריות

  • חברת Mistral הציגה את Voxtral TTS, מודל טקסט לדיבור (TTS) בגודל 4 מיליארד פרמטרים התומך ב-9 שפות.
  • המודל קומפקטי מספיק כדי לפעול על מכשירי קצה כמו סמארטפונים ושעונים חכמים.
  • ההשקה מציבה את החברה בתחרות ישירה מול חברות כמו OpenAI ו-ElevenLabs בתחום סוכני הקול לארגונים.
  • זמין כעת לשימוש דרך API, בממשקי החברה, וכן להורדה תחת רישיון לשימוש לא מסחרי.

חברת הבינה המלאכותית הצרפתית Mistral הכריזה על Voxtral TTS, מודל טקסט לדיבור TTS (ר”ת Text-to-Speech) בקוד פתוח המיועד ליצירת קולות טבעיים במגוון שפות.

המודל החדש, המבוסס על ארכיטקטורה קלת משקל של 4 מיליארד פרמטרים, נועד לאפשר למפתחים ולארגונים לשלב סוכני קול (Voice Agents) בשירותי תמיכת לקוחות ומכירות.

השקת המודל מציבה את מיסטרל בתחרות ישירה מול שחקניות בולטות בתחום יצירת השמע, בהן OpenAI, Deepgram ו-ElevenLabs.

המהלך מצטרף למודלי התמלול שהציגה מיסטרל מוקדם יותר השנה, כחלק מחזון רחב יותר של החברה לספק פלטפורמה מולטי-מודאלית מלאה התומכת בקלט ופלט של טקסט, אודיו ותמונה במערכת אחת.

מאפיינים עיקריים ויכולות

המודל החדש תומך ב-9 שפות שונות: אנגלית, צרפתית, גרמנית, ספרדית, הולנדית, פורטוגזית, איטלקית, הינדי וערבית.

לדברי החברה, Voxtral TTS מסוגל לייצר דיבור ריאליסטי המשלב הבעות רגשיות, תוך תמיכה במגוון דיאלקטים ומבטאים, במטרה להישמע טבעי ואנושי ככל הניתן.

לדברי פייר סטוק (Pierre Stock), סגן נשיא במיסטרל, המודל פותח בעקבות דרישת לקוחות ונועד להיות קומפקטי מספיק כדי לפעול על מכשירי קצה (Edge) כגון שעונים חכמים, סמארטפונים ומחשבים ניידים, וזאת לדבריו בשבריר מהעלות של פתרונות מתחרים בשוק.

בנוסף, המודל מציע יכולות של שיבוט והתאמת קול (Voice Adaptation). על פי מיסטרל, נדרשת דגימת שמע של שניות בודדות בלבד כדי שהמודל ילמד לחקות את קולו של הדובר המקורי, כולל תכונות עדינות כמו אינטונציה, קצב ואפילו אי-סדירויות טבעיות בדיבור.

המודל מסוגל לבצע התאמה זו גם במעבר בין שפות, מה שהופך אותו לשימושי עבור תרחישים כמו דיבוב או תרגום בזמן אמת.

ארכיטקטורה וביצועים

המודל מבוסס על מודל השפה Ministral 3B של החברה, ומשלב ארכיטקטורת טרנספורמר (Transformer) מסוג Autoregressive ו-Flow-matching יחד עם קודק שמע יעודי שפותח על ידי מיסטרל.

בגזרת הביצועים, החברה מציינת כי המודל נבנה במיוחד עבור עבודה בזמן אמת. Voxtral TTS מציע זמני שיהוי (Latency) נמוכים הנעים סביב 70 עד 90 מילישניות מרגע קבלת הקלט ועד לתחילת הפקת השמע (Time-to-First-Audio), עבור קלט שמע טיפוסי של 10 שניות ו-500 תווים.

לטענת החברה, בבדיקות אנושיות שביצעה, המודל החדש עולה ברמת הטבעיות שלו על מודל ה-Flash v2.5 של חברת ElevenLabs, ומציג ביצועים המקבילים לאלו של מודל ElevenLabs v3 המתקדם יותר.

ביצועי Voxtral TTS (מקור mistral)
ביצועי Voxtral TTS (מקור mistral)

מחירים וזמינות

מודל ה-Voxtral TTS זמין כעת להתנסות דרך פלטפורמת Mistral Studio וכן בעוזרת האישית של החברה, Le Chat.

עבור מפתחים וארגונים, המודל מוצע לשימוש דרך ממשק פיתוח (API) בעלות של 0.016 דולר לכל 1,000 תווים.

בנוסף, החברה שחררה את המודל בתוספת מספר קולות מוגדרים מראש כקוד פתוח בפלטפורמת Hugging Face, תחת רישיון CC BY NC 4.0 המאפשר שימוש שאינו מסחרי.

השוואת מפרטים