גוגל מציגה את Gemini 3.1 Flash TTS: מודל AI להמרת טקסט לדיבור

Gemini 3.1 Flash TTS (מקור גוגל) Gemini 3.1 Flash TTS (מקור גוגל)

⭐ נקודות עיקריות

  • מודל AI חדש להמרת טקסט לדיבור (TTS) מבית גוגל.
  • מציג מערכת תגיות שמע לשליטה בסגנון וקצב הדיבור באמצעות שפה טבעית.
  • תומך בלמעלה מ-70 שפות (כולל עברית) ומשלב סימן מים דיגיטלי מבוסס SynthID.
  • זמין כעת בתצוגה מקדימה למפתחים, ארגונים ומשתמשי Google Vids.

גוגל (Google) הכריזה על Gemini 3.1 Flash TTS, מודל AI חדש בסדרת ה-Gemini להמרת טקסט לדיבור (Text-to-Speech) התומך במעל 70 שפות שונות, בהן עברית.

המודל מיועד עבור מפתחים, ארגונים ומשתמשים ליצירת אפליקציות מבוססות קול, ולדברי החברה הוא נועד לספק איכות שמע גבוהה לצד רמת שליטה רחבה מבעבר על סגנון הדיבור וקצב ההגשה.

הכירו את Gemini 3.1 Flash TTS

המודל החדש מציג יכולת המכונה “תגיות שמע” (Audio Tags), המאפשרת למשתמשים לשלוט בסגנון הקולי, בקצב ובאופן ההגשה באמצעות פקודות בשפה טבעית המשולבות ישירות בטקסט.

בסביבת הפיתוח Google AI Studio מציעה גוגל כלים נוספים לשליטה מדויקת, בהם “בימוי סצנה” להגדרת סביבה והוראות דיאלוג, המסייעות לשמור על אופי הדמויות לאורך השיחה.

בנוסף, המערכת מאפשרת התאמה אישית ברמת הדובר לשינוי טון, קצב ומבטא, כולל אפשרות לשינוי סגנון ההבעה באמצע משפט באמצעות תגיות בתוך הטקסט.

ביצועים

לפי הודעת החברה, המודל כולל תמיכה ביותר מ-70 שפות, בהן עברית, ומציע יכולת מובנית לניהול דיאלוג מרובה דוברים.

גוגל מציינת כי במבחני הביצועים של לוח הבקרה מבית Artificial Analysis, המבוססים על העדפות עיוורות של משתמשים, השיג המודל ציון דירוג (Elo) של 1,211.

כמו כן, ב-Artificial Analysis ציינו כי המודל מציע שילוב אידיאלי בין איכות הפקת דיבור גבוהה לעלות נמוכה.

השוואת ביצועים Gemini 3.1 Flash TTS (מקור גוגל)
השוואת ביצועים Gemini 3.1 Flash TTS (מקור גוגל)

יכולות נוספות

לאחר סיום העבודה על התוצר הקולי, המערכת מאפשרת לייצא את ההגדרות כקוד לממשק הפיתוח של המודל (Gemini API), במטרה לשמור על עקביות של קולות ודמויות בין פרויקטים שונים.

בנוסף, כל תוצרי השמע המופקים באמצעות Gemini 3.1 Flash TTS מסומנים בטכנולוגיית SynthID. מדובר בסימן מים דיגיטלי בלתי מורגש המוטמע בקובץ השמע, אשר נועד לאפשר זיהוי אמין של תוכן שנוצר על ידי בינה מלאכותית במטרה למנוע הפצת מידע מטעה.

זמינות

מודל ה-Gemini 3.1 Flash TTS זמין כעת בגרסת תצוגה מקדימה.

השוואת מפרטים