גוגל מציגה את Gemini 3.5 Live Translate: תרגום קולי סימולטני ב-70 שפות

Gemini 3.5 Live Translate (מקור גוגל)

⭐ נקודות עיקריות

  • גוגל הכריזה על Gemini 3.5 Live Translate, מודל אודיו חדש לתרגום קולי סימולטני.
  • המודל מזהה באופן אוטומטי מעל 70 שפות ומציע תרגום רציף ללא צורך בהמתנה לסיום המשפט.
  • הטכנולוגיה משמרת את הטון, קצב הדיבור והאינטונציה המקוריים של הדובר במהלך התרגום.
  • המודל זמין מהיום למפתחים ובאפליקציית Google Translate, השילוב ב-Google Meet יגיע במהלך החודש.

גוגל (Google) הכריזה על Gemini 3.5 Live Translate, מודל האודיו העדכני ביותר של החברה המתבסס על מודל ה-Gemini 3.5 ומיועד לתרגום דיבור לדיבור (Speech-to-Speech) רציף ובזמן אמת.

המודל החדש מסוגל לזהות באופן אוטומטי יותר מ-70 שפות שונות ומייצר פלט קולי המדמה דיבור טבעי, תוך שמירה על מאפייני הקול המקוריים של הדוברים.

המודל מתחיל להגיע כבר היום גם לאפליקציית Google Translate באנדרואיד וב-iOS ברחבי העולם, ויאפשר למשתמשים לחבר אוזניות ולשמוע תרגום סימולטני של שיחה ישירות באוזן.

בניגוד למערכות תרגום מסורתיות הפועלות במבנה של סבבי שיחה ומאלצות את המשתמשים להמתין עד לסיום המשפט כדי לקבל תרגום, המודל החדש מזרים את האודיו המתורגם באופן מתמשך.

לדברי החברה, הטכנולוגיה מאזנת באופן דינמי בין ההמתנה להקשר המשפט לשם שמירה על דיוק, ובין תרגום מיידי במטרה לשמור על סנכרון קרוב של שניות בודדות בלבד מאחורי הדובר.

הכירו את ה-Gemini 3.5 Live Translate

החידוש המרכזי ב-Gemini 3.5 Live Translate הוא היכולת לעבד קלט קולי תוך כדי הזרמתו, מה שמאפשר אינטראקציה חלקה ללא הפסקות ממושכות. המודל מסוגל להתמודד עם קלט במספר רב של שפות ללא צורך בהגדרה או שינוי ידני של שפות המקור והיעד בתוך האפליקציה.

בנוסף, גוגל מציינת כי המודל כולל עמידות משופרת לרעשי רקע, תכונה המאפשרת לאפליקציות שישתמשו בו לפעול בצורה יציבה גם בסביבות רועשות.

המודל מתרגם את האודיו תוך שימור רכיבים קוליים חיוניים של הדובר, כמו קצב הדיבור (Pacing), גובה הצליל (Pitch) והאינטונציה הכללית, כדי שהתוצאה לא תישמע רובוטית.

כדי למנוע הפצה של פייק ניוז ותוכן מזויף, כל פלטי השמע שמיוצרים על ידי הדגם כוללים סימן מים דיגיטלי סמוי באמצעות טכנולוגיית SynthID של החברה. סימן מים זה נשזר ישירות לתוך קובץ האודיו, והוא אינו מורגש לאוזן אנושית אך מאפשר לזהות כי מדובר בתוכן שנוצר על ידי בינה מלאכותית.

שילוב ב-Google Meet ובאפליקציות

המודל החדש צפוי לשדרג את יכולות התרגום המובנות בפלטפורמת שיחות הווידאו Google Meet. השילוב יאפשר תמיכה כאמור במעל 70 שפות, הרחבה משמעותית לעומת המגבלה הקודמת שעמדה על חמש שפות בלבד.

העדכון ב-Google Meet יאפשר לנהל שיחות ביותר מ-2000 שילובים שונים של שפות בתוך פגישה אחת, ללא הגבלה לתרגום אל השפה האנגלית וממנה בלבד.

גוגל תשיק את השדרוג הזה בתצוגה מקדימה פרטית (Private Preview) עבור לקוחות עסקיים נבחרים של Google Workspace במהלך החודש, כאשר השקה רחבה יותר מתוכננת להמשך השנה.

במקביל, מפתחים יכולים לגשת למודל כבר מהיום בתצוגה מקדימה ציבורית דרך Gemini Live API ובסביבת הפיתוח Google AI Studio.

חברות תשתית למדיה בזמן אמת כמו LiveKit, Agora, Fishjam, Pipecat ו-Vision Agents כבר משלבות את ה-API כדי לאפשר פיתוח יישומי תרגום קולי. חברת Grab, למשל, בוחנת את המודל לצורך אספקת תרגום בזמן אמת בין נהגים לנוסעים במהלך איסופים.

זמינות באנדרואיד ו-iOS

עבור הקהל הרחב, המודל מתחיל להגיע החל מהיום לאפליקציית Google Translate הרשמית באנדרואיד ו-iOS ברחבי העולם.

בעת הפעלת תכונת התרגום החי באפליקציה, המשתמשים יוכלו לחבר אוזניות ולשמוע את התרגום הסימולטני ישירות באוזניה.

עבור משתמשי אנדרואיד, גוגל משיקה גם “מצב האזנה” (Listening Mode) חדש המבוסס על Gemini 3.5 Live Translate. מצב זה מאפשר לשמוע את התרגום ישירות דרך האפרכסת של המכשיר, בדומה לניהול שיחת טלפון רגילה. התכונה מיועדת למצבים שבהם המשתמש מעוניין להאזין לתרגום באופן דיסקרטי מבלי שהסובבים ישמעו אותו, או במידה ואין ברשותו אוזניות זמינות.

הכרזת Gemini 3.5 Live Translate:

השוואת מפרטים