⭐ נקודות עיקריות
- גוגל חושפת את Gemini 3.1 Flash Live, מודל מתקדם לאינטראקציות קוליות בזמן אמת.
- שירות ה-Search Live מתרחב ליותר מ-200 מדינות ומאפשר שיחה רציפה ושילוב מצלמה במגוון שפות, בהן עברית.
- לדברי החברה, המודל מציע זמני תגובה מהירים יותר והבנה משופרת של טקסטורות קול ורעשי רקע.
- המודל זמין כעת למפתחים בגרסת תצוגה מקדימה דרך ה-Live API לבניית סוכנים קוליים.
גוגל (Google) הכריזה על השקת מודל הבינה המלאכותית החדש שלה, ה-Gemini 3.1 Flash Live, הממוקד בעיבוד אודיו וקול בזמן אמת.
המודל החדש נועד לשמש כבסיס לדור הבא של שירותי החברה המבוססים על אינטראקציה קולית, ומביא עמו תמיכה רחבה בשפות שונות, בהן עברית.
לצד חשיפת המודל, החברה הודיעה על השקה גלובלית של שירות ה-Search Live (או “חיפוש בגוגל במצב Live”).
השירות זמין כעת ליותר מ-200 מדינות וטריטוריות, ומאפשר למשתמשים לנהל שיחות אינטראקטיביות ומולטי-מודאליות עם מנוע החיפוש, תוך שימוש בקול ובמצלמת המכשיר.
Search Live: חיפוש קולי וויזואלי בזמן אמת
שירות ה-Search Live נועד להציע מענה למצבים בהם הקלדת שורת חיפוש רגילה אינה מספיקה, ונדרשת עזרה דינמית יותר.
כדי להפעיל את המצב, משתמשי אפליקציית גוגל באנדרואיד ו-iOS יכולים להקיש על סמל ה-Live הממוקם מתחת לשורת החיפוש.
המשתמשים יכולים לשאול שאלות בקול רם, לקבל תגובה קולית ולהמשיך את השיחה עם שאלות המשך.
בנוסף, השירות מאפשר להפעיל את המצלמה כדי לספק למנוע החיפוש הקשר ויזואלי של הסביבה – למשל, לצורך קבלת הדרכה על הרכבת רהיט שנמצא מול המשתמש.
אפשרות זו זמינה גם למשתמשים הנמצאים בתוך שירות Google Lens עם מצלמה פתוחה, באמצעות הקשה על כפתור ה-Live בתחתית המסך.
שיתוף המצלמה מופעל כברירת מחדל במצב זה, במטרה לאפשר שיחה רציפה על האובייקטים הנראים בעדשה.
מודל ה-Gemini 3.1 Flash Live
מודל ה-Gemini 3.1 Flash Live מהווה את מנוע הליבה מאחורי הרחבת שירותי הקול של החברה.
לדברי גוגל, המודל מציע שיפור ניכר במהירות התגובה (Latency) בהשוואה לדורות קודמים, מה שמאפשר שיחה בקצב טבעי יותר.
על פי הודעת החברה, המודל החדש מזהה טוב יותר ניואנסים אקוסטיים כמו גובה הצליל (Pitch) וקצב הדיבור.
בנוסף, גוגל מציינת כי המודל מסוגל להתאים את התגובות שלו באופן דינמי כאשר הוא מזהה תסכול או בלבול מצד המשתמש.
המודל כולל תמיכה מובנית ביותר מ-90 שפות שונות. כדי להתמודד עם סוגיות של אמינות וזיהוי תוכן שנוצר על ידי בינה מלאכותית, כל תוצרי האודיו המופקים על ידי המודל כוללים סימן מים דיגיטלי בטכנולוגיית SynthID.

למפתחים: בניית סוכנים קוליים עם Live API
במקביל להשקה לצרכנים, גוגל פותחת את הגישה למודל ה-Gemini 3.1 Flash Live עבור מפתחים באמצעות ה-Live API ב-Google AI Studio, תחת גרסת תצוגה מקדימה (Preview).
הגישה לממשק הפיתוח מאפשרת לחברות וארגונים לבנות סוכנים חכמים המסוגלים לנהל שיחות בזמן אמת המשלבות קול וראייה ממוחשבת.
לדברי גוגל, המודל מציג אחוזי הצלחה גבוהים יותר בהשלמת משימות בסביבות רועשות מהעולם האמיתי, בזכות יכולתו לסנן רעשי רקע כמו תנועת כלי רכב או טלוויזיה, ולהתמקד בהוראות המשתמש.
זמינות
מודל ה-Gemini 3.1 Flash Live זמין החל מהיום במגוון שירותי החברה. משתמשים פרטיים יכולים להתנסות בו דרך Search Live ו-Gemini Live, כאשר פריסת ה-Search Live מגיעה לכל אזור בו פועל ה-AI Mode של גוגל.