⭐ נקודות עיקריות
- גוגל חושפת את Gemini Omni, מודל AI מולטי-מודאלי ליצירה ועריכת סרטונים.
- המודל מאפשר עריכת וידאו מבוססת שיחה, כולל שינוי סביבה ודמויות בסרטונים.
- לדברי החברה, המערכת משלבת הבנה של חוקי פיזיקה ליצירת תנועה מציאותית יותר.
- מודל ה-Gemini Omni Flash זמין למנויים בתשלום ולמשתמשי YouTube Shorts.
חברת גוגל (Google) הכריזה במסגרת כנס המפתחים Google I/O השנתי שלה, על ה-Gemini Omni, מודל בינה מלאכותית (AI) חדש במשפחת ה-Gemini של החברה, הממוקד ביצירה ובעריכה של סרטוני וידאו.
המודל תוכנן מראש כמולטי-מודאלי, והוא מסוגל לקבל ולשלב סוגי קלט שונים בו-זמנית, הכוללים טקסט, תמונות, וידאו ואודיו, על מנת להפיק סרטונים איכותיים.
המהלך מסמן את התרחבות יכולות היצירה של החברה ומבוסס על תפיסה של “מודל עולם” (World Model), שנועד לשמור על סביבה וירטואלית עקבית ומבוססת מציאות.
המודל החדש, הממשיך את הדרך שהחלה עם מודלים קודמים כמו ה-Nano Banana, מאפשר עריכת תוכן וידאו מורכבת מתוך ממשק שיחה פשוט, ונועד לשמש ככלי מרכזי עבור יוצרי תוכן וצוותי פיתוח.
הכירו את Gemini Omni
החידוש המרכזי במודל ה-Omni מתמקד ביכולת לערוך סרטונים ולשלב מקורות קלט שונים באמצעות שפה טבעית.
משתמשים יכולים להזין סרטון קיים ולבקש מהמודל לבצע בו שינויים, כגון הוספת דמויות, שינוי הסביבה או החלפת חפצים.
בשלב ההשקה הנוכחי, גוגל מציינת כי קלט האודיו למערכת מוגבל לשימוש בדגימות דיבור בלבד.
על פי החברה, המערכת מתוכננת לשמור על עקביות של דמויות ורצף העלילה בין סצנות. תהליך העריכה מתבצע באופן מצטבר, כך שניתן לשפר ולשנות את הסרטונים במספר שלבים מבלי לאבד את קו העלילה המקורי או את הסגנון העיצובי שנבחר.
ביצועים ויכולות נוספות
מעבר לעריכה, גוגל מציינת כי מודל ה-Omni מציג הבנה אינטואיטיבית משופרת של תהליכים פיזיקליים.
לשם המחשה, החברה הציגה הדגמה של גולה המתגלגלת במסלול, ומציגה פיזיקה מציאותית של תנועה ואפקטים קוליים המסונכרנים במדויק לכל קפיצה ולפגיעה בפעמון.
המודל מרחיב את יכולותיו באמצעות שילוב הידע הכללי של Gemini, מה שמאפשר לו להמחיש מושגים מדעיים מורכבים.
בהדגמה נוספת הציגה גוגל סרטון הסבר באנימציית פלסטלינה (Claymation) המפרט את תהליך קיפול החלבונים, שנוצר כולו מתוך הנחיית טקסט קצרה.
כחלק ממאמצי השקיפות של החברה, כל הסרטונים שנוצרים או נערכים באמצעות המודל כוללים סימן מים דיגיטלי בלתי נראה של טכנולוגיית SynthID, וכן אישורי תוכן מסוג C2PA, המאפשרים זיהוי ברור לכך שהתוכן הופק באמצעות בינה מלאכותית.
זמינות
המודל הראשון בסדרה, המכונה Gemini Omni Flash, מושק כעת בהדרגה למנויי Gemini בתשלום ברחבי העולם, וזמין במסלולי AI Plus, Pro, והמסלול החדש AI Ultra.
הגישה למודל מתבצעת דרך אפליקציית Gemini ו-Google Flow. במקביל, המודל ישולב למשתמשי הפלטפורמות YouTube Shorts ואפליקציית YouTube Create בהמשך השבוע.