גוגל מציגה את Genie 3: מודל AI שיוצר עולמות אינטראקטיביים בזמן אמת

מודל ה-Genie 3 (מקור גוגל) מודל ה-Genie 3 (מקור גוגל)

DeepMind, חברת בינה מלאכותית השייכת לגוגל (Google), הציגה את Genie 3, מודל בינה יוצרת שנועד ליצור עולמות וירטואליים אינטראקטיביים בזמן אמת.

המודל החדש מייצר סביבות דינמיות ברזולוציית 720p בקצב של 24 פריימים לשנייה, תוך שמירה על עקביות במשך מספר דקות.

Genie 3 מייצג קפיצת מדרגה בתחום מודלי העולם (World Models), כאשר הוא מחליף את מודל ה-Genie 2 שהוכרז בסוף 2024 ומאפשר למשתמשים לנווט ולהשפיע על העולמות הוירטואליים באמצעות פקודות טקסט פשוטות.

בניגוד לטכנולוגיות קיימות הדורשות מידע תלת-ממדי מוכן מראש, Genie 3 בונה את העולמות פריים אחר פריים בהתבסס על תיאור טקסטואלי ופעולות המשתמש.

יכולות מתקדמות

המודל מציג מגוון רחב של יכולות המדמות תופעות טבעיות מורכבות. הוא מסוגל לדמות מים, תאורה וכוח הכבידה, ליצור מזג אוויר דינמי ולהציג אינטראקציות מורכבות בין אלמנטים שונים בסביבה. Genie 3 יכול ליצור נופים טבעיים כמו יערות, הרים ואוקיינוס, לצד סביבות עירונות מפורטות ואף עולמות פנטסיה.

אחד ההישגים המרכזיים של המודל הוא ביכולת שלו לשמור על עקביות ויזואלית לאורך זמן. כאשר משתמש חוזר למקום שכבר ביקר בו, המודל “זוכר” כיצד המקום נראה ושומר על רציפות ויזואלית. זיכרון זה משתרע עד דקה לאחור, מה שמאפשר חקירה מעמיקה של העולמות הוירטואליים.

הוספת “אירועי עולם בפקודה”

מעבר לניווט בסיסי, Genie 3 מציע תכונה ייחודית הנקראת “אירועי עולם בפקודה” (Promptable World Events). תכונה זו מאפשרת למשתמשים לשנות את העולם הוירטואלי באמצעות פקודות טקסט – לדוגמה, שינוי תנאי מזג האוויר, הוספת אובייקטים חדשים או שינוי תאורה. היכולת הזו הופכת את החוויה לדינמית יותר בהתאם לרצונות המשתמש.

המודל מסוגל ליצור מגוון עצום של סביבות, מנופים טבעיים ריאליסטיים ועד עולמות אנימציה צבעוניים. הוא יכול לדמות חיות בר בסביבתן הטבעית, לשחזר אתרים היסטוריים כמו ארמון כנוסוס בכרתים, ואף ליצור סביבות מדע בדיוני עם יצורים פנטסטיים.

יישומים עתידיים ומגבלות

Google DeepMind רואה ב-Genie 3 כלי חשוב לחינוך ואימון, המאפשר לתלמידים ללמוד ולמומחים לרכוש ניסיון בסביבות מדומות. המודל יכול לשמש גם לאימון סוכני AI כמו רובוטים ומערכות אוטונומית.

עם זאת, למודל יש מגבלות משמעותיות. טווח הפעולות הישיר של הסוכנים מוגבל, והוא אינו מדמה בדיוק מוחלט מקומות אמיתיים. המודל מתקשה גם עם עיבוד טקסט ברור ותומך כיום באינטראקציות של מספר דקות בלבד, ולא שעות ארוכות.

מודל ה-Genie 3 החדש זמין כעת כתצוגה מקדימה מוגבלת לקבוצה קטנה של אקדמאים ויוצרים.

 

השוואת מפרטים