הכירו את Stable Video Infinity – יצירת סרטוני AI ארוכים ללא שגיאות

מודל SVI (מקור Stable Video Infinity) מודל SVI (מקור Stable Video Infinity)

⭐ נקודות עיקריות

  • חוקרים מ-EPFL פיתחו את Stable Video Infinity (SVI), מערכת המאפשרת יצירת וידאו גנרטיבי ארוך.
  • הטכנולוגיה מתבססת על שיטת “מיחזור שגיאות” המלמדת את המודל לתקן עיוותים בזמן אמת.
  • הפיתוח פותר את בעיית ה”סחף”, הגורמת לאובדן הלכידות בסרטוני AI לאחר כ-30 שניות.

צוות חוקרים ממעבדת VITA בבית הספר הפוליטכני הפדרלי של לוזאן (EPFL) בשוויץ, חשף פיתוח חדש בתחום הבינה המלאכותית הגנרטיבית, המיועד לפתור את אחת המגבלות הקשות ביותר ביצירת וידאו: אובדן הקוהרנטיות (לכידות) לאורך זמן.

המערכת החדשה, שנקראת Stable Video Infinity (להלן SVI), מציעה גישה שונה לאימון מודלים, המאפשרת יצירת סרטונים באורך של דקות ארוכות תוך שמירה על רצף הגיוני ואיכות ויזואלית, בניגוד למודלים הקיימים המוגבלים לרוב לקטעים קצרים בלבד.

מאפיינים עיקריים ופתרון בעיית ה-Drift

האתגר המרכזי בווידאו גנרטיבי כיום מכונה “סחף” (Drift). מאחר שמודלים של וידאו משתמשים בפריים האחרון שיצרו כנקודת מוצא לפריים הבא, כל שגיאה מזערית או עיוות גרפי הולכים ומצטברים.

במודלים סטנדרטיים, תופעה זו גורמת לכך שסרטונים בני יותר מ-30 שניות נוטים להפוך לבלתי ברורים, כאשר אובייקטים משנים צורה וההיגיון הויזואלי קורס.

החוקרים ב-EPFL פיתחו שיטה הנקראת “אימון מחדש באמצעות מיחזור שגיאות” (Retraining by error recycling). במקום לאמן את המודל רק על נתונים מושלמים, המערכת מודדת את השגיאות שנוצרו ומזינה אותן חזרה לתהליך האימון.

פרופ’ אלכסנדר אלאהי (Alexandre Alahi), ראש מעבדת VITA, משווה את התהליך להכשרת טייס בתנאי מזג אוויר סוערים במקום בשמיים בהירים.

גישה זו מאלצת את המודל ללמוד כיצד “לחזור למסלול” ולתקן את עצמו כאשר הוא נתקל במידע לא מושלם שהוא עצמו יצר.

ביצועים ויכולות

על פי נתוני החוקרים, מערכת ה-SVI מסוגלת לייצר סרטונים עקביים באורך של מספר דקות ומעלה, יכולת המהווה קפיצת מדרגה ביחס למגבלות ה-5 עד 20 שניות הנפוצות כיום בשוק.

במהלך הבדיקות, המודל הדגים יכולת לייצב את התמונה ולשמור על לוגיקה ויזואלית גם לאחר שהוזנו לו פריימים התחלתיים פגומים, מה שמעיד על חוסן גבוה יותר לעומת מודלים מתחרים.

תרשים זרימה מודל SVI (מקור Stable Video Infinity)
תרשים זרימה מודל SVI (מקור Stable Video Infinity)

יכולות נוספות: LayerSync

בנוסף ל-SVI, הציגו החוקרים שיטה משלימה בשם LayerSync. טכנולוגיה זו מרחיבה את עקרון תיקון השגיאות גם ללוגיקה הפנימית של המודל, ולא רק לפלט הויזואלי.

LayerSync מאפשרת לחלקים “מומחים” בתוך המודל, המבינים טוב יותר את משמעות התמונה, להנחות חלקים אחרים במהלך האימון.

תהליך זה מאפשר למודל לפקח על עצמו ללא צורך במידע חיצוני נוסף, דבר המשפר את האיכות ביצירת תוכן מולטימודלי הכולל וידאו, תמונה וקול.

זמינות

הקוד של מערכת ה-SVI זמין כעת ב-GitHub לשימוש חוקרים ומפתחים.

דוגמה לסרטון טום וג’רי באורך 7 דקות המשתמש ב-SVI:

 

השוואת מפרטים