הכירו את VOID: מודל AI להסרת אובייקטים מסרטוני וידאו מבית נטפליקס

מודל ה-Void תמונה באמצעות Gemini

⭐ נקודות עיקריות

  • נטפליקס הציגה מודל AI המסיר אובייקטים מווידאו ומתאים את הסביבה לחוקי הפיזיקה.
  • המערכת מזהה ומתקנת השפעות סיבתיות כמו צלליות, חפצים נופלים והשתקפויות.
  • עיבוד וידאו כפול (Two-pass) נועד למנוע עיוותים ויזואליים בצורת האובייקטים.
  • המודל זמין להורדה בחינם תחת רישיון מסחרי (Apache 2.0).

נטפליקס (Netflix) הכריזה על VOID (ר”ת Video Object and Interaction Deletion), מודל בינה מלאכותית חדש וחינמי המיועד להסרת אובייקטים מסרטוני וידאו.

המודל מתמקד בתיקון ההשפעה הפיזיקלית והסיבתית שנוצרת בעקבות הסרת אובייקט מהסצנה, בניגוד לכלים קיימים המסתפקים במילוי הפיקסלים החסרים בלבד.

הפיתוח נועד לייעל את תהליכי העריכה והאפקטים הוויזואליים (VFX), בכך שהוא חוסך את הצורך לתקן ידנית השתקפויות, עקבות, או תנועות של חפצים אחרים שהושפעו מהאובייקט שהוסר.

הכירו את Void

מודל VOID פועל תוך התבססות על הבנת חוקי הפיזיקה. במקום רק לזהות את האובייקט, למסך אותו ולמלא את הרקע, המערכת מנתחת מה אמור להתרחש בסצנה לאחר שהאובייקט נעלם.

לדברי החברה, התהליך מתחיל כאשר המשתמש בוחר באובייקט להסרה. לאחר מכן, תהליך הסקה מבוסס מודל שפה חזותי (VLM) מזהה אילו אזורים נוספים בסצנה יושפעו סיבתית – למשל חפצים שייפלו, יתנגשו או ישנו את מסלולם.

מידע זה מקודד למסכה ייעודית (Quadmask) אשר מנחה את מודל הדיפוזיה כיצד לבנות מחדש את הסרטון.

המערכת דורשת מהמשתמש להזין פקודת טקסט (Prompt) המתארת את הסצנה כפי שהיא אמורה להיראות לאחר ההסרה, ולא תיאור של האובייקט המוסר. לדוגמה, אם מסירים אדם ממטבח, הפקודה צריכה להיות “שיש מטבח ריק”.

תרשים זרימה למודל ה-Void (מקור void)
תרשים זרימה למודל ה-Void (מקור void)

יכולות נוספות ותרחישים

על פי מסמך המחקר של החברה, המערכת כוללת יכולת “תיקון אינטראקציות” (Interaction repair) המטפלת אוטומטית בצלליות, השתקפויות, עקבות וחפצים שהוזזו.

החברה הציגה מספר תרחישים המדגימים את יכולות המערכת:

  • הסרת אדם המחזיק גיטרה – המערכת מזהה כי האדם הוסר וגורמת לגיטרה ליפול מטה עקב כוח המשיכה, במקום להשאיר אותה לרחף באוויר.
  • קפיצה לבריכה – בעת הסרת אדם הקופץ למים, המערכת מרגיעה את המים ומעלימה את השפרצות המים.
  • תאונת דרכים – הסרת רכב מזירת התנגשות גורמת למערכת להחליף את העשן והשברים בכביש נקי.

כדי להתמודד עם בעיות של עיוותי צורה (Morphing), המערכת מציעה מנגנון עבודה בעל שני שלבים:

המעבר הראשון (First pass) מייצר סרטון חלופי המדמה את המציאות ללא האובייקט.

במידה ומתגלה עיוות, קיים מעבר שני (Second pass) אופציונלי המריץ מחדש את תהליך ההסקה תוך שימוש בנתוני רעש מעובדים (Flow-warped noise) שנגזרו מהשלב הראשון, במטרה לייצב את צורת האובייקטים.

ביצועים

לדברי נטפליקס, המודל מציג ביצועים תחרותיים מול חלופות בתשלום. על פי נתוני החברה מתוך מבחני העדפת משתמשים מוקדמים, התוצאות של VOID הועדפו ב-64.8% מהמקרים, זאת בהשוואה ל-18.4% עבור מודל הווידאו של חברת Runway.

זמינות

מודל VOID זמין כעת להורדה דרך פלטפורמת Hugging Face המציעה גם להתנסות בדמו של המודל החדש.

המודל זמין תחת רישיון קוד פתוח מסוג Apache 2.0, המאפשר למפתחים ולחברות להשתמש בו לצרכים אישיים ומסחריים כאחד, ללא דרישת תשלום.

השוואת מפרטים