⭐ נקודות עיקריות
- חברת PixVerse חשפה את R1, מודל “עולם” ליצירת וידאו בזמן אמת.
- המודל מציע יצירת וידאו אינסופית (Infinite Streaming) ברזולוציית 1080P.
- ארכיטקטורת Omni מאפשרת אינטראקציה מיידית ושליטה בזמן אמת על הדמויות והסביבה.
- המערכת זמינה דרך הממשק האינטרנטי והאפליקציה של החברה.
חברת הסטארט-אפ הסינית PixVerse, שבין המשקיעים בה אפשר למצוא את עליבאבא (Alibaba), הכריזה על השקתו של PixVerse-R1, מודל בינה מלאכותית חדש המוגדר על ידי החברה כ”מודל עולם” (World Model) בזמן אמת שנועד לשבור את המגבלות של מודלי הווידאו הנפוצים.
במקום המתנה ארוכה ליצירת סרטוני וידאו, ה-R1 מציג גישה ארכיטקטונית חדשה המשלבת מודל בסיס מולטי-מודאלי עם מנוע תגובה מיידית, מה שמאפשר למשתמשים לא רק לייצר סרטונים, אלא “לביים” אותם תוך כדי תנועה, עם שינויים המתרחשים באופן מיידי על המסך.
מודל וידאו בזמן אמת: איך עובד PixVerse-R1
הנה הצעה לכותרת ברורה ומדויקת יותר, יחד עם גרסה מפושטת וזורמת של הפסקה, שמדגישה את הרעיון בלי להעמיס מונחים:
איך עובד PixVerse-R1: מודל עולם וידאו בזמן אמת
בלב המערכת עומד מודל ה-Omni, ארכיטקטורה מאוחדת שמעבדת טקסט, תמונה, וידאו ואודיו כזרם רציף של נתונים (Tokens). במקום שרשרת של מודלים נפרדים, כל המידע נכנס למודל אחד, שמבין את הסצנה כמכלול.
הגישה הזו מאפשרת אימון מקצה לקצה (End-to-End), ללא שלבי ביניים שמאבדים מידע, ומסייעת למערכת לפתח הבנה עמוקה יותר של תנועה, אינטראקציות ופיזיקה בסיסית בעולם הווירטואלי שהיא מייצרת.
אחד החידושים המרכזיים הוא מנגנון הזרימה האינסופית (Infinite Streaming). במקום לייצר סרטון סגור באורך קבוע, המודל חוזה כל הזמן את הפריימים הבאים וממשיך את הווידאו ברצף מתמשך, כל עוד המשתמש מקיים אינטראקציה.
כדי לשמור על עולם יציב לאורך זמן, PixVerse שילבה מנגנון זיכרון פנימי שאחראי על עקביות פיזיקלית וחזותית. בדרך זו, הדמויות, הסביבה והחוקים הפנימיים של הסצנה נשמרים גם לאחר דקות ארוכות של יצירה בזמן אמת.
ביצועים וארכיטקטורה
ה-PixVerse-R1 מסוגל לייצר וידאו ברזולוציית 1080P בזמן אמת, הישג המתאפשר בזכות “מנוע תגובה מיידית” IRE (ר”ת Instantaneous Response Engine), המייעל בצורה דרמטית את תהליך הדגימה (Sampling), ומצמצם את מספר הצעדים הנדרשים ליצירת תמונה איכותית, מעשרות צעדים ל-1 עד 4 צעדים בלבד.
עם זאת, החברה מדגישה כי קיימת פשרה מסוימת בין מהירות לבין דיוק פיזיקלי מוחלט. כדי לאפשר את העיבוד בזמן אמת, המודל עשוי להציג לעיתים הצטברות של שגיאות או פשרות קלות בדיוק חוקי הפיזיקה בהשוואה למודלים שאינם פועלים בזמן אמת.
יכולות נוספות ויישומים
היכולת לייצר וידאו המגיב מיידית לקלט המשתמש פותחת דלת לקטגוריות חדשות של מדיה, בהן משחקים מבוססי AI וקולנוע אינטראקטיבי.
המשתמש יכול לשלוט בדמויות, לגרום להן לבצע פעולות כמו בכי, ריקוד או שינוי תנוחה, והתוכן הוויזואלי משתנה בצורה חלקה ומיידית בהתאם.
המודל תומך בקלט מולטי-מודאלי מלא, כך שניתן לשלב באמצעותו הנחיות טקסט עם אודיו ותמונה כדי להכווין את הסצנה.
החזון של החברה הוא לאפשר יצירת סימולציות עולם מתמשכות, המשמשות לא רק לבידור אלא גם למחקר, אימון ומערכות VR/XR מתקדמות.
זמינות
הגישה ל-PixVerse-R1 זמינה בשלב הנוכחי באמצעות הזמנה בלבד דרך פלטפורמת PixVerse המקוונת או באמצעות הסלולר (אנדרואיד/iOS).