Alibaba Cloud, זרוע הענן של קבוצת עליבאבא הסינית, הכריזה על Wan2.2, שדרוג משמעותי למודלי יצירת הוידאו שלה המבוסס על בינה מלאכותית.
המודל החדש מציע יכולות משופרות, ביצועים טובים יותר ואיכות ויזואלית מתקדמת, תוך שימוש בארכיטקטורת “מומחים מעורבים” MoE (ר”ת Mixture of Experts) ליצירת וידאו ברזולוציית 720p.
מודל ה-Wan 2.2 החדש מחליף את מודל ה-Wan 2.1 שהוכרז בתחילת השנה, כאשר הוא מגיע בשלוש גרסאות שונות וישוחרר בקוד פתוח:
- T2V-A14B ליצירת וידאו מטקסט
- I2V-A14B ליצירת וידאו מתמונה
- TI2V-5B שמשלב את שתי היכולות במודל קומפקטי יותר.
ארכיטקטורת MoE חדשנית לוידאו
השיפור המרכזי ב-Wan2.2 הוא שילוב ארכיטקטורת MoE במודלי יצירת וידאו. הטכנולוגיה, שהוכחה כיעילה במודלי שפה גדולים, מאפשרת הגדלה של קיבולת המודל הכוללת תוך שמירה על עלות החישוב זהה.
המודל A14B משתמש בשני מומחים מיוחדים: מומחה לרעש גבוה שמתמקד בפריסה הכללית של הוידאו בשלבים המוקדמים, ומומחה לרעש נמוך שמזקק את הפרטים בשלבים המאוחרים.
כל מומחה כולל כ~14 מיליארד פרמטרים, מה שמביא את המודל הכולל ל-27 מיליארד פרמטרים, אך רק 14 מיליארד פעילים בכל שלב.
המעבר בין המומחים נקבע על בסיס יחס האות לרעש (SNR), כאשר במהלך תהליך הסרת הרעש המודל עובר אוטומטית מהמומחה לרעש גבוה למומחה לרעש נמוך.
המודל החדש אומן על מאגר נתונים מורחב משמעותית בהשוואה לגרסה הקודמת – 65.6% יותר תמונות ו-83.2% יותר סרטוני וידאו.
ההרחבה משפרת את יכולות ההכללה של המודל במימדים מרובים כמו תנועה, סמנטיקה ואסתטיקה. המודל משלב גם נתונים אסתטיים עם תיוגים מפורטים לתאורה, קומפוזיציה וצבע, המאפשרים יצירת וידאו עם סגנון קולנועי מדויק יותר.
If you missed the live broadcast, here is everything you should know about Wan2.2???? pic.twitter.com/yNgmjfE4yl
— Tongyi Lab (@Ali_TongyiLab) July 28, 2025
גרסאות ה-WAN 2.2
המודל מגיע בשלוש גרסאות שונות:
- Wan2.2-T2V-A14B – מודל ליצירת וידאו מטקסט התומך ביצירת וידאו של 5 שניות ברזולוציות 480p ו-720p. המודל בנוי עם ארכיטקטורת MoE ומציע איכות גבוהה ביצירת וידאו מתיאורים טקסטואליים.
- Wan2.2-I2V-A14B – מודל ליצירת וידאו מתמונה הבנוי גם הוא עם ארכיטקטורת MoE ותומך ברזולוציות 480p ו-720p. המודל מתמחה ביצירה של וידאו יציב יותר עם פחות תנועות מצלמה לא ריאליסטיות ותמיכה משופרת בסצנות מסוגננות.
- Wan2.2-TI2V-5B – מודל היברידי הבנוי עם Wan2.2-VAE מתקדם ותומך ביצירת וידאו הן מטקסט והן מתמונה ברזולוציית 720p עם 24 פריימים לשנייה. המודל יכול לרוץ על כרטיס מסך צרכני כמו RTX 4090 והוא מהמהירים בקטגוריה שלו עם יכולת יצירה של וידאו 720p באורך 5 שניות בתוך פחות מ-9 דקות.
מודל ה-Wan 2.2 זמין בקוד פתוח להורדה מ-GitHub ו-HuggingFace, עם אפשרות להתנסות בשימוש במודל ליצירת וידאו ב-HuggingFace.