⭐ נקודות עיקריות
- שיאומי הציגה מודל AI חדש שמאפשר לרובוטים להבין את הסביבה ולבצע פעולות בצורה חלקה יותר.
- המערכת יודעת לחשב את הצעד הבא בזמן שהרובוט כבר בתנועה, בלי עצירות ביניים.
- באימונים ובבדיקות המודל הגיע לרמת הצלחה גבוהה במיוחד במשימות מורכבות.
- הקוד והמודל זמינים כקוד פתוח למפתחים ולחוקרים.
שיאומי (Xiaomi) הכריזה על Xiaomi-Robotics-0, מודל בינה מלאכותית חדש שנועד לאפשר לרובוטים להבין את העולם סביבם ולבצע פעולות בצורה חלקה יותר – כמעט כמו אדם.
במקום לעצור בין פקודה לפקודה, המערכת מסוגלת לחשוב קדימה תוך כדי פעולה, מה שמאפשר תנועה טבעית ומהירה יותר בסביבות מורכבות.
מאחורי הקלעים פועל מודל מתקדם מסוג VLA (ר”ת Vision-Language-Action), המשלב הבנה חזותית, שפה ותנועה כדי לשפר משמעותית את היכולות המעשיות של רובוטים.
מאפיינים עיקריים
מודל ה-Xiaomi-Robotics-0 מציג ארכיטקטורה היברידית המשלבת שני רכיבים מרכזיים: מודל שפה-ראייה (VLM) מסוג Qwen3-VL-4B-Instruct המעבד את הקלט החזותי והטקסטואלי, ומודל דיפוזיה מסוג Diffusion Transformer (DiT) האחראי על יצירת הפעולות הפיזיות. בסך הכל, המודל כולל כ-4.7 מיליארד פרמטרים.
החידוש המרכזי של המודל טמון בשיטת ההרצה הא-סינכרונית (Asynchronous Execution). בניגוד למודלים מסורתיים בהם הרובוט נאלץ לעצור ולהמתין לסיום העיבוד של הפקודה הבאה, המודל החדש מאפשר לרובוט להמשיך לבצע את רצף הפעולות הנוכחי תוך כדי חישוב הרצף הבא במקביל.
כדי למנוע תנועות חדות או לא רציפות, שיאומי פיתחה מנגנון המיישר את ציר הזמן של הפעולות החזויות ומבטיח מעבר חלק בין הפקודות.

תהליך האימון והנתונים
אימון המודל התבצע בשני שלבים עיקריים. בשלב הראשון, המערכת אומנה על בסיס נתונים עצום הכולל כ-200 מיליון “צעדי רובוט” (Timesteps) שנאספו ממגוון רובוטים וסביבות, לצד יותר מ-80 מיליון דגימות של נתונים חזותיים-שפתיים (Vision-Language).
שילוב זה נועד למנוע את תופעת ה-“Catastrophic Forgetting”, בה המודל מאבד את יכולות ההבנה החזותית הכלליות שלו לטובת התמחות במוטוריקה.
בשלב השני (Post-training), המודל עבר התאמה ספציפית לביצועים בזמן אמת, תוך הקפאת רכיב ה-VLM ואימון מחדש של רכיב ה-DiT בלבד.
הנתונים לאימון כללו מידע שנאסף באופן פנימי על ידי שיאומי, כולל 338 שעות של פירוק מבני לגו ו-400 שעות של קיפול מגבות, משימות הדורשות קואורדינציה עדינה ושליטה בשתי ידיים.
ביצועים
על פי הדוח הטכני, Xiaomi-Robotics-0 מציג ביצועים העוקפים את המתחרים במגוון מדדים.
המודל השיג אחוזי הצלחה של 98.7% במבחן LIBERO וביצועים גבוהים במבחני SimplerEnv עם 85.5% במבחני התאמה חזותית.
במבחן CALVIN, הבודק ביצוע רצף של משימות ארוכות, המודל רשם שיפור באורך המשימות שהושלמו בהצלחה לעומת מודלים קודמים.
בבחינה על רובוטים פיזיים, המודל הדגים יכולות מוטוריות עדינות במשימות מורכבות. במשימת פירוק הלגו, הרובוט הצליח לפרק מבנים של עד 20 חלקים ולמיין אותם, תוך שמירה על קצב עבודה גבוה.
במשימת קיפול המגבות, המודל התמודד עם אובייקטים גמישים והצליח לבצע תיקונים בזמן אמת, כמו ניעור המגבת לחשיפת פינה מוסתרת או החזרת מגבת שנלקחה בטעות.

יכולות נוספות
בנוסף ליכולות המוטוריות, המודל שמר על יכולות ההבנה החזותית של מודל הבסיס עליו הוא נבנה. במבחני VLM סטנדרטיים, Xiaomi-Robotics-0 הציג ביצועים דומים למודל Qwen3-VL המקורי, כולל יכולות זיהוי טקסט (OCR), הבנת תרשימים וזיהוי אובייקטים, תכונות שלעיתים נשחקות במודלים המוסבים למטרות רובוטיקה בלבד.
זמינות
מודל ה-Xiaomi-Robotics-0 זמין דרך GitHub ו-Hugging Face.