⭐ נקודות עיקריות
- שיאומי ושותפת ההרצה TileRT השיגו מהירות פענוח של מעל 1000TPS למודל של טריליון פרמטרים.
- הטכנולוגיה החדשה מאפשרת מהירויות קיצוניות על גבי שרת חומרה סטנדרטי, ללא צורך בשבבים ייעודיים.
- המהירות הושגה הודות לשילוב בין דחיסת חומרה ממוקדת לבין מנגנון חיזוי מקבילי מתקדם המיושם במודל.
- גישת ה-API תיפתח לתקופת ניסיון מוגבלת בין התאריכים 9 עד 23 ביוני 2026.
שיאומי (Xiaomi) הכריזה בשיתוף פעולה עם צוות מערכות TileRT על השקת MiMo-V2.5-Pro-UltraSpeed, מצב הרצה (Serving Mode) חדש המיועד למודל ה-MiMo-V2.5 האחרון של החברה.
הגרסה החדשה מציגה מהירות פענוח (Decode Speed) של מעל 1000TPS (טוקנים לשניה) בקנה מידה של טריליון פרמטרים (1T). מצב הרצה המגיע בעלות גבוהה פי שלוש בהשוואה ל-MiMo-V2.5-Pro המציע מהירות גבוהה פי 10.
מדובר בטכנולוגיית תשתית המאיצה את קצב יצירת הטקסט של מודלי שפה ענקיים לרמה שבה המודל מסוגל לבצע תהליכי חשיבה מורכבים במקביל מבלי שהמשתמש יחווה השהיה.
פריצת הדרך הזו משמעותית עבור שוק ה-AI מאחר שהיא מוכיחה לראשונה כי ניתן להגיע למהירויות הרצה קיצוניות על גבי חומרת שרתים סטנדרטית המבוססת על 8 מאיצים גרפיים בלבד, ללא תלות בארכיטקטורות שבבים ייעודיות ומותאמות אישית כפי שהיה נהוג בתעשייה עד כה.
לשם השוואה, מודלים דוגמת GPT-5.5 או Claude 4.6 מציגים מהירויות הרצה הנעות סביב עשרות בודדות של טוקנים לשנייה, ומודלים קלים דוגמת Gemini Flash מגיעים ל-192TPS.
תפיסת הפעלה חדשה לבינה מלאכותית
לדברי החברה, חציית רף ה-1000TPS משנה מהותית את אופן השימוש ביישומי בינה מלאכותית ומאפשרת שינוי פרדיגמה במספר חזיתות.
המהירות הקיצונית מאפשרת למודל להריץ עשרות נתיבי חשיבה במקביל באותו קטע זמן שבו מערכות קודמות הפיקו תשובה בודדת.
המערכת מסוגלת לאמת ולתקן את עצמה ברקע, ובכך להמיר את המהירות לעומק מחשבתי ולאיכות גבוהה יותר של פלט.
בתחום הפיתוח, הטכנולוגיה מסירה את צוואר הבקבוק של השהיית ההרצה עבור סוכני קוד (Coding Agents), ומאפשרת יצירת קוד מהירה המונעת זמני המתנה ממושכים מצד המפתחים.
מעבר לכך, המערכת מאפשרת למודלי הדגל להשתלב בלולאות קבלת החלטות בזמן אמת, דוגמת יצירת אותות למסחר אלגוריתמי בתדר גבוה, זיהוי ומניעת הונאות מיידית, ומערכות דיאלוג אינטראקטיביות.
דחיסת FP4 ממוקדת
בקנה מידה של טריליון פרמטרים, הרצה ברמות דיוק מסורתיות של 8 סיביות או 16 סיביות מייצרת עומס כבד על רוחב הפס ותופסת נפח זיכרון עצום.
שיאומי בחרה ליישם פורמט דחיסה של 4 סיביות (FP4 או MXFP4) המקטין את גודל המודל ומצמצם את תקורת הגישה לזיכרון.
כדי למנוע פגיעה ביכולות הלוגיות וביצירת הקוד, החברה נמנעה מדחיסה גורפת ובחרה ליישם את ה-FP4 אך ורק על שכבות המומחים (Experts) במבנה ה-MoE (ר”ת Mixture of Experts) של המודל, המהוות את מרבית הפרמטרים ומציגות עמידות גבוהה לדחיסה.
שאר המודולים נשמרו בדיוק המקורי שלהם, מה שמאפשר לשמור על רמת ביצועים כמעט זהה למודל המקור.
מערכת ההרצה של TileRT
בצד המערכת, תשתית TileRT מונעת את פערי הזמן הנוצרים בין הפעלת פקודות (Operator Boundaries) במערכות הרצה רגילות.
המערכת מבוססת על מנוע ייעודי (Persistent Engine Kernel) השומר על רצף החישוב בתוך ה-GPU ללא הפעלות חוזרות, ומבצע טעינה מוקדמת של נתונים במקביל לחישובים המבוצעים בליבות הטנזור.
בנוסף, המערכת מיישמת חלוקת עבודה ברמת ה-Tile, שבה קבוצות חוטים שונות (Warps) ורכיבי ביצוע פועלים באופן עצמאי אך מתואם, מה שמביא לניצול מקסימלי של פוטנציאל החומרה ברמת המיקרו-שנייה.
זמינות ולוחות זמנים צפויים
גישת ה-API למצב ה-UltraSpeed נפתחת בשלב הנוכחי לתקופת ניסיון מוגבלת בהרשמה מראש בין התאריכים 9 עד 23 ביוני.
השירות מתומחר בעלות הגבוהה פי 3 מהתעריף הרגיל של מודל MiMo-V2.5-Pro, אך לדברי החברה הוא מספק חוויית פלט מהירה פי 10.