אינטל ומכון ויצמן הציגו מחקר חדש עם פריצת דרך שמאפשרת למפתחים להפעיל מודלים גדולים של בינה מלאכותית במהירות גבוהה משמעותית, ולראשונה, ללא תלות ביצרן או בשפת הקידוד הפנימית של המודלים. הטכנולוגיה, שהוצגה בכנס ICML, כבר שולבה בפלטפורמת Hugging Face.
הבעיה
מודלים כמו GPT של OpenAI או Claude של אנתרופיק ו-Gemini של גוגל מסוגלים להפיק טקסטים, קוד ותשובות מורכבות, אך פועלים באיטיות יחסית ודורשים כוח חישוב רב.
הפער הזה מורגש היטב במוצרים מבוססי בינה מלאכותית, בין אם מדובר באפליקציית צ’אט או בשירותי תרגום וניתוח מסמכים, כאשר כל מילת פלט דורשת “סיבוב חישוב” מלא.
הפתרון הקיים
בשנים האחרונות הוצעה שיטת האצה חכמה בשם Speculative Decoding: מודל קטן, מהיר וזול מחולל טיוטה של מילים, והמודל הגדול רק מאשר או דוחה את הפלט כולו, במקום לחשב כל מילה מאפס.
כדי להבין מהי האצה ספקולטיבית, מספקים לנו מאינטל בדוגמה פשוטה: נניח שאנחנו רוצים שמודל ישלים את המשפט “בירתה של צרפת היא…”.
ללא האצה ספקולטיבית (השיטה הרגילה והאיטית):
- שלב 1: המודל הגדול מחשב ומייצר את המילה “פריז”.
- שלב 2: הוא קורא את “בירתה של צרפת היא פריז”, וחושב מחדש כדי להפיק את “עיר”.
- שלב 3: הוא שוב קורא את המשפט המלא כדי להפיק את “האורות”.
כל מילה דורשת חישוב נפרד – תהליך איטי ויקר מבחינה חישובית.
עם האצה ספקולטיבית:
- שלב 1: מודל “עוזר” קטן וזריז מנחש טיוטה של שלוש מילים בבת אחת: “פריז”, “עיר”, “האורות”.
- שלב 2: המודל הגדול מקבל את כל הטיוטה ובודק אותה במקשה אחת. אם היא נכונה – הוא מאשר הכול בבת אחת.
כך, מתקבל אותו פלט – אבל בזמן חישוב קצר בהרבה.

אלא שעד כה, השיטה הזו עבדה רק כאשר שני המודלים דיברו באותה “שפה פנימית” (Tokenizer). כלומר, פותחו באותו ארגון או תחת אותה משפחת מוצרים.
הפתרון החדש
המחקר החדש, שנערך בשיתוף פעולה בין Intel Labs למכון ויצמן למדע, שובר את המגבלה הזו ומציע אלגוריתמים שמאפשרים חיבור בין כל שני מודלים – גם אם פותחו בחברות שונות, בארכיטקטורות שונות, ובשפות דיגיטליות שונות.
בזכות שלושת האלגוריתמים שפיתחו: SLEM, TLI ו-SLRS – הצליחו החוקרים להראות האצה של עד פי 2.8 בזמני ריצה של מודלים, מבלי לפגוע בדיוק של הפלט.
אין צורך לאמן מחדש את המודלים, לשכתב קוד או לבצע המרות. המימוש כבר זמין בספריית Transformers של Hugging Face, ונמצא בשימוש בפועל על ידי הקהילה.
“פתרנו בעיה בסיסית שפגעה בגמישות וביעילות של מערכות בינה מלאכותית יוצרת“, מסביר אורן פרג, חוקר בכיר במעבדות אינטל ואחד ממחברי המאמר. “המחקר שלנו הופך את ההאצה הספקולטיבית לכלי אוניברסלי, שכבר עוזר למפתחים לבנות יישומים מהירים וחכמים יותר“.
מאחורי ההישג עומדים נדב תימור, דוקטורנט בקבוצת המחקר של פרופסור דוד הראל במכון ויצמן, ואיתו יונתן ממו, דניאל קורת, משה ברחנסקי, גאורב ג’אין, משה וסרבלאט ואחרים. המאמר זכה להיכלל בקטגוריית ההצגות בע”פ בכנס ICML – כבוד שמוענק רק לאחוזון העליון של העבודות שהוגשו.
ההשלכות המעשיות שזמינות בפועל כבר עכשיו הן שמפתחים יכולים כעת לבחור את המודל הקטן והמהיר ביותר, יחד עם המודל הגדול והמדויק ביותר, ולשלב ביניהם בצורה חופשית. התוצאה – פחות זמן, פחות עלות, ויותר ביצועים.