⭐ נקודות עיקריות
- וואווי מציגה שיטה חדשה לכיווץ מודלי שפה גדולים (LLMs) בשם SINQ – המיועדת לצמצום דרישות החומרה בעת ההרצה.
- הפתרון של וואווי נועד לאפשר הרצת מודלים גדולים גם על חומרה מוגבלת – ללא צורך באימון מחדש או בכיול נוסף.
- השיטה מבוססת על אלגוריתם המפחית את שגיאות הכימות (Quantization Errors).
- במבחנים מול מודלים כמו Qwen3 ו-DeepSeek-V2.5, השיטה הפגינה שיפור ניכר בדיוק ובחיסכון בזיכרון לעומת שיטות קודמות.
חברת Huawei מפרסמת מחקר חדש שנועד להתמודד עם אחת הבעיות המרכזיות בעולם הבינה המלאכותית: העלות הגבוהה של הרצת מודלים גדולים (LLMs) הדורשים כמות עצומה של חומרה.
במסגרת המחקר, צוות המעבדה האירופית של החברה בציריך (Huawei Zurich Research Center) הציג את שיטת SINQ (ר”ת Sinkhorn-Normalized Quantization) – המאפשרת כיווץ משקולות המודל לרמות דיוק נמוכות (עד 3 או 4 ביטים) תוך שמירה כמעט מלאה על איכות התוצאות.
איך זה עובד: נרמול דו-צירי במקום כיול
רוב מודלי הבינה המלאכותית פועלים בעזרת מיליארדי משקולות – מספרים שקובעים עד כמה כל פרט במידע משפיע על ההחלטה הסופית של המודל, כמו מערכת של ברזים זעירים שמווסתים את זרימת המידע: חלק מהנתונים ‘נפתחים’ יותר וחלק נסגרים כמעט לגמרי בהתאם לחשיבות שלהם.
ככל שהמשקולות מדויקות יותר, כך המודל דורש יותר זיכרון וחומרה. כדי להפחית את העומס, משתמשים בשיטה שנקראת כימות (Quantization) – שממירה את המשקולות ממספרים מדויקים מאוד (כמו float16) לערכים “גסים” יותר, למשל של 4 ביטים בלבד.
הבעיה היא שכאשר מצמצמים מדי את רמת הדיוק, המודל מאבד חלק מהבנתו, מה שגורם לאיכות התוצאות לרדת, במיוחד אם יש ערכים חריגים שמושכים כלפי מעלה את כל טווח המספרים.
כאן נכנסת הפתרון של וואווי: במקום לבצע כיול (Calibration) באמצעות אלפי דוגמאות חישוב, שדורש זמן ועשוי להכניס הטיות, החברה מציעה גישה חכמה יותר – להוסיף שני גורמי קנה מידה (Dual Scaling): אחד עבור כל שורה במטריצת המשקולות ואחד עבור כל עמודה.
כך המערכת יכולה “לאזן” את עצמה בין השורות והעמודות – אם משקל אחד חריג, האלגוריתם מחלק את ההשפעה שלו בצורה שווה בין הצירים.
התהליך הזה מבוסס על אלגוריתם מתמטי בשם Sinkhorn-Knopp, שמבצע נרמול אוטומטי עד שהשונות בין המשקולות מאוזנת.
בנוסף, וואווי מציגה מדד חדש בשם Matrix Imbalance – מדד שמודד כמה “לא מאוזנת” המטריצה לפני הכימות. ככל שהערך נמוך יותר, כך קל יותר לדחוס את המודל מבלי לפגוע באיכות התוצאה.
באופן זה מצליחה השיטה לשמור על ביצועים כמעט זהים למודל המלא, אך תוך שימוש בחלק קטן בלבד מהזיכרון והעיבוד שנדרשים בדרך כלל.

ביצועים טובים יותר, זמן חישוב קצר יותר
החוקרים מדווחים כי SINQ שיפרה את ביצועי המודלים על פני מדדים מוכרים כמו WikiText2 ו-C4, בהשוואה לשיטות כמו HQQ ו-Hadamard Quantization.
לדוגמה, במודל Qwen3-32B התקבלה ירידה ניכרת במדד ה-perplexity ביחס לשיטות אחידות לא מכוילות.
בנוסף, השיטה עבדה היטב גם על מודלים גדולים במיוחד דוגמת DeepSeek-V2.5-236B, תוך שמירה על עקביות באיכות הפלט.
יתרון חשוב נוסף הוא מהירות: תהליך הכימות באמצעות SINQ מהיר פי 30 לעומת שיטות מבוססות כיול כמו AWQ ו-GPTQ, וקרוב מאוד לזמן הביצוע של כימות פשוט מסוג RTN. השיטה ניתנת ליישום ישיר בכל ארכיטקטורה של מודל, ללא צורך בשינוי מבני.
יישומים ופתיחות קוד
SINQ אינה מוגבלת למודלי וואווי בלבד – החוקרים מדגישים כי מדובר בפתרון “אוניברסלי” המתאים לכל מודל שפה גדול, וניתן לשלבו גם עם טכניקות כימות קיימות, כולל כיול (AWQ) או רמות דיוק לא אחידות (NF4).
וואווי שחררה את הקוד המלא של SINQ ב-GitHub, ומזמינה חוקרים ומפתחים להתנסות בשיטה כחלק ממאמצי הקהילה להנגיש מודלים גדולים יותר לשימוש בחומרה זמינה.
מבט קדימה
הגישה החדשה של וואווי מצטרפת למגמה שהולכת וגדלה בתעשייה – חיפוש אחר פתרונות המאפשרים להריץ מודלי בינה מלאכותית גדולים גם על חומרה זולה ומקומית.
אם תמשיך להניב תוצאות עקביות, SINQ עשויה להפוך לכלי מרכזי בפריסה רחבה של מודלים לשוק המסחרי ולמכשירים חכמים.
המחקר המלא זמין באתר arXiv.