הכירו את Qwen3-Max-Thinking – מודל חשיבה מתקדם מבית עליבאבא

⭐ נקודות עיקריות

עליבאבא השיקה את Qwen3-Max-Thinking, מודל דגל המתמקד ביכולות חשיבה והסקה.
המודל מציג ביצועים תחרותיים מול GPT-5.2 ו-Gemini 3 Pro במבחני ידע וקוד.
שילוב יכולות שימוש אוטונומי בכלים (חיפוש וקוד) ואסטרטגיית הרחבת חישוב בזמן אמת.
זמין לשימוש ראשוני דרך פלטפורמת הצ’אט של החברה.

צוות הפיתוח של Qwen ב-Alibaba Cloud, זרוע הענן של קבוצת עליבאבא (Alibaba) הסינית, השיק את Qwen3-Max-Thinking, מודל חשיבה (Reasoning) חדש המיועד להתחרות במודלים המובילים כיום בשוק.

המודל החדש מתבסס על הגדלת היקף הפרמטרים ושימוש נרחב במשאבי חישוב עבור למידת חיזוק, במטרה לשפר את היכולות בתחומי הידע העובדתי, הסקה מורכבת וביצוע הוראות.

מאפיינים עיקריים וחדשנות

החידוש המרכזי ב-Qwen3-Max-Thinking טמון באסטרטגיית “הרחבה בזמן-ריצה” (Test-time scaling). במקום להסתמך רק על אימון מוקדם, המערכת מקצה משאבי חישוב נוספים בזמן תהליך ההסקה עצמו כדי לשפר את התוצאות.

המודל מיישם גישה רב-שלבית המבוססת על צבירת ניסיון. בניגוד לשיטות קודמות המריצות מספר תהליכי חשיבה במקביל באופן עיוור, המודל החדש מבצע רפלקציה עצמית איטרטיבית.

מנגנון זה מאפשר למודל לסנן תובנות מסבבי חשיבה קודמים, להימנע מחזרה על מסקנות ידועות ולהתמקד בפתרון אי-וודאויות שנותרו.

בנוסף, המודל מציג יכולות שימוש אדפטיבי בכלים. המערכת בוחרת באופן אוטונומי מתי להשתמש בכלי עזר מובנים כמו חיפוש ברשת, זיכרון לטווח ארוך או מריץ קוד, ללא צורך בהנחיה ידנית מצד המשתמש.

שילוב זה נועד להפחית הזיות ולספק תשובות מותאמות אישית המבוססות על מידע בזמן אמת.

???? Introducing Qwen3-Max-Thinking, our most capable reasoning model yet. Trained with massive scale and advanced RL, it delivers strong performance across reasoning, knowledge, tool use, and agent capabilities.
✨ Key innovations:
✅ Adaptive tool-use: intelligently leverages… pic.twitter.com/6sZiKWQAq3

— Qwen (@Alibaba_Qwen) January 26, 2026

ביצועים והשוואה למתחרים

צוות Qwen הציג נתונים מתוך 19 מבחני ביצועים מוכרים, המראים כי המודל מספק תוצאות הדומות לאלו של GPT-5.2-Thinking, Claude Opus-4.5 ו-Gemini 3 Pro.

במבחני ידע כללי ומדעי (STEM), המודל השיג ציון של 87.4 במבחן MMLU-Pro ו-92.4 במבחן GPQA, תוצאות המציבות אותו בתחרות ישירה מול המודלים של OpenAI וגוגל.

בתחום הקידוד (LiveCodeBench v6), המודל השיג ציון של 85.9, מעל Claude-Opus-4.5 אך מעט מתחת ל-GPT-5.2.

החברה מדגישה כי השימוש באסטרטגיית הסילום בזמן-ריצה משפר משמעותית את הביצועים במשימות מורכבות.

כך למשל, במבחן GPQA הציון עלה מ-90.3 ל-92.8 בעזרת הטכניקה החדשה, ובמבחן המתמטיקה IMO-AnswerBench נרשם שיפור ל-91.5 נקודות.

ביצועי מודל Qwen3-Max-Thinking (מקור Qwen)

יכולות נוספות

המודל מצויד ביכולות סוכניות (Agentic Capabilities), המאפשרות לו להתמודד עם משימות קידוד וחיפוש מורכבות.

במבחן Agentic Coding (SWE Verified), המודל השיג ציון של 75.3, ובמבחני שימוש בכלים (Tool Use) הוא הציג יכולות גבוהות במיוחד ב-Tau² Bench עם ציון של 82.1.

מערכת הכלים המובנית מאפשרת למודל לבצע קטעי קוד כדי לפתור בעיות חישוביות בזמן אמת, יכולת המהווה חלק אינטגרלי מחוויית השיחה ואינה דורשת הגדרה מוקדמת.

זמינות

המודל החדש, Qwen3-Max-Thinking, זמין כעת לשימוש דרך ממשק הצ’אט הרשמי.

הכירו את Qwen3-Max-Thinking – מודל חשיבה מתקדם מבית עליבאבא

מאפיינים עיקריים וחדשנות

ביצועים והשוואה למתחרים

יכולות נוספות

זמינות

גאדג’טי מסקר: ASUS ROG Zephyrus Duo 2026 - מפלצת עם 2 מסכי OLED

גאדג’טי מסקר: ASUS Zenbook A14 2026 - נייד Snapdragon X2 Elite עם 33 שעות סוללה

Apple iPhone 16 Pro

Apple iPhone 16 Pro Max

Google Pixel 8 Pro

Apple iPhone 15 Pro Max

הכירו את Qwen3-Max-Thinking – מודל חשיבה מתקדם מבית עליבאבא

מאפיינים עיקריים וחדשנות

ביצועים והשוואה למתחרים

יכולות נוספות

זמינות

עוקבים? כל החדשות מגאדג'טי >>

גאדג’טי מסקר: ASUS ROG Zephyrus Duo 2026 - מפלצת עם 2 מסכי OLED

גאדג’טי מסקר: ASUS Zenbook A14 2026 - נייד Snapdragon X2 Elite עם 33 שעות סוללה

Apple iPhone 16 Pro

Apple iPhone 16 Pro Max

Google Pixel 8 Pro

Apple iPhone 15 Pro Max