הכירו את Qwen3-Max-Thinking – מודל חשיבה מתקדם מבית עליבאבא

מודל Qwen3-Max-Thinking (מקור Qwen) מודל Qwen3-Max-Thinking (מקור Qwen)

⭐ נקודות עיקריות

  • עליבאבא השיקה את Qwen3-Max-Thinking, מודל דגל המתמקד ביכולות חשיבה והסקה.
  • המודל מציג ביצועים תחרותיים מול GPT-5.2 ו-Gemini 3 Pro במבחני ידע וקוד.
  • שילוב יכולות שימוש אוטונומי בכלים (חיפוש וקוד) ואסטרטגיית הרחבת חישוב בזמן אמת.
  • זמין לשימוש ראשוני דרך פלטפורמת הצ’אט של החברה.

צוות הפיתוח של Qwen ב-Alibaba Cloud, זרוע הענן של קבוצת עליבאבא (Alibaba) הסינית, השיק את Qwen3-Max-Thinking, מודל חשיבה (Reasoning) חדש המיועד להתחרות במודלים המובילים כיום בשוק.

המודל החדש מתבסס על הגדלת היקף הפרמטרים ושימוש נרחב במשאבי חישוב עבור למידת חיזוק, במטרה לשפר את היכולות בתחומי הידע העובדתי, הסקה מורכבת וביצוע הוראות.

מאפיינים עיקריים וחדשנות

החידוש המרכזי ב-Qwen3-Max-Thinking טמון באסטרטגיית “הרחבה בזמן-ריצה” (Test-time scaling). במקום להסתמך רק על אימון מוקדם, המערכת מקצה משאבי חישוב נוספים בזמן תהליך ההסקה עצמו כדי לשפר את התוצאות.

המודל מיישם גישה רב-שלבית המבוססת על צבירת ניסיון. בניגוד לשיטות קודמות המריצות מספר תהליכי חשיבה במקביל באופן עיוור, המודל החדש מבצע רפלקציה עצמית איטרטיבית.

מנגנון זה מאפשר למודל לסנן תובנות מסבבי חשיבה קודמים, להימנע מחזרה על מסקנות ידועות ולהתמקד בפתרון אי-וודאויות שנותרו.

בנוסף, המודל מציג יכולות שימוש אדפטיבי בכלים. המערכת בוחרת באופן אוטונומי מתי להשתמש בכלי עזר מובנים כמו חיפוש ברשת, זיכרון לטווח ארוך או מריץ קוד, ללא צורך בהנחיה ידנית מצד המשתמש.

שילוב זה נועד להפחית הזיות ולספק תשובות מותאמות אישית המבוססות על מידע בזמן אמת.

ביצועים והשוואה למתחרים

צוות Qwen הציג נתונים מתוך 19 מבחני ביצועים מוכרים, המראים כי המודל מספק תוצאות הדומות לאלו של GPT-5.2-Thinking, Claude Opus-4.5 ו-Gemini 3 Pro.

במבחני ידע כללי ומדעי (STEM), המודל השיג ציון של 87.4 במבחן MMLU-Pro ו-92.4 במבחן GPQA, תוצאות המציבות אותו בתחרות ישירה מול המודלים של OpenAI וגוגל.

בתחום הקידוד (LiveCodeBench v6), המודל השיג ציון של 85.9, מעל Claude-Opus-4.5 אך מעט מתחת ל-GPT-5.2.

החברה מדגישה כי השימוש באסטרטגיית הסילום בזמן-ריצה משפר משמעותית את הביצועים במשימות מורכבות.

כך למשל, במבחן GPQA הציון עלה מ-90.3 ל-92.8 בעזרת הטכניקה החדשה, ובמבחן המתמטיקה IMO-AnswerBench נרשם שיפור ל-91.5 נקודות.

ביצועי מודל Qwen3-Max-Thinking (מקור Qwen)

יכולות נוספות

המודל מצויד ביכולות סוכניות (Agentic Capabilities), המאפשרות לו להתמודד עם משימות קידוד וחיפוש מורכבות.

במבחן Agentic Coding (SWE Verified), המודל השיג ציון של 75.3, ובמבחני שימוש בכלים (Tool Use) הוא הציג יכולות גבוהות במיוחד ב-Tau² Bench עם ציון של 82.1.

מערכת הכלים המובנית מאפשרת למודל לבצע קטעי קוד כדי לפתור בעיות חישוביות בזמן אמת, יכולת המהווה חלק אינטגרלי מחוויית השיחה ואינה דורשת הגדרה מוקדמת.

זמינות

המודל החדש, Qwen3-Max-Thinking, זמין כעת לשימוש דרך ממשק הצ’אט הרשמי.

השוואת מפרטים