אנתרופיק חושפת את Claude Opus 4.5 עם שדרוגי ביצועים ויעילות

Claude Opus 4.5 (מקור Anthropic) Claude Opus 4.5 (מקור Anthropic)

אנתרופיק (Anthropic) הכריזה על Claude Opus 4.5, המודל החדש והחכם ביותר של החברה, המציע ביצועים מובילים בתחומי תכנות, סוכני AI ושימוש במחשב.

הוא זמין כבר היום דרך ה-API, האפליקציות של Claude ובשלוש פלטפורמות ענן מרכזיות.

מודל ה-Opus 4.5 מציג קפיצת מדרגה משמעותית בביצועים לעומת Claude Opus 4.1 שהוכרז באוגוסט השנה, והוא המודל השלישי בסדרת Claude 4.5 המצטרף ל-Claude Sonnet 4.5 הבינוני ול-Claude Haiku 4.5 הזעיר.

המודל החדש משלב יכולות מקסימליות עם ביצועים מעשיים למשימות מורכבות בפיתוח תוכנה, סוכני AI ומחקר מעמיק.

ביצועים יוצאי דופן בהנדסת תוכנה

המודל משיג תוצאות מרשימות במבחני הנדסת תוכנה בעולם האמיתי, עם ציון של 80.9% במבחן SWE-bench Verified – שיפור של 6.4 נקודות אחוז לעומת Opus 4.1 (74.5%) ו-3.7 נקודות לעומת Sonnet 4.5.

במבחן פנימי של אנתרופיק, המודל השיג ציון גבוה מכל מועמד אנושי אי פעם במבחן ביצועים קשה שניתן למהנדסי ביצועים פוטנציאליים.

בתחום תכנות טרמינל, Opus 4.5 משיג 59.3% במבחן Terminal-bench 2.0, שיפור של 12.8 נקודות לעומת Opus 4.1.

במבחני סוכני AI מתקדמים, המודל משיג 88.9% בקטגוריית Retail ו-98.2% בקטגוריית Telecom במבחן τ2-bench, תוצאות שמציבות אותו בראש השוק.

ביצועי Claude Opus 4.5 (מקור Anthropic)
ביצועי Claude Opus 4.5 (מקור Anthropic)

יכולות מתקדמות ואבטחה

מעבר לתכנות, Opus 4.5 מציג שיפורים משמעותיים בתחומים נוספים. המודל משיג 37.6% במבחן Novel problem solving (ARC-AGI-2), שיפור דרמטי לעומת Sonnet 4.5 (13.6%).

בחשיבה ברמת תואר שני (GPQA Diamond) המודל משיג 87.0%, שיפור של 6 נקודות לעומת Opus 4.1.

ביכולות ראייה הוא משיג 80.7% במבחן MMMU (+3.6 נקודות), ובמבחן Computer use (OSWorld) 66.3% – שיפור של 21.9 נקודות.

אנתרופיק מדגישה כי Opus 4.5 הוא המודל המיושר והמאובטח ביותר שהחברה הוציאה:

  • במבחני התנהגות מדאיגה המודל השיג רק 11.8%, לעומת 19.3% ל-Sonnet 4.5.
  • במבחני עמידות מול התקפות prompt injection, מודל החשיבה Opus 4.5 Thinking השיג את התוצאה הטובה ביותר בתעשייה – 4.7% הצלחת התקפות, לעומת 7.3% ל-Sonnet 4.5 ו-12.5% ל-Gemini 3 Pro.
עמידות בפני מתקפות (מקור anthropic)
עמידות בפני מתקפות (מקור anthropic)

פרמטר “מאמץ” ויעילות משופרת

תכונה ייחודית של Opus 4.5 היא פרמטר ה-effort (“מאמץ”), המאפשר למפתחים לשלוט במספר הטוקנים שהמודל משתמש בהם.

במצב מאמץ בינוני, המודל משתמש ב-76% פחות טוקני פלט להשגת תוצאות זהות ל-Sonnet 4.5, ובמצב מאמץ גבוה משיג ציון גבוה יותר ב-4.3 נקודות תוך שימוש ב-48% פחות טוקנים.

המודל כולל ניהול הקשר משופר עם שימור אוטומטי של בלוקי החשיבה הקודמים, ויכולת “זום” חדשה בשימוש במחשב לבדיקת אזורים ספציפיים ברזולוציה מלאה.

בשילוב עם כלי שימוש משופרים, המודל יכול לרוץ זמן רב יותר ולדרוש פחות התערבות אנושית.

פרמטר מאמץ ב-Opus 4.5 (מקור Anthropic)
פרמטר מאמץ ב-Opus 4.5 (מקור Anthropic)

זמינות, מחיר ומוצרים משודרגים

מודל ה-Claude Opus 4.5 זמין החל מהיום דרך ה-API של Claude, באפליקציות Claude ובשלוש פלטפורמות הענן המרכזיות – AWS, Google Cloud ו-Azure, במחיר של 5 דולר (כ-16 ש”ח) לקלט ו-25 דולר (כ-82 ש”ח) לפלט למיליון טוקנים – מחיר נמוך משמעותית לעומת דגמי Opus קודמים.

סרטון ההסבר על מודל ה-Claude Opus 4.5 החדש:

השוואת מפרטים