אנתרופיק משיקה את Claude Opus 4.1 עם שדרוגים בקוד ובמחקר

Claude Opus 4.1 באדיבות Anthropic

אנתרופיק (Anthropic) הכריזה על השקת Claude Opus 4.1, גרסה משודרגת למודל ה-Opus 4, המיועדת לשפר את הביצועים במשימות תכנות מבוססות סוכנים (“Agentic”), בקידוד מעשי וביכולות ניתוח והסקה.

המודל החדש זמין כבר היום למשתמשים בתכניות בתשלום של Claude, ב-Claude Code, ב-API, וכן דרך פלטפורמות Amazon Bedrock ו-Google Cloud Vertex AI, במחיר זהה לגרסת Opus 4 הקודמת.

שיפורים ביכולות תכנות ומחקר

Claude Opus 4.1 מציג שיפור משמעותי בביצועי הקידוד, עם תוצאה של 74.5% במבחן SWE-bench Verified – שיפור ביחס ל-Opus 4 שעמד על 72.5%.

גרף ביצועי SWE-bench: שיפור הדרגתי מ-Sonnet 3.7 ועד Opus 4.1
גרף ביצועי SWE-bench: שיפור הדרגתי מ-Sonnet 3.7 ועד Opus 4.1 (מקור: Anthropic)

השדרוג ניכר במיוחד במשימות ריבוי-קבצים (multi-file refactoring), כאשר ב-GitHub ציינו את הדיוק בזיהוי ותיקון נקודתי של באגים ללא הכנסת שינויים מיותרים.

ב-Rakuten Group דיווחו כי המודל מתאים במיוחד למשימות דיבאג יומיומיות הודות לדיוק זה, וב-Windsurf ציינו שיפור של סטיית תקן אחת בבנצ’מרק למפתחי ג’וניור, בדומה לשיפור בין Sonnet 3.7 ל-Sonnet 4.

מבחני ביצועים

בהשוואה לגרסאות קודמות ולמודלים מתחרים, Opus 4.1 מציג שדרוגים ברוב המדדים:

  • Agentic coding: הנתון – 74.5% (לעומת 72.5% ב-Opus 4)
  • Graduate-level reasoning (GPQA Diamond): הנתון – 80.9%
  • Agentic tool use (Retail): 82.4%, (Airline): הנתון – 56%
  • Multilingual Q&A (MMMLU): הנתון – 89.5%
  • Visual reasoning (MMMU): הנתון – 77.1%
  • High school math competition (AIME 2025): הנתון – 78%

במבחן ה-GPQA Diamond לדוגמה, Opus 4.1 קרוב בביצועיו למודלים המובילים של OpenAI ו-Google, עם יתרון ברור בתחומי הבנת שפה רב-לשונית ושימוש בכלים חיצוניים.

השוואת ביצועי Claude Opus 4.1 למודלים קודמים ומתחרים בבנצ'מרקים שונים
השוואת ביצועי Claude Opus 4.1 למודלים קודמים ומתחרים בבנצ’מרקים שונים (באדיבות Anthropic)

זמינות

אנתרופיק ממליצה לכל המשתמשים לשדרג לגרסה החדשה, כאשר למפתחים ניתן לגשת אליה דרך API בשם claude-opus-4-1-20250805.

החברה מוסיפה כי צפויים שדרוגים מהותיים נוספים למודלים שלה בשבועות הקרובים.

השוואת מפרטים