⭐ נקודות עיקריות
- חברת אנתרופיק שדרגה את מודל הדגל שלה לגרסת Claude Opus 4.8.
- המודל החדש מציע שיפור בביצועי קידוד, הסקה ומשימות סוכן אוטונומיות.
- אנתרופיק משלבת אפשרות חדשה לשליטה ברמת המאמץ והחשיבה של המודל.
- המודל זמין החל מהיום במחיר זהה, לצד הוזלה של מצב הפעולה המהיר.
חברת אנתרופיק (Anthropic) הכריזה על שדרוג מודל הדגל שלה לגרסה חדשה, Claude Opus 4.8, המציגה שיפורים רוחביים במבחני ביצועים (Benchmarks) ויכולות שיתוף פעולה מתקדמות יותר.
המודל החדש מבוסס על התשתית של גרסת Opus 4.7 שנחשפה רק בחודש הקודם, ונועד לספק מענה מדויק ואמין יותר במשימות מורכבות, וזמינותו לקהל המשתמשים והמפתחים מתחילה באופן מיידי.
ההכרזה הנוכחית מהווה את אחד השדרוגים המרכזיים של החברה לקו מוצרי ה-Opus השנה, כאשר לצד ארכיטקטורת המודל המשופרת מוצגים גם כלי שליטה חדשים ב-Effort Control ומצב עבודה מהיר (Fast mode) במחיר נמוך משמעותית.
השינויים הללו נועדו לאפשר למשתמשי קצה ולמפתחים לנהל בצורה יעילה יותר את תקציב הטוקנים וקצב העבודה של מערכות הבינה המלאכותית היוצרת (Generative AI).
מאפיינים עיקריים
החידוש המרכזי במודל Claude Opus 4.8 נוגע לרמת האמינות והיושרה שלו במהלך ביצוע משימות מבוססות סוכנים (Agentic tasks).
לדברי החברה, בודקים ראשונים דיווחו כי המודל מפגין שיקול דעת חד ומדויק יותר, ונמנע מהסקת מסקנות פזיזה או מהעלאת טענות שאינן נתמכות בראיות מוצקות – בעיה נפוצה במודלים של בינה מלאכותית הנוטים להצהיר על התקדמות בעבודה גם כאשר העובדות דלות.
השיפור הניכר ביותר ברמת הדיוק נרשם במשימות כתיבת קוד ובדיקתו. מהערכות החברה עולה כי Claude Opus 4.8 נוטה פחות פי ארבעה בהשוואה לקודמו (Opus 4.7) לאפשר לשגיאות או פגמים בקוד לעבור ללא התרעה למשתמש.
בנוסף, במסגרת הערכות הבטיחות וההלימה (Alignment) שביצע צוות הפיתוח של החברה, נמצא כי המודל מציג רמות נמוכות משמעותית של התנהגות שאינה נאותה, כגון ניסיונות הטעיה או שיתוף פעולה עם שימוש לרעה. רמת הבטיחות שלו הוגדרה כקרובה לזו של מודל הבדיקה הניסיוני Claude Mythos Preview.
ביצועים
במבחני הביצועים הרשמיים שמציגה Anthropic, גרסת Claude Opus 4.8 עוקפת את הדור הקודם ואת המתחרים הבולטים בשוק בחלק ניכר מהמדדים:
| מבחני ביצועים (Benchmark) | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Agentic coding (SWE-Bench Pro) | 69.2% | 64.3% | 58.6% | 54.2% |
| Agentic terminal coding (Terminal-Bench 2.1) | 74.6% | 66.1% | 78.2% | 70.3% |
| Multidisciplinary reasoning (Humanity’s Last Exam – עם כלים) | 57.9% | 54.7% | 52.2% | 51.4% |
| Agentic computer use (OSWorld-Verified) | 83.4% | 82.3% | 78.7% | 76.2% |
| Knowledge work (GDPval-AA) | 1890 | 1753 | 1769 | 1314 |
| Agentic financial analysis (Finance Agent v2) | 53.9% | 51.5% | 51.8% | 43.0% |
במשימות קידוד מבוססות סוכן, המודל מציג תוצאה של 69.2% במבחן SWE-Bench Pro, שיפור לעומת 64.3% בדגם הקודם.
במבחן ההסקה הרב-תחומי ללא כלים השיג המודל 49.8%, ועם שילוב כלים עלה הנתון ל-57.9%. במשימות ניתוח פיננסי מפגין המודל רמת דיוק של 53.9%.
יכולות נוספות
במקביל להשקת המודל, אנתרופיק מציגה תכונות חדשות בפלטפורמות השונות שלה:
אפשרות בקרת מאמץ (Effort control) משולבת מעתה בממשקי claude.ai ו-Cowork. כלי זה מאפשר למשתמשים לקבוע כמה מאמץ מחשבתי ישקיע המודל בפתרון משימה.
בהגדרות מאמץ גבוהות המודל יבצע תהליכי חשיבה תכופים ועמוקים יותר כדי לספק תשובות איכותיות, בעוד שבהגדרות נמוכות הוא יגיב במהירות רבה יותר ויצרוך פחות ממכסת ההודעות של המשתמש.
כברירת מחדל, המודל פועל במצב מאמץ גבוה, אשר לדברי החברה מציע את האיזון המיטבי בין איכות לחוויית שימוש.
תכונה נוספת בשם תזרימי עבודה דינמיים (Dynamic workflows) זמינה בגרסת תצוגה מקדימה למחקר במסגרת כלי הפיתוח Claude Code.
תכונה זו מאפשרת ל-Claude לתכנן משימות רחבות היקף ולהריץ מאות תתי-סוכנים (Subagents) במקביל בתוך סשן בודד, לצד אימות התוצרים לפני הצגתם למשתמש.
יכולת זו מאפשרת, למשל, לבצע הגירות קוד (Migrations) מורכבות על פני מאות אלפי שורות קוד במערכות ארגוניות.
עבור מפתחים, ה-Messages API עודכן וכעת הוא מאפשר להזין רשומות מערכת (System entries) ישירות בתוך מערך ההודעות (Messages array).
פיתוח זה מאפשר לעדכן את הנחיות המודל, הרשאות המשתמש או תקציב הטוקנים באמצע המשימה, מבלי לפגוע בזיכרון המטמון של הפרומפט (Prompt cache).

זמינות
מודל Claude Opus 4.8 זמין החל מהיום, כולל גישה למפתחים דרך Claude API תחת המזהה claude-opus-4-8.
מחיר השימוש הרגיל במודל נותר ללא שינוי ויעמוד על 5 דולרים לכל מיליון טוקנים של קלט (Input tokens) ו-25 דולרים לכל מיליון טוקנים של פלט (Output tokens).
עם זאת, מצב העבודה המהיר (Fast mode) עבור Opus 4.8 הוזל פי שלושה בהשוואה למצב זה במודלים קודמים, ומחירו יעמוד על 10 דולרים למיליון טוקנים של קלט ו-50 דולרים למיליון טוקנים של פלט.
החברה מציינת כי היא פועלת במקביל על פיתוח דגמים בעלי יכולות הדומות ל-Opus אך בעלות נמוכה יותר.