⭐ נקודות עיקריות
- חברת OpenAI הכריזה על GPT-5.3-Codex, מודל חדש המתמקד בפיתוח תוכנה ויכולות סוכן (Agentic).
- המודל שימש את הצוותים לניפוי באגים, אימון וניהול תהליכי הפיתוח של עצמו.
- החברה מדווחת על שיפור של 25% במהירות העבודה וציוני שיא במבחני SWE-Bench ו-Terminal-Bench.
- המודל זמין כעת למנויי ChatGPT בתשלום.
חברת OpenAI השיקה את המודל החדש שלה למפתחים, GPT-5.3-Codex, המוגדר על ידה כסוכן הקידוד המתקדם ביותר שיצרה עד כה.
המודל החדש מציג שיפור ביצועים של 25% בהשוואה ל-GPT-5.2-Codex, כאשר הוא לא רק כותב קוד, אלא מתוכנן לפעול כסוכן עצמאי המסוגל לבצע מגוון רחב של משימות מחשוב מורכבות.
ההשקה מגיעה בסמוך להכרזה על מודל ה-Claude Opus 4.6 של המתחרה אנתרופיק, ומסמנת עליית מדרגה בתחרות על מפתחי התוכנה והארגונים הגדולים.
הכירו את GPT-5.3-Codex
השדרוג המרכזי במודל ה-GPT-5.3-Codex החדש הוא ביכולת לפעול כסוכן אוטונומי (Agentic AI) ולא רק ככלי להשלמת קוד.
לפי OpenAI, זהו המודל הראשון שהיה “חיוני ביצירת עצמו”. צוותי הפיתוח בחברה השתמשו בגרסאות מוקדמות של המודל כדי לאתר באגים בתהליך האימון שלו, לנהל את תשתיות הפריסה (Deployment) ולנתח תוצאות מבחנים. יכולת זו אפשרה להאיץ את תהליך הפיתוח באופן משמעותי.
בנוסף ליכולות הקידוד, המודל תוכנן לבצע את כל קשת המשימות של עובד ידע טכני: החל מחקר ושימוש בכלים חיצוניים, דרך כתיבת מסמכי אפיון (PRD) ועד לניהול בדיקות וניתוח נתונים.
המודל מאפשר אינטראקציה בזמן אמת, כאשר המשתמש יכול “לנווט” את הסוכן תוך כדי עבודה, לבקש עדכונים ולדייק את התוצאה הסופית מבלי לאבד את ההקשר.
ביצועים
המודל החדש מציג קפיצת מדרגה משמעותית במבחני הביצועים המקובלים בתעשייה. במבחן SWE-Bench Pro, המדמה משימות הנדסת תוכנה בעולם האמיתי, השיג המודל ציון של כ-57%, ובמבחן Terminal-Bench 2.0, הבוחן שליטה בשורת הפקודה, נרשם ציון של 77.3% – שיפור של כ-13% לעומת הדור הקודם.
החברה מציינת כי השיפור בביצועים מגיע לצד התייעלות טכנית. המודל פועל במהירות הגבוהה ב-25% לעומת קודמו, ומצליח להגיע לתוצאות דומות תוך שימוש בפחות “טוקנים”.
שיפור זה מאפשר למשתמשים לבצע משימות מורכבות וארוכות יותר באותה מסגרת זמן ועלות חישובית.
מעבר לכתיבת קוד, GPT-5.3-Codex מפגין יכולות מתקדמות בשימוש כללי במחשב (Computer Use).
במבחן OSWorld-Verified, הבודק יכולת ביצוע מטלות בסביבת שולחן עבודה ויזואלית, השיג המודל ציון של 64.7%, נתון המתקרב לביצועים אנושיים (כ-72%) ועוקף משמעותית את הדורות הקודמים שעמדו על כ-38%.
יכולות נוספות
מעבר לכתיבת קוד, GPT-5.3-Codex תוכנן לסייע בכל מעגל החיים של פיתוח המוצר, כולל משימות שאינן טכניות טהורות.
לפי OpenAI, המודל מסוגל לסייע למנהלי מוצר, מעצבים ומדעני נתונים במשימות כמו כתיבת מסמכי אפיון (PRDs), ביצוע מחקר משתמשים, ניתוח מדדים (Metrics) ועריכת טקסטים שיווקיים.
במבחן GDPval, הבודק יכולות “עבודה משרדית” ב-44 מקצועות שונים, המודל הציג ביצועים זהים למודל הדגל הכללי, GPT-5.2. החברה הציגה דוגמאות בהן המודל יצר באופן עצמאי תוצרים מורכבים כמו מצגות פיננסיות, מסמכי הדרכה וגיליונות ניתוח נתונים (Spreadsheets), מה שמעיד על יכולתו להשתלב בתהליכי עבודה עסקיים רחבים.
בתחום אבטחת המידע, זהו המודל הראשון של החברה המסווג כבעל “יכולת גבוהה” תחת מסגרת הבטיחות שלה.
המודל אומן ספציפית לזהות חולשות אבטחה בקוד ולסייע בהגנת סייבר, אך החברה מדגישה כי נקטה בצעדי בטיחות מחמירים וכי בשלב זה אין ראיות ליכולתו של המודל לבצע מתקפות סייבר מלאות מקצה לקצה באופן אוטונומי.
בהקשר זה חשוב לציין – הבינה המלאכותית עדיין לא מייתרת את הצורך בבדיקת הקוד בתחומי אבטחה – תבדקו את הקוד שלכם.
זמינות
מודל ה-GPT-5.3-Codex כבר זמין למנויי החברה בתשלום (Plus, Team, Enterprise) דרך ממשק ChatGPT.

