קפיצה ביכולות ה-AI המקצועי: OpenAI משיקה את GPT-5.2

⭐ נקודות עיקריות

OpenAI מציגה את GPT-5.2, משפחת מודלים חדשה המיועדת למשימות מקצועיות מורכבות ולסוכני AI המבצעים תהליכים ארוכים ומרובי שלבים.
GPT-5.2 Thinking רושם קפיצה ביכולות ההקשר הארוך, שימוש בכלים וניתוח ויזואלי, עם שיפור משמעותי לעומת GPT-5.1.
המודלים משיגים שיאים חדשים בבנצ’מרקים כמו GDPval, SWE-Bench Pro, GPQA ו-ARC-AGI, כולל ירידה של כ-30% בשיעור ההזיות.
ההשקה כוללת שלוש גרסאות – Instant, Thinking ו-Pro – שזמינות כבר היום ב-ChatGPT וב-API, לצד תמחור מעודכן ויעילות טוקנים גבוהה יותר.

OpenAI הכריזה על GPT-5.2, סדרת מודלים חדשה שנועדה לחזק את היכולות של ChatGPT ויישומי AI מקצועיים נוספים, עם דגש על משימות מקצועיות מורכבות הדורשות ניתוח, כתיבה, חישוב ויצירת תוצרים ברמה גבוהה, סוכני AI המסוגלים לבצע תהליכים ארוכים ומרובי שלבים (agentic AI) ושילוב מעמיק בכלים ותהליכי עבודה.

לפי OpenAI, משתמשי ChatGPT Enterprise מדווחים כבר היום על חיסכון של 40-60 דקות ביום, והדור החדש נועד להגדיל עוד יותר את הערך הכלכלי בעבודה היומיומית: יצירת גיליונות נתונים ומצגות, כתיבת קוד, הבנת תמונות, עבודה עם הקשר ארוך במיוחד והפעלת כלים מורכבים לאורך מספר שלבים.

GPT-5.2 מגיע בשלוש גרסאות עיקריות:

ChatGPT-5.2 Instant לשימוש יומיומי מהיר.
ChatGPT-5.2 Thinking לעבודה עמוקה ומרובת שלבים.
ChatGPT-5.2 Pro כמודל החזק והמדויק ביותר לסביבות מקצועיות הדורשות איכות מקסימלית.

השוואת תוצרי עבודה GPT-5.2 מול GPT 5.1 (קרדיט: OpenAI)

מאפיינים עיקריים וחדשנות

GPT-5.2 מוגדר כמודל גבול (frontier model) מתקדם המכוון בראש ובראשונה לידע מקצועי, תהליכי עבודה ארוכים וסוכנים המשתמשים במגוון כלים.

OpenAI מדגישה ארבעה צירים מרכזיים שבהם המודלים החדשים משתפרים: אינטליגנציה כללית, הבנה לאורך הקשר ארוך, שימוש בכלים (tool-calling) ויכולות ראייה מתקדמות.

במרכז ההשקה עומד GPT-5.2 Thinking, שנבחן במבחן GDPval – מערך משימות הממדד עבודת ידע מוגדרת היטב ב-44 מקצועות מהתעשיות המובילות בתרומתן לתמ”ג האמריקאי.

המודל מצליח לנצח או להשתוות למומחי תעשייה ב-70.9% מההשוואות, כאשר הוא מייצר מסמכים כמו מצגות מכירה, גיליונות אקסל לחשבונאות, לוחות משמרות לרפואה דחופה ותרשימי ייצור.

לפי OpenAI, התוצרים נראים לעיתים כעבודה של “חברה מקצועית עם צוות שלם”, עם רמת פורמט ועיצוב גבוהה.

החידוש מגיע לא רק באיכות אלא גם ביעילות: GPT-5.2 Thinking מצליח לבצע את משימות GDPval במהירות גבוהה יותר מפי 11 ובעלות נמוכה מ-1% ביחס לאנשי מקצוע אנושיים, בהסתמך על מדדים היסטוריים.

המשמעות המעשית היא שמודלים מהסוג הזה יכולים להפוך לחלק קבוע מתהליכי עבודה מקצועיים – כל עוד נשמרת בקרה אנושית על התוצר הסופי.

מעבר לכך, GPT-5.2 מביא עמו שיפור בהבנת הקשר ארוך מאוד, עד מאות אלפי טוקנים, תוך שמירה על דיוק גבוה במשימות המבוססות על מסמכים ארוכים, ובמקביל שיפור יכולות הראייה: הבנת תרשימים מדעיים, לוחות מחוונים (dashboards) וצילומי מסכים של ממשקי תוכנה.

ביצועים

OpenAI מציגה שורה של בנצ’מרקים רשמיים עליהם נבחן GPT-5.2 Thinking, כאשר ברבים מהם הוא מציב רף חדש ביחס למודלי משפחת GPT-5.1 הקודמים ולמודלים מתחרים.

בין היתר מדובר בבדיקות עבודת ידע, הנדסת תוכנה, מתמטיקה תחרותית, מדעים מדויקים והיגיון מופשט.

אחד הנתונים הבולטים הוא ביצועי GPT-5.2 Thinking במבחן GDPval, שם המודל מנצח או מסיים בתיקו מול אנשי מקצוע ב-70.9% מהמקרים, לעומת 38.8% עבור GPT-5.

חשובה לא פחות היא האיכות המעשית: לדוגמה, במבחני גיליון נתונים פנימיים המדמים עבודת אנליסט בנקאות השקעות, המודל משפר את הציון הממוצע בכ-9.3 נקודות אחוז לעומת GPT-5.1, תוך יכולת לבנות מודלים פיננסיים מורכבים עם הפניות ומבנה תקין.

בתחום התכנות, GPT-5.2 Thinking מציג שיפור ניכר במבחן SWE-Bench Pro, המתמקד במשימות הנדסת תוכנה מציאותיות על פני ארבע שפות תכנות.

המודל מגיע ל-55.6% הצלחה, לעומת 50.8% ב-GPT-5.1 Thinking. במבחן SWE-bench Verified, המתמקד בפייתון בלבד, הוא מגיע ל-80% הצלחה.

עבור מפתחים, המשמעות היא מודל שיודע לא רק להציע קטעי קוד, אלא לטפל בבאגים, לממש פיצ’רים, לבצע רפקטורינג לקוד גדול ולסגור משימות קצה-לקצה עם פחות התערבות ידנית.

גם בביצועי המדע והמתמטיקה נרשמת קפיצה. GPT-5.2 Thinking מגיע ל-92.4% דיוק במבחן GPQA Diamond בשאלות פיזיקה, כימיה וביולוגיה ברמה מתקדמת, ול-40.3% פתרון בעיות במבחן FrontierMath לרמות 1-3 במתמטיקה מתקדמת.

במבחני היגיון מופשט מסוג ARC-AGI-2, שנועדו למדוד יכולת חשיבה על בעיות חדשות ולא מוכרות, GPT-5.2 Thinking מגיע ל-52.9% בעוד GPT-5.1 Thinking נעצר על 17.6%.

כדי להמחיש את הפערים, OpenAI מרכזת חלק מן הנתונים בטבלה:

תחום	מבחן	GPT-5.2 Thinking	GPT-5.1 Thinking
עבודת ידע	GDPval – ניצחונות או תיקו	70.9%	38.8% (GPT-5)
הנדסת תוכנה	SWE-Bench Pro	55.6%	50.8%
מדע	GPQA Diamond	92.4%	88.1%
מתמטיקה מתקדמת	FrontierMath Tier 1–3	40.3%	31.0%
היגיון מופשט	ARC-AGI-2 (Verified)	52.9%	17.6%

ברמת האמינות, GPT-5.2 Thinking מפחית “הזיות” (hallucinations) לעומת GPT-5.1 Thinking.

על בסיס שאילתות אנונימיות מ-ChatGPT, שיעור התשובות שכללו לפחות טעות אחת נמוך בכ-30% יחסית.

יחד עם זאת, OpenAI מדגישה כי גם מודל זה אינו מושלם, ובמשימות קריטיות יש צורך בבקרה אנושית על כל טענה מהותית.

יכולות נוספות

מעבר לבנצ’מרקים, OpenAI מתמקדת בשימושיות היומיומית של GPT-5.2 עבור אנשי מקצוע, מפתחים, מדענים וארגונים.

בתחום הקוד, GPT-5.2 Thinking מוצג כמודל חזק במיוחד לסביבות “פיתוח באמצעות סוכנים” (agentic coding) – משימות שבהן המודל מקבל מאגר קוד קיים, משתמש בכלים, ומבצע תיקונים, הוספת פיצ’רים ובדיקות לאורך מספר שלבים.

בתחום ההקשר הארוך, GPT-5.2 Thinking מגיע לביצועים גבוהים במבחן OpenAI MRCRv2, שבו המודל נדרש לאתר ולהצליב מידע בתוך “ערימת קש” טקסטואלית ארוכה מאוד, המכילה בקשות זהות רבות (needles) בתוך מסמכים גדולים (haystacks).

בגרסת ארבעת ה-needles, המודל מגיע כמעט ל-100% דיוק עד 256k טוקנים, מה שמאפשר לו לעבד חוזים ארוכים, דוחות מחקר, תמלילי ישיבות או פרויקטים מרובי קבצים בצורה קוהרנטית.

עבור משימות שמתחברות למעבר מגבול חלון ההקשר, GPT-5.2 Thinking תומך גם בנקודת הקצה החדשה Responses /compact, המרחיבה את חלון ההקשר האפקטיבי באמצעות שימוש חכם בכלים.

ביכולות הראייה, GPT-5.2 Thinking מציג ירידה של כחצי בשיעור השגיאות במשימות הבנת תרשימים וממשקי תוכנה.

לדוגמה, במבחן CharXiv Reasoning, המודל עונה על שאלות המבוססות על גרפים מדעיים בדיוק של 88.7% כאשר מופעל כלי Python, לעומת 80.3% ב-GPT-5.1. במבחן ScreenSpot-Pro, המודל נדרש להבין צילומי מסך ברזולוציה גבוהה של ממשקי משתמש מקצועיים, ושם הוא מגיע ל-86.3% דיוק לעומת 64.2% בדור הקודם.

OpenAI מדגישה גם את שיפור ההבנה המרחבית: GPT-5.2 יודע לזהות רכיבים בתמונה (למשל בלוח אם) ולמקם תיבות בחירה קרובות למיקום האמיתי של כל רכיב.

מבחינת שימוש בכלים (tool-calling), GPT-5.2 Thinking מגיע ל-98.7% הצלחה במבחן Tau2-bench Telecom, המודד יכולת להשתמש בכלים לאורך שיחה מרובת פניות בסביבת שירות לקוחות.

גם במצב ללא מאמץ חשיבה (reasoning.effort=’none’) המודל שומר על ביצועים גבוהים משמעותית מ-GPT-5.1 ו-GPT-4.1.

המשמעות המעשית היא שמערכות תמיכה, בינה עסקית ואוטומציה של תהליכי שירות יכולים להישען יותר על המודל כדי לבצע סדרת פעולות: משאילת נתונים ממספר מערכות, דרך חישוב והסקת מסקנות, ועד הפקת תשובה סופית ללקוח.

במדעים ומתמטיקה, GPT-5.2 Pro ו-GPT-5.2 Thinking מוצגים ככלים מחקריים. OpenAI מתארת עבודות משותפות שבהן GPT-5.2 Pro סייע בהצעת הוכחה לשאלה פתוחה בתאוריה של למידה סטטיסטית, כאשר החוקרים אימתו את ההוכחה והיעזרו בה כמנוע רעיונות.

הדגש הוא על עבודה “תחת פיקוח אנושי הדוק”, אך עם תרומה ממשית של המודל לקידום מחקר.

ב-ChatGPT עצמו, ההפרדה בין הגרסאות ברורה:

GPT-5.2 Instant מכוון לשימוש יומיומי מהיר – שאלות מידע, מדריכים, תרגום וכתיבה טכנית;
GPT-5.2 Thinking מיועד למשימות עמוקות יותר כמו סיכום מסמכים ארוכים, ניתוח קבצים, קוד, מתמטיקה ותכנון;
GPT-5.2 Pro מהווה את האופציה החזקה והאמינה ביותר למשימות מורכבות שבהן שווה להמתין מעט יותר עבור תשובה מדויקת.

OpenAI מדגישה גם שיפור בהתמודדות עם שיחות רגישות – בריאות הנפש, מחשבות אובדניות ותלות רגשית במערכת.

המודלים החדשים עוברים הערכה במבחני Mental health, Emotional reliance ו-Self-harm, עם ציונים גבוהים יותר לעומת GPT-5.1, כחלק ממאמץ מתמשך ליישום “השלמה בטוחה” (safe completion) מבלי לפגוע בשימושיות.

זמינות

GPT-5.2 מתחיל להיות זמין החל מהיום, 11.12.2025, ללקוחות בתשלום של ChatGPT, כולל תוכניות Plus, Pro, Go, Business ו-Enterprise.

OpenAI מציינת כי ההשקה תעשה בהדרגה כדי לשמור על יציבות השירות, כך שלא כל המשתמשים יראו את הדגמים החדשים מיד.

דגמי GPT-5.1 ימשיכו להיות זמינים למנויים בתשלום במשך שלושה חודשים נוספים תחת “מודלים מדור קודם”, ולאחר מכן יוסרו מ-ChatGPT.

מחירים

מבחינת מחירים, OpenAI מעלה את מחיר הטוקנים לעומת GPT-5.1, אך מדגישה יעילות טוקנים טובה יותר, כך שעלות השגת איכות נתונה עשויה להיות נמוכה יותר. טבלת התמחור כפי שפורסמה:

מודל	מחיר לקלט (ל-1M טוקנים)	קלט במטמון (cached)	מחיר לפלט (ל-1M טוקנים)
gpt-5.2 / gpt-5.2-chat-latest	1.75 דולר	0.175 דולר	14 דולר
gpt-5.2-pro	21 דולר	לא זמין	168 דולר
gpt-5.1 / gpt-5.1-chat-latest	1.25 דולר	0.125 דולר	10 דולר
gpt-5-pro	15 דולר	לא זמין	120 דולר

קפיצה ביכולות ה-AI המקצועי: OpenAI משיקה את GPT-5.2

מאפיינים עיקריים וחדשנות

ביצועים

יכולות נוספות

זמינות

מחירים

גאדג’טי מסקר: ASUS ROG Zephyrus Duo 2026 - מפלצת עם 2 מסכי OLED

גאדג’טי מסקר: ASUS Zenbook A14 2026 - נייד Snapdragon X2 Elite עם 33 שעות סוללה

Apple iPhone 16 Pro

Apple iPhone 16 Pro Max

Google Pixel 8 Pro

Apple iPhone 15 Pro Max

קפיצה ביכולות ה-AI המקצועי: OpenAI משיקה את GPT-5.2

מאפיינים עיקריים וחדשנות

ביצועים

יכולות נוספות

זמינות

מחירים

עוקבים? כל החדשות מגאדג'טי >>

גאדג’טי מסקר: ASUS ROG Zephyrus Duo 2026 - מפלצת עם 2 מסכי OLED

גאדג’טי מסקר: ASUS Zenbook A14 2026 - נייד Snapdragon X2 Elite עם 33 שעות סוללה

Apple iPhone 16 Pro

Apple iPhone 16 Pro Max

Google Pixel 8 Pro

Apple iPhone 15 Pro Max