הכירו את ChatGPT Images 2.0 – יצירת תמונות מדויקת עם הבנה עמוקה

מודל Images 2.0 של ChatGPT תמונה באמצעות ChatGPT

⭐ נקודות עיקריות

  • OpenAI מציגה את ChatGPT Images 2.0 – דור חדש ליצירת תמונות מבוססת AI.
  • המודל משלב יכולות הבנה, חיפוש וניתוח כדי ליצור תמונות מדויקות יותר.
  • תמיכה משופרת בטקסטים ושפות שונות, כולל יצירה רב-לשונית עקבית.
  • יכולת לייצר מספר תמונות קוהרנטיות בפרומפט אחד ולשלוט ביחסי תצוגה.

חברת OpenAI מציגה את ChatGPT Images 2.0, דור חדש למערכת יצירת התמונות שלה, אשר מתבסס על מערכת שמנסה להבין את התמונה עוד לפני שהיא נוצרת.

במקום להתמקד רק ברינדור, המודל החדש של החברה הוא כזה שמסוגל לקחת רעיון, לפרק אותו, ולבנות ממנו תוצאה ויזואלית מדויקת ושימושית יותר, מה שבדומה ל-Nano Banana 2 של גוגל, הופך אותו לכלי עבודה ולא רק לכלי ליצירה רנדומלית של תמונות באמצעות AI.

בפועל, מדובר בכלי שמכוון ליוצרים, אך גם למי שצריך להפיק גרפיקה שימושית במהירות – משיווק ועד תוכן.

יצירת תמונות מדויקת עם הרבה הבנה מאחוריה

אחת הנקודות הבולטות ב-Images 2.0 היא היכולת לעקוב אחרי הוראות מורכבות בצורה מדויקת יותר.

אם בעבר מודלים ליצירת תמונות נטו “לפספס” פרטים קטנים או לייצר קומפוזיציות לא עקביות, כאן הדגש הוא על שליטה מלאה – החל ממיקום האובייקטים בתמונה ועד שילוב טקסטים, אייקונים ואלמנטים גרפיים צפופים, וכן – זה עובד גם בעברית.

המשמעות בפועל היא פחות תמונות שנראות כמו סקיצות, ויותר כאלה שאפשר להשתמש בהן כפי שהן – בין אם מדובר בפוסטר, גרפיקה שיווקית או אלמנטים לממשק משתמש.

מצב חשיבה לפני יצירת התמונה

אחד החידושים המרכזיים במודל החדש הוא שילוב של מצב חשיבה (“Thinking”), שבו המודל מבצע שלב של ניתוח לפני יצירת התמונה.

במצב הזה, המערכת יכולה להיעזר במידע עדכני, לנתח קבצים שמוזנים לה, ולבנות כמה כיווני תוצאה שונים מאותו פרומפט. במקום תמונה אחת, מתקבלת למעשה סדרה של תמונות, עם ניסיון לשמור על עקביות ביניהן.

במקום לייצר תמונות אחת אחרי השנייה ולחבר אותן ידנית, ניתן לבנות סט שלם של נכסים גרפיים בפעולה אחת.

מכלי – לשותף יצירתי

OpenAI מציגה את המודל החדש כ”שותף מחשבתי ויזואלי”, מתוך מטרה לא רק לייצר, אלא גם לעזור לנו בתהליך.

המודל Images 2.0 נועד להתמודד טוב יותר עם פרויקטים מורכבים, כאלה שדורשים אחידות בין מספר תמונות, או התפתחות של רעיון לאורך כמה גרסאות.

היכולת לשמור על המשכיות בין אלמנטים הופכת אותו מתאים יותר לעבודה סדרתית, כמו קמפיינים או סטים של גרפיקות.

עדכון ידע והקשר

שדרוג נוסף מגיע מהצד של ההבנה ההקשרית. המודל מבוסס על ידע עדכני יותר, מה שמאפשר לו לייצר תכנים שמתיישבים טוב יותר עם המציאות – במיוחד כאשר מדובר בהסברים, גרפיקות מידע או תוכן לימודי.

הדגש כאן הוא לא רק על מראה, אלא גם על נכונות – כלומר, תמונות שלא רק נראות טוב, אלא גם “אומרות” משהו מדויק יותר.

תמיכה במגוון שפות, כולל עברית

אחד האתגרים הגדולים ביצירת תמונות עד היום היה שילוב טקסטים, במיוחד בשפות שאינן אנגלית.

לפי OpenAI, המודל Images 2.0 משפר את היכולת הזו באופן משמעותי, עם תמיכה רחבה יותר בשפות שונות, כולל עברית, ויכולת לשלב טקסט כחלק טבעי מהעיצוב.

זה לא רק עניין של תרגום נכון, אלא של שילוב נכון בתוך הקומפוזיציה – כך שהטקסט נראה שייך לתמונה ולא מודבק עליה.

יותר גמישות בפורמט התמונות

המודל החדש מאפשר לעבוד מראש עם יחסי תצוגה שונים, כך שהתוצאה מתאימה לפלטפורמה עוד בשלב היצירה.

במקום להתאים תמונה לפורמט בדיעבד, ניתן לייצר אותה בדיוק לפי הצורך – בין אם מדובר בבאנר רחב, מסך נייד או פוסט לרשת חברתית.

סגנון שמרגיש פחות “AI”

שיפור נוסף נוגע לאופן שבו המודל מתמודד עם סגנונות שונים. לפי החברה, Images 2.0 מצליח לשחזר טוב יותר מאפיינים של סגנונות ויזואליים – כולל פרטים קטנים כמו טקסטורות, תאורה ופגמים עדינים שמוסיפים תחושת ריאליזם.

התוצאה היא תמונות שמרגישות פחות גנריות ויותר מכוונות, עם נאמנות גבוהה יותר למה שהתבקש.

איך זה עובד בפועל?

מאחר שאנו ב-Gadgety משתמשים מעת לעת במודלי Nano Banana של גוגל ליצירת גרפיקות עבור כתבות באתר, מדובר עבורנו בכלי חשוב, ועל כן החלטנו לבחון גם את Images 2.0 של OpenAI.

עם הפעלת המודל בתוך ChatGPT, החברה מספקת לנו בחירה בין מגוון אפשרויות מובנות ליצירה של תמונות – למשל, יצירת תמונת פורטרט מקצועית, יצירת קומיקס או אינפוגרפיקה, שלא בשונה מאפשרויות דומות שמציע מודל Nano Banana של Gemini ביצירת תמונות.

התוצאות טובות יותר ממה שהציע המודל הקודם – הצלחתי ליצור תמונת פורטרט מקצועית (Studio Headshot) מתמונה קיימת שהעליתי.

ניסיתי גם ליצור דף מעוצב בתצורה של עיתון בשחור-לבן עם הפרומפט המובנה ב-Images 2.0, עם כיתוב רנדומלי באנגלית, יכולת שינוי של טקסטים מסוימים לאחר יצירת התמונה (דורש רנדור מחדש כמובן) ואף תרגום ישיר לעברית של כל הטקסטים.

ביצירת אינפוגרפיקות ניכר כי Images 2.0 מתמקד בהכנסה של כמה שיותר פרטים לתמונה, במקום להתמקד במהות של אינפוגרפיקה – שמטרתה לספק מידע ויזואלי פשוט לקריאה והבנה.

כלומר, למרות היכולות המרשימות, המודל עדיין לא תמיד מבין מתי פחות הוא יותר – במיוחד בכל הנוגע להעברת מידע ויזואלי.

לפניכם התוצאה של יצירת אינפוגרפיקה בעברית לכתבה הזו, עם הפרומפט “נא צור אינפוגרפיקה בעברית על בסיס הכתבה בפורמט 3:2”, כפי שהתקבל ב-Images 2.0 של OpenAI מול התוצאה של Nano Banana 2 ב-Gemini (ללא עריכות לאחר היצירה הראשונית):

מבחינת מהירות, התוצאות של Images 2.0 עדיין לא מגיעות לרמת הזריזות והפשטות של Nano Banana 2, אם כי יש שיפור משמעותי אל מול הדור הקודם.

ניכר כי עם השקעה ודיוק גדול יותר בפרומפטים ניתן לקבל תוצאות טובות מאוד עם Images 2.0 בהשוואה לדור הקודם והן בגיוון הרב ובמשימות המורכבות יותר בהחלט ישנו יתרון גם על פני Nano Banana 2.

OpenAI שמה דגש רב על שוק המעצבים עם מגוון אפשרויות מורכבות יותר שניתן לבצע באמצעות המודל החדש (למשל – יצירה של תפריטים מדויקים במגוון שפות), אך לטעמי בצד הפשטות, המהירות, התמיכה בעברית וההבנה של ההוראות עדיין קיים יתרון ל-Nano Banana.

זמינות

בשלב זה, OpenAI מציינת כי המודל זמין כחלק מהשירותים שלה, כולל בתוך ChatGPT, Codex וה-API. עם זאת, פרטים כמו פריסה מלאה, מגבלות שימוש או מודל תמחור טרם הובהרו במלואם.

השוואת מפרטים