הכירו את GLM-Image – מחולל התמונות החדש והפתוח של Z.ai

מחולל ה-GLM-Image (מקור Z.ai) מחולל ה-GLM-Image (מקור Z.ai)

⭐ נקודות עיקריות

  • חברת Z.ai משיקה את GLM-Image, מודל קוד פתוח חדש המתמחה ביצירת תמונות מורכבות ועשירות בטקסט.
  • הארכיטקטורה ההיברידית של המודל מציגה דיוק טקסטואלי העוקף את מודל Nano Banana של גוגל, אך עם זמני רינדור ארוכים יותר.
  • המודל זמין להורדה חופשית דרך Hugging Face ו-GitHub ומיועד בעיקר ליצירת אינפוגרפיקות ותרשימים לארגונים.

חברת Z.ai הסינית (לשעבר Zhipu AI) הכריזה על GLM-Image, מודל גנרטיבי חדש ליצירת תמונות בקוד פתוח המציע גישה טכנולוגית שונה מהסטנדרט בתעשייה.

המודל, הכולל 16 מיליארד פרמטרים, נבנה במטרה ספציפית: לפתור את הקושי של מודלי דיפוזיה (Diffusion) קלאסיים ביצירת תמונות המכילות טקסט רב ומידע צפוף (Dense-knowledge).

בעוד מודלים מתחרים מתמקדים לרוב באסתטיקה, GLM-Image מכוון לשוק הארגוני הזקוק לדיוק סמנטי גבוה ליצירת אינפוגרפיקות, שקפים ודיאגרמות, תוך שהוא מציג ביצועים העוקפים במדדים מסוימים את המודלים של ענקיות הטכנולוגיה, דוגמת Nano Banana של גוגל.

מאפיינים עיקריים

הייחוד של GLM-Image הוא בארכיטקטורה ההיברידית המפצלת את תהליך היצירה לשני שלבים נפרדים:

  1. המתכנן (Auto-Regressive Generator): מבוסס על מודל השפה GLM-4-9B (עם 9 מיליארד פרמטרים). רכיב זה אינו מצייר פיקסלים, אלא מתרגם את ההנחיה ל”טוקנים ויזואליים” (Visual Tokens) המגדירים את המבנה הלוגי, מיקום הטקסט והקומפוזיציה.
  2. הצייר (Diffusion Decoder): מבוסס על ארכיטקטורת CogView4 (עם 7 מיליארד פרמטרים). רכיב זה מקבל את המבנה המוכן וממלא אותו בפרטים ויזואליים, טקסטורות ותאורה.

גישה זו נועדה למנוע את תופעת ה-“Semantic Drift”, בה מודלים רגילים מאבדים את ההקשר הלוגי של ההנחיה לטובת המראה הויזואלי. בשיטה זו, המודל “מבין” היכן למקם כל מילה לפני שהוא מתחיל לצייר אותה.

אינפוגרפיקה, עיצוב מחולל ה-GLM-Image
תמונה באמצעות Gemini

ביצועים

על פי נתוני החברה ומבחני השוואה, המודל מציג עליונות משמעותית ברינדור טקסט. במבחן CVTG-2k, המודד דיוק טקסטואלי באזורים מרובים, השיג GLM-Image ציון ממוצע של 0.9116. לשם השוואה, מודל ה-Nano Banana Pro של גוגל השיג באותו מבחן ציון של 0.7788.

היתרון בא לידי ביטוי בעיקר בתמונות מורכבות הכוללות כותרות, רשימות וכיתובים במקביל. עם זאת, ישנו מחיר לביצועים אלו: הארכיטקטורה הכבדה דורשת משאבי חישוב רבים.

יצירת תמונה בודדת ברזולוציה גבוהה (2048×2048) עשויה לקחת כ-4 דקות (כ-252 שניות) על מעבד גרפי חזק מסוג H100, זמן ארוך משמעותית ממודלים קלים יותר. כמו כן, מבחנים הראו כי באסתטיקה כללית, המודל של גוגל עדיין מוביל.

יכולות נוספות

מעבר ליצירה מטקסט, המודל תומך במגוון יכולות מתקדמות:

  • עריכת תמונה (Image-to-Image): יכולת לשנות סגנון או פרטים בתמונה קיימת תוך שימור המבנה המקורי.
  • עקביות: שמירה על זהות דמויות או אובייקטים לאורך סדרת תמונות.
  • תמיכה בריבוי שפות: יכולת משופרת לרינדור תווים מורכבים (כמו סינית), הודות לרכיב ייעודי לקידוד טקסט.

זמינות

מודל ה-GLM-Image זמין בקוד פתוח הזמין להורדה דרך Hugging Face ו-GitHub.

השוואת מפרטים