גוגל מציגה את Gemma 4 12B: מודל AI מולטי-מודאלי לניידים עם 16GB זיכרון

Gemma 4 12B (מקור גוגל) Gemma 4 12B (מקור גוגל)

⭐ נקודות עיקריות

  • גוגל חושפת את Gemma 4 12B, מודל בינה מלאכותית פתוח בגודל בינוני המיועד להפעלה מקומית על גבי מחשבים ניידים.
  • המודל מציג ארכיטקטורה אחודה ללא מקודדים חיצוניים, המאפשרת עיבוד ישיר של קלטי תמונה ושמע אל תוך מודל השפה.
  • לדברי החברה, ביצועי המודל קרובים לאלו של דגם 26B MoE הגדול יותר, תוך קיצוץ של יותר מחצי מדרישות הזיכרון.
  • המודל זמין להורדה מיידית תחת רישיון חופשי ומיועד למחשבים בעלי זיכרון של לפחות 16GB.

גוגל (Google) הכריזה על השקת Gemma 4 12B, מודל בינה מלאכותית פתוח המיועד להביא יכולות מולטי-מודאליות ישירות למחשבים ניידים עם לפחות 16GB של זיכרון וללא צורך בחיבור לענן.

המודל החדש מגיע כחלק ממשפחת מודלי ה-Gemma 4, ומוגדר כמודל מולטי-מודאלי אחוד בגודל בינוני המסוגל לעבד טקסט, תמונות ושמע בצורה מקומית לחלוטין.

השקתו של המודל משמעותית עבור מפתחים ומשתמשים המעוניינים להריץ סוכני בינה מלאכותית עצמאיים ומשימות קוד מורכבות על גבי מחשבים אישיים סטנדרטיים, תוך שמירה על פרטיות המידע וחיסכון בעלויות עיבוד.

מאפיינים עיקריים / חדשנות

החידוש המרכזי במודל Gemma 4 12B הוא השימוש בארכיטקטורה אחודה ונטולת מקודדים (Encoder-free). במודלים מולטי-מודאליים נפוצים, עיבוד של קלטי מדיה מתבצע באמצעות מקודדים ייעודיים נפרדים המתרגמים את המידע עבור מודל השפה, תהליך שמגדיל את השהיית העיבוד (Latency) וצורך זיכרון נוסף.

בפיתוח הנוכחי, קלטי המדיה מוזרמים ישירות אל תוך עמוד השדרה של מודל השפה (LLM backbone).

עבור קלטי תמונה (Vision), המודל מחליף את מקודד הראייה המסורתי במודול ייצוג קל המבוסס על כפל מטריצות בודד, ייצוג מיקומי ונרמול נתונים, מה שמאפשר למודל השפה לנהל את העיבוד החזותי בעצמו עם מודעות מרחבית.

בתחום השמע (Audio), גוגל ויתרה לחלוטין על מקודד נפרד והצליחה להשליך את אות השמע הגולמי ישירות אל אותו מרחב ממדי של אסימוני הטקסט (Text tokens), ובכך הפך הדגם למודל הבינוני הראשון של החברה המשלב קלט שמע טבעי.

ביצועים

לדברי החברה, Gemma 4 12B מציג ביצועים הקרובים לאלו של מודל Gemma 4 26B MoE הגדול יותר במבחני ביצועים, וכל זאת בתוך תפוסת זיכרון הקטנה ביותר מחצי.

המודל מסוגל לבצע משימות חשיבה מורכבות מרובות שלבים וסביבות עבודה של סוכנים אוטונומיים, אשר דרשו בעבר משאבים נרחבים בהרבה.

היעילות הארכיטקטונית מאפשרת לו לפעול בצורה מקומית על גבי מחשבים ניידים צרכניים המצוידים בזיכרון של 16GB בלבד.

תצורה זו מייתרת את הצורך ברכישת רכיבי עיבוד יקרים ומנגישה את טכנולוגיית העיבוד המקומית לשימוש יומיומי ללא שחיקה באיכות או במהירות התגובה.

ביצועי Gemma 4 12B (מקור גוגל)
ביצועי Gemma 4 12B (מקור גוגל)

יכולות נוספות

שילוב המודל עם סביבת הפיתוח Google AI Edge מאפשר להריץ מגוון רחב של יישומים מקומיים על גבי מערכות הפעלה תומכות.

במסגרת זו, אפליקציית Google AI Edge Gallery מאפשרת למודל לנתח נתונים ולייצר קוד Python באופן דינמי על פי דרישת המשתמש, להריץ אותו מקומית ולהפיק תרשימים גרפיים מקובצי נתונים גולמיים בסבב יחיד.

לדברי גוגל, המעבר ל-Gemma 4 12B בתוך סביבת ה-AI Edge הניב שיפור של למעלה מ-60% באיכות הכוללת של המודל, לרבות שיפור בביצוע הוראות ועמידה בגבולות המשימה.

זמינות

גוגל שחררה את Gemma 4 12B תחת רישיון Apache 2.0 הפתוח. משקלי המודל זמינים כבר עתה להורדה דרך הפלטפורמות Hugging Face ו-Kaggle.

יש לציין כי משקל קובצי המודל עומד על כ-18GB, ולכן נדרש שטח אחסון פנוי בהתאם בכונן הקשיח (או SSD) גם על מכשירים בעלי 16GB זיכרון (RAM).

השוואת מפרטים