⭐ נקודות עיקריות
- גוגל הכריזה על DiffusionGemma, מודל בינה מלאכותית פתוח המבוסס על גישה חדשה לייצור טקסט.
- המודל מייצר פסקאות שלמות בבת אחת במקום מילה-מילה, ומהיר עד פי 4 ממודלים רגילים.
- מיועד להרצה מקומית על מחשב אישי עם כרטיס מסך סטנדרטי – ללא תלות בענן.
- זמין להורדה חינמית תחת רישיון פתוח מסוג Apache 2.0 – רק לבעלי חומרה מתאימה.
גוגל (Google) הכריזה על DiffusionGemma, מודל בינה מלאכותית פתוח ונסיוני המסוגל לייצר למעלה מ-1,000 מילים בשנייה או תשובה מלאה בפחות משנייה – מהירות שעד כה הייתה שמורה לשרתי ענן ארגוניים בלבד.
ההבדל המעשי כאן הוא בעיבוד AI כבד שרץ ישירות על המחשב האישי, בלי המתנה ובלי תשלום לענן.
למה AI מקומי היה איטי עד היום
כל מודלי השפה שאתם מכירים – ChatGPT, Gemini, Claude – מייצרים טקסט בצורה סדרתית: מילה אחת, אחר כך עוד אחת, אחר כך עוד אחת. כמו מישהו שמקליד לאט מאוד ולא יכול לדלג קדימה לפני שסיים את המילה הנוכחית.
בשרתי ענן זה עובד מצוין כי המערכת מטפלת באלפי משתמשים במקביל וכרטיסי המסך הענקיים שלה תמיד עסוקים. אבל כשמריצים מודל כזה על מחשב ביתי עבור משתמש אחד – רוב כוח העיבוד פשוט יושב בחוסר מעשה ומחכה למילה הבאה.
שיטת עבודה שונה לחלוטין
DiffusionGemma עובד אחרת. במקום לכתוב מילה-מילה, הוא מתחיל עם דף מלא ב”רעש”, עם מקום שמור לטקסט עתידי, ואז מזקק ומחדד את כל הדף הזה בבת אחת, סבב אחרי סבב, עד שמתקבלת תשובה קריאה ומדויקת. אפשר לחשוב על זה כמו פיתוח תמונה בחדר חשוך: התמונה מתגלה בהדרגה על פני הדף כולו בו-זמנית, ולא מפינה אחת לשנייה.
לגישה הזו יש יתרון נוסף שאינו מיידי לעין. מכיוון שהמודל רואה את כל הטקסט שהוא מייצר בו-זמנית, הוא יכול לתקן סתירות ושגיאות בזמן אמת – דבר שמודלים רגילים לא יכולים לעשות כי הם כבר “עברו” על המילים הקודמות.
מה זה אומר במספרים
בבדיקות פנימיות של גוגל, המודל הציג קצב של למעלה מ-1,000 מילים בשנייה על כרטיס שרת מקצועי מסוג NVIDIA H100 – חומרה שעולה עשרות אלפי דולרים ולא נמצאת בשום מחשב ביתי.
על כרטיס GeForce RTX 5090, הכרטיס הגרפי היקר והמתקדם ביותר של NVIDIA לצרכנים עם מחיר של כ-2,000 דולר, המודל הציג מעל 700 מילים בשנייה.
לשם השוואה, מודלים מסורתיים מגיעים בדרך כלל ל-150-250 מילים בשנייה בשימוש באותה חומרה.
מבחינת דרישות מינימום, המודל דורש 18GB של זיכרון כרטיס מסך – רף שמסנן החוצה את רוב הכרטיסים הצרכניים הנפוצים. בפועל, הטכנולוגיה שגוגל מציגה כ”מיועדת למחשוב מקומי” נגישה כרגע בעיקר למפתחים ולחובבים עם תקציב משמעותי לחומרה. גוגל שיתפה פעולה עם NVIDIA לאופטימיזציה מיוחדת לכרטיסי RTX 4090 ו-RTX 5090.

מה עדיין חסר
גוגל עצמה מדגישה שמדובר במודל נסיוני, ושלמהירות גבוהה יש מחיר: איכות התשובות של DiffusionGemma נמוכה יותר מזו של מודלי Gemma 4 הרגילים.
למשימות שדורשות דיוק גבוה כמו ניתוח מורכב, כתיבה ארוכה, מחקר – המודלים הסטנדרטיים עדיין עדיפים. DiffusionGemma מתאים יותר לתרחישים שבהם מהירות תגובה היא הקריטריון המרכזי, כמו השלמת קוד בזמן אמת או ממשקים אינטראקטיביים.
מחירים וזמינות
משקולות המודל זמינות להורדה מיידית דרך פלטפורמת Hugging Face תחת רישיון פתוח Apache 2.0, ללא עלות.