כשבאפל, גוגל וקוואלקום מדברים על “בינה מלאכותית מקומית” (on-device AI) הם לא מתכוונים לאותם דברים שהכרנו בשנים קודמות כמו זיהוי סצינות בזמן צילום תמונות או ניהול משאבים לשיפור חיי הסוללה, הם מדברים על משהו שונה לגמרי: הרצת מודלי שפה גדולים (LLM), מהסוג שעומדים מאחורי ChatGPT ו-Claude, ישירות על המעבד בסמארטפון שנמצא לכם בכיס. בלי שרתים, בלי חיבור לאינטרנט, בלי שהמידע שלכם עוזב את המכשיר.
זה שינוי כיוון משמעותי בתעשייה, וכדי לאפשר אותו אנחנו צריכים חומרה שונה לגמרי בסמארטפונים שלנו ממה שהספיק לנו לפני שלוש שנים.
ולא, זה לא בהכרח אומר שהמכשיר עם מספר ה-TOPS הגבוה ביותר יהיה הטוב ביותר למשימה. בפועל, הזיכרון, רוחב הפס, האחסון והתמיכה התוכנתית חשובים לא פחות.
אם בעבר ניסיתם להבין כמה זיכרון אתם צריכים במכשיר שלכם כדי להריץ משחקים או סשנים ארוכים של צילום, עכשיו הנתון הזה, כמו גם כמה נוספים, הופכים למשמעותיים הרבה יותר – אז הנה ההסבר על הרכיבים המעורבים בהרצת AI באופן מקומי.
למה לא פשוט לשלוח לענן?
הפתרון הכי קל שיצרניות הסמארטפונים היו יכולות לעשות היה להמשיך לעשות מה שהן עושות היום – לשלוח שאלה לשרת, ולקבל תשובה.
אבל לגישה הזו יש בעיות. היא מגיעה עם מספר בעיות ובראשן הצורך בחיבור קבוע לאינטרנט, חיבור שמגיע עם עיכוב של 200-500 מילישניות לעומת פחות מ-20 מילישניות בעבודה מקומית, והיא שולחת מידע אישי לחברות צד שלישי.
ביצוע פעולות כמו עריכת מסמכים רפואיים, שיחות קוליות פרטיות או עבודה באיזור ללא כיסוי סלולרי הופכים את פתרון הענן לבעייתי.
מהירות ניתוח היא גורם מכריע כאן. הרצה מקומית של מודלי AI יכולה לייצר טוקנים בתוך עשרות מילישניות, לעומת מאות מילישניות בגישה לשרת מרוחק בענן – פער משמעותי כשאתם משתמשים ביישומים הדורשים מענה בזמן אמת כמו תרגום חי, עוזרים קוליים ו-AR.

ה-NPU: המנוע הייעודי לבינה מלאכותית
כאשר מדברים על AI כיום, הרכיב הכי חשוב, אם כי הכי פחות מוכר לציבור הרחב, הוא “יחידת העיבוד הנוירונית” NPU (ר”ת Neural Processing Unit).
מדובר בשבב יעודי שמגיע כחלק מערכת השבבים (SoC) של הסמארטפון הכוללת גם את המעבד הראשי, מאיץ גרפי ורכיבים נוספים, שתוכנן מהיסוד כדי לבצע את הפעולות המתמטיות שמודלי AI מסתמכים עליהן – בעיקר כפל מטריצות ופעולות קונבולוציה בנפח עצום.
הביצועים של ה-NPU נמדדים ב-TOPS – טריליון פעולות בשנייה. ב-2025 פערי ה-TOPS בין הפלטפורמות המובילות כבר היו משמעותיים, אך חלק מהחברות, בהן סמסונג וקוואלקום, החלו להדגיש פחות את הנתון הזה לבדו כמספר שיווקי.
ה-TOPS הגולמי לא אומר הרבה בלי לבדוק אם ה-NPU תומך בפעולות שהמודל שלך צריך – כמו attention ו-dynamic shapes – ואם כלי הפיתוח בשלים מספיק לשימוש ריאלי. מודלים אמיתיים רצים רחוק מהניצולת המקסימלית שמבטיח היצרן.
זיכרון ה-RAM: צוואר הבקבוק שלא מדברים עליו
כאן מסתתרת הבעיה האמיתית שתעשיית הסמארטפונים לא אוהבת לדון בה. מודל שפה לא עובד כמו אפליקציה רגילה – הוא צריך לטעון את כל הפרמטרים שלו לזיכרון פעיל כדי לייצר כל טוקן ב”שיחה”. זה נתון שקשה לעקוף.
דרך חישוב גסה יכולה להיראות כך: מודל של 3 מיליארד פרמטרים בדיוק מלא (FP32) דורש 12GB של זיכרון עבודה (RAM). בדחיסה ל-FP16 זה יורד ל-6GB, ב-INT8 ל-3GB, וב-INT4 ל-1.5GB בלבד. מדובר בחיסכון משמעותי, עם פגיעה מינימלית ברמת הדיוק בזכות קוונטיזציה מתקדמת.
אבל גם 1.5GB הוא מספר שקשה להשיג על מכשיר סמארטפון, כי הזיכרון לא שייך כולו לאפליקציה אחת. בפועל רק חלק מהזיכרון זמין למודל, מאחר שהוא מתחלק עם מערכת ההפעלה, שירותי רקע ואפליקציות נוספות.
זה מגביל גם את גודל המודל המקסימלי וגם את האפשרות להשתמש בארכיטקטורות מתקדמות כמו MoE (ר”ת Mixture of Experts) – ארכיטקטורה שמפצלת את המודל למומחים נפרדים, כך שרק חלק קטן מהפרמטרים פעיל בכל פעם. היא יעילה מאוד, אבל דורשת יותר זיכרון עבודה פנוי.
יותר מכך, לא רק הכמות חשובה אלא גם רוחב הפס של הזיכרון – כמה נתונים ה-NPU יכול לשאוב מהזיכרון בשנייה. מכשירים ניידים עובדים עם רוחב פס של 50-90GB/s, לעומת 2-3TB/s שמאפיינים מעבדי GPU בשרתים של מרכזי נתונים. זו הסיבה לכך שמודל ה-AI על הסמארטפון שלכם תמיד יהיה איטי יותר מאשר בענן, גם אם ה-TOPS נשמע מרשים.

מודל Llama (של מטא) בגודל 8 מיליארד פרמטרים בדחיסת INT4 עדיין שוקל 4.5GB ונדרש לגשת שוב ושוב לחלקים גדולים מאוד מהמודל עבור כל טוקן שנוצר, מה שמגביל את הביצועים לטווח של 6-11 טוקן לשנייה כשרוחב הפס הוא גורם המגבלה.
אחסון: הדרישה שאף אחד לא ציפה לה
פרמטר שכמעט לא דנים בו הוא נפח האחסון הנדרש. בניגוד לאפליקציה רגילה שתופסת כמה מאות מגה-בייט, מודלי AI מקומיים הם גדולים – ולא רק לצורך ההתקנה.
יישומי AI מתקדמים דורשים נפח אחסון גדול יותר מאפליקציות רגילות. מעבר למודל עצמו, הם עשויים לכלול קבצי עזר, מאגרי מידע מקומיים, תוכן מטמון (Cache) ונתונים נוספים שיכולים להצטבר לעשרות גיגה-בייט במכשיר. זו אחת הסיבות לכך שיצרניות רבות עוברות בשנים האחרונות לנפחי אחסון בסיסיים גדולים יותר.
חברת המחקר TrendForce מעריכה כי מחסור בשבבי NAND בקיבולות נמוכות, לצד דרישות אחסון חדשות שמגיעות מיישומי AI מקומיים, ידחפו ב-2026 עלייה של 4.8% בקיבולת האחסון הממוצעת בסמארטפונים.
בנוסף לנפח, גם מהירות האחסון רלוונטית. כשמודל צריך להיטען לזיכרון, תהליך שקורה בכל הפעלה, סטנדרט UFS 4.0 (שמצוי במכשירי הדגל של 2024-2025) מספק קצבי קריאה בסדר גודל מהר יותר מגנרציות ישנות, וזה מתורגם ישירות לזמן מהיר יותר עד לתגובה הראשונה.
קוונטיזציה: הטכנולוגיה שמאפשרת הכל
הסיבה שבכלל אפשר להריץ מודלי AI על סמארטפון ב-2025-2026 היא טכניקת קוונטיזציה (Quantization) – דחיסה של פרמטרי המודל לייצוגים מספריים קטנים יותר.
קוונטיזציה מצמצמת את צריכת הזיכרון ב-60-80%, וב-INT4 ניתן להשיג האצה של עד פי 4.2 בהשוואה לדיוק מלא, עם פגיעה מינימלית בדיוק התוצאות – כ-1-3% ב-INT8 וכ-5-10% ב-INT4.
לא כל NPU תומך בקוונטיזציה בכל הפורמטים. אפילו אם יש לכם מודל קוונטיזציה INT4, אם החומרה תומכת רק ב-FP16 הנתונים יומרו בחזרה לפורמט הגדול כשייטענו לזיכרון – מה שעלול למחוק את היתרון של החיסכון בזיכרון שהקוונטיזציה אמורה לספק. לכן, תמיכה ב-INT4 ברמת החומרה היא כיום דרישת מינימום ממשית.

חום וצריכת חשמל: המחיר של AI מקומי
הרצת מודל AI מקומי היא לא “חינמית” מבחינת צריכת משאבים. כל טוקן שהמודל מייצר דורש גישה חוזרת לזיכרון והפעלת יחידות החישוב במעבד, ב-GPU או ב-NPU.
ככל שהמודל גדול יותר והשאילתה מורכבת יותר, כך עולה גם צריכת החשמל והחום שנפלט מהמכשיר. זו אחת הסיבות לכך שיצרניות מעדיפות מודלים קטנים יחסית של 1-8 מיליארד פרמטרים במכשירי קצה, בעוד שמודלים גדולים בהרבה ממשיכים לרוץ בענן.
כאשר הטמפרטורה עולה, מנגנוני ההגנה של הסמארטפון מפחיתים את תדרי העבודה של הרכיבים השונים (Thermal Throttling), מה שעלול להאט את ביצועי ה-AI ולהשפיע גם על חיי הסוללה.
איך זה נראה בפועל ב-2026
בדגמי הדגל של 2025-2026, הטווח המתאים ביותר הוא מודלים בגודל 3-8 מיליארד פרמטרים בקוונטיזציה של 4 ביט, המייצרים בדרך כלל 20-30 טוקנים לשנייה, ובמקרים מסוימים אף יותר, קצב שמספיק לשיחה זורמת ולמרבית יישומי ה-AI המקומיים.
המספרים הקיימים כבר מרשימים, והנה דוגמה למה: בשנת 2024 מטא הצליחה להריץ את מודל Llama 3.2 שלה על Galaxy S24 Plus באופן שמאפשר עיבוד הודעה באורך סביר (כמה פסקאות או אפילו מייל קצר) תוך פחות משתי שניות – ביצוע שבתחילת 2023 היה נחשב בלתי אפשרי על מכשירי סמארטפון.
המסקנה למי שקונה סמארטפון ב-2026
אם אתם רוכשים סמארטפון מתוך מחשבה על יכולות AI לשנים הקרובות, אל תסתכלו רק על מספר ה-TOPS שהיצרן מפרסם.
במקרים רבים, נפח ה-RAM, רוחב הפס של הזיכרון, איכות התמיכה התוכנתית ומהירות האחסון ישפיעו יותר על חוויית השימוש בפועל מאשר כוח העיבוד התאורטי של ה-NPU.
אם AI מקומי הוא שיקול ברכישת המכשיר הבא, ארבעת הפרמטרים לבדוק הם: NPU עם לפחות 45-50TOPS ותמיכה מוצהרת ב-INT4, זיכרון RAM של 12GB ומעלה (כדי שה-AI יקבל “חלק הגון”), אחסון מינימלי של 256GB בסטנדרט UFS 4.0, וניסיון לבדוק אם היצרן מספק APIs פתוחים למפתחים – כי NPU שאין לו תמיכה בתוכנה שווה פחות מה-TOPS שלו על הנייר.
| רכיב | מינימום ל-AI מקומי בסיסי | פרימיום (2026) |
|---|---|---|
| NPU | 30 TOPS + תמיכת INT8 | 45-60 TOPS + INT4 |
| RAM | 8GB (מודלים קטנים בלבד) | 12-16GB |
| אחסון | 128GB UFS 3.1 | 256GB+ UFS 4.0 |
יש לכם מה להוסיף?
התחום הזה מתפתח מהר, והסיכוי שיש ביניכם אנשים עם ידע מעמיק יותר – בין אם מצד פיתוח, מחקר או התנסות מעשית עם מכשירים – גבוה מאוד.
אם משהו כאן לא מדויק, חסר או כבר התיישן, נשמח לשמוע בתגובות או בקבוצת הטלגרם של גאדג’טי.