אנבידיה חשפה את Nemotron 3 Nano Omni - מודל AI מולטי-מודאלי פתוח

⭐ נקודות עיקריות

מודל AI פתוח המעבד במקביל וידאו, שמע, תמונות, מסמכים וטקסט.
לדברי החברה, המודל מציע יעילות גבוהה עד פי 9 בהשוואה למודלים מתחרים בתחומו.
מבוסס על ארכיטקטורת מומחים מעורבים עם 30 מיליארד פרמטרים.
זמין כעת להורדה ושימוש חופשי בפלטפורמות כמו Hugging Face ו-OpenRouter.

אנבידיה (NVIDIA) הכריזה על מודל הבינה המלאכותית Nemotron 3 Nano Omni ממשפחת ה-Nemotron 3 של החברה.

מדובר במודל מולטי-מודאלי (Multimodal) פתוח המאחד עיבוד של ראייה, שמע ושפה למערכת אחת, ומיועד להפעלת סוכני בינה מלאכותית (AI Agents) המסוגלים לנתח מסמכים ארוכים, וידאו וסביבות עבודה ממוחשבות.

איחוד היכולות למודל יחיד נועד לאפשר לסוכני ה-AI להגיב מהר יותר ולנתח מידע מורכב המשלב מספר סוגי מדיה במקביל, ללא צורך במעבר מסורבל ויקר בין מודלים נפרדים שכל אחד מהם מתמחה בתחום בודד.

הכירו את ה-Nemotron 3 Nano Omni

מודל ה-Nemotron 3 Nano Omni מבוסס על ארכיטקטורה היברידית מסוג מומחים מעורבים (Mixture of Experts) בנפח של 30 מיליארד פרמטרים וחלון הקשר (Context Window) של 256 אלף טוקנים.

המודל מקבל כקלט טקסט, תמונות, שמע, וידאו, מסמכים ותרשימים, ומפיק פלט טקסטואלי. הוא כולל יכולת עיבוד ברזולוציה דינמית המאפשרת ניתוח של מסמכים ארוכים בני למעלה מ-100 עמודים, צילומי מסך ותרשימים מורכבים בפורמט המקורי שלהם.

עבור קובצי וידאו, המודל משלב טכנולוגיות דחיסה (Conv3D) ודגימה יעילה (EVS) המצמצמות את כמות המידע המעובד על ידי סינון חלקים סטטיים בסרטון שלא השתנו בין פריימים.

בתחום השמע, המודל מסוגל לנתח קלט קולי ישיר באורך של עד 20 דקות בתדר 16kHz, כולל תמלול והבנה של סביבות עם דוברים שונים ורעשי רקע, ללא צורך בהמרה מקדימה לטקסט.

בנוסף, המודל נועד להשתלב במערכות עבודה כסוכן משנה, הפועל לצד מודלים קיימים מבית החברה, כמו Nemotron 3 Super או Ultra, או מול מודלים חיצוניים.

ביצועים

לדברי החברה, המודל החדש מציג שיפור של עד פי 9 ביעילות המערכת עבור תרחישי וידאו בהשוואה למודלים פתוחים אחרים באותה רמת אינטראקטיביות, ושיפור של פי 7.4 בתרחישי עבודה עם מסמכים מרובים.

בנוסף, אנבידיה מציינת מהירות עבודה גבוהה פי 2.9 עבור זרם נתונים בודד.

להלן נתוני הביצועים כפי שפורסמו על ידי החברה במסגרת ההכרזה, בהשוואה לדור הקודם ולמודל ה-Qwen3-Omni:

תחום	מבחן	Nemotron 3 Nano Omni	Nemotron Nano V2 VL	Qwen3-Omni 30B-A3B
הבנת מסמכים	OCRBenchV2-En	65.8	61.2	–
הבנת מסמכים	MMLongBench-Doc	57.5	38.0	49.5
הבנת מסמכים	CharXiv reasoning	63.6	41.3	61.1
ממשק משתמש גרפי (GUI)	ScreenSpot-Pro	57.8	5.5	59.7
ממשק משתמש גרפי (GUI)	OSWorld	47.4	11.0	29.0
הבנת וידאו	Video-MME	72.2	63.0	70.5
הבנת וידאו ושמע	WorldSense	55.4	–	54.0
הבנת וידאו ושמע	DailyOmni	74.1	–	73.6
אינטראקציה קולית	VoiceBench	89.4	–	88.8
זיהוי דיבור (נמוך יותר = טוב יותר)	HF Open ASR	5.95	–	6.55

זמינות

מודל ה-Nemotron 3 Nano Omni זמין כעת להורדה ולשימוש בפלטפורמות כדוגמת Hugging Face ו-OpenRouter, וכן כשירות מיקרו (Microservice) דרך פלטפורמת ה-NIM באתר המפתחים של אנבידיה.

אנבידיה מציגה את Nemotron 3 Nano Omni: מודל AI פתוח המשלב ראייה, שמע ושפה

הכירו את ה-Nemotron 3 Nano Omni

ביצועים

זמינות

גאדג’טי מסקר: ASUS ROG Zephyrus Duo 2026 - מפלצת עם 2 מסכי OLED

גאדג’טי מסקר: ASUS Zenbook A14 2026 - נייד Snapdragon X2 Elite עם 33 שעות סוללה

Apple iPhone 16 Pro

Apple iPhone 16 Pro Max

Google Pixel 8 Pro

Apple iPhone 15 Pro Max

אנבידיה מציגה את Nemotron 3 Nano Omni: מודל AI פתוח המשלב ראייה, שמע ושפה

הכירו את ה-Nemotron 3 Nano Omni

ביצועים

זמינות

עוקבים? כל החדשות מגאדג'טי >>

גאדג’טי מסקר: ASUS ROG Zephyrus Duo 2026 - מפלצת עם 2 מסכי OLED

גאדג’טי מסקר: ASUS Zenbook A14 2026 - נייד Snapdragon X2 Elite עם 33 שעות סוללה

Apple iPhone 16 Pro

Apple iPhone 16 Pro Max

Google Pixel 8 Pro

Apple iPhone 15 Pro Max