אנבידיה מציגה את Nemotron 3 Nano Omni: מודל AI פתוח המשלב ראייה, שמע ושפה

Nemotron 3 Nano Omni (מקור אנבידיה) Nemotron 3 Nano Omni (מקור אנבידיה)

⭐ נקודות עיקריות

  • מודל AI פתוח המעבד במקביל וידאו, שמע, תמונות, מסמכים וטקסט.
  • לדברי החברה, המודל מציע יעילות גבוהה עד פי 9 בהשוואה למודלים מתחרים בתחומו.
  • מבוסס על ארכיטקטורת מומחים מעורבים עם 30 מיליארד פרמטרים.
  • זמין כעת להורדה ושימוש חופשי בפלטפורמות כמו Hugging Face ו-OpenRouter.

אנבידיה (NVIDIA) הכריזה על מודל הבינה המלאכותית Nemotron 3 Nano Omni ממשפחת ה-Nemotron 3 של החברה.

מדובר במודל מולטי-מודאלי (Multimodal) פתוח המאחד עיבוד של ראייה, שמע ושפה למערכת אחת, ומיועד להפעלת סוכני בינה מלאכותית (AI Agents) המסוגלים לנתח מסמכים ארוכים, וידאו וסביבות עבודה ממוחשבות.

איחוד היכולות למודל יחיד נועד לאפשר לסוכני ה-AI להגיב מהר יותר ולנתח מידע מורכב המשלב מספר סוגי מדיה במקביל, ללא צורך במעבר מסורבל ויקר בין מודלים נפרדים שכל אחד מהם מתמחה בתחום בודד.

הכירו את ה-Nemotron 3 Nano Omni

מודל ה-Nemotron 3 Nano Omni מבוסס על ארכיטקטורה היברידית מסוג מומחים מעורבים (Mixture of Experts) בנפח של 30 מיליארד פרמטרים וחלון הקשר (Context Window) של 256 אלף טוקנים.

המודל מקבל כקלט טקסט, תמונות, שמע, וידאו, מסמכים ותרשימים, ומפיק פלט טקסטואלי. הוא כולל יכולת עיבוד ברזולוציה דינמית המאפשרת ניתוח של מסמכים ארוכים בני למעלה מ-100 עמודים, צילומי מסך ותרשימים מורכבים בפורמט המקורי שלהם.

עבור קובצי וידאו, המודל משלב טכנולוגיות דחיסה (Conv3D) ודגימה יעילה (EVS) המצמצמות את כמות המידע המעובד על ידי סינון חלקים סטטיים בסרטון שלא השתנו בין פריימים.

בתחום השמע, המודל מסוגל לנתח קלט קולי ישיר באורך של עד 20 דקות בתדר 16kHz, כולל תמלול והבנה של סביבות עם דוברים שונים ורעשי רקע, ללא צורך בהמרה מקדימה לטקסט.

בנוסף, המודל נועד להשתלב במערכות עבודה כסוכן משנה, הפועל לצד מודלים קיימים מבית החברה, כמו Nemotron 3 Super או Ultra, או מול מודלים חיצוניים.

Nemotron 3 Nano Omni (מקור אנבידיה)
Nemotron 3 Nano Omni (מקור אנבידיה)

ביצועים

לדברי החברה, המודל החדש מציג שיפור של עד פי 9 ביעילות המערכת עבור תרחישי וידאו בהשוואה למודלים פתוחים אחרים באותה רמת אינטראקטיביות, ושיפור של פי 7.4 בתרחישי עבודה עם מסמכים מרובים.

בנוסף, אנבידיה מציינת מהירות עבודה גבוהה פי 2.9 עבור זרם נתונים בודד.

להלן נתוני הביצועים כפי שפורסמו על ידי החברה במסגרת ההכרזה, בהשוואה לדור הקודם ולמודל ה-Qwen3-Omni:

תחום מבחן Nemotron 3 Nano Omni Nemotron Nano V2 VL Qwen3-Omni 30B-A3B
הבנת מסמכים OCRBenchV2-En 65.8 61.2
הבנת מסמכים MMLongBench-Doc 57.5 38.0 49.5
הבנת מסמכים CharXiv reasoning 63.6 41.3 61.1
ממשק משתמש גרפי (GUI) ScreenSpot-Pro 57.8 5.5 59.7
ממשק משתמש גרפי (GUI) OSWorld 47.4 11.0 29.0
הבנת וידאו Video-MME 72.2 63.0 70.5
הבנת וידאו ושמע WorldSense 55.4 54.0
הבנת וידאו ושמע DailyOmni 74.1 73.6
אינטראקציה קולית VoiceBench 89.4 88.8
זיהוי דיבור

(נמוך יותר = טוב יותר)

HF Open ASR 5.95 6.55

זמינות

מודל ה-Nemotron 3 Nano Omni זמין כעת להורדה ולשימוש בפלטפורמות כדוגמת Hugging Face ו-OpenRouter, וכן כשירות מיקרו (Microservice) דרך פלטפורמת ה-NIM באתר המפתחים של אנבידיה.

השוואת מפרטים