אנבידיה הציגה היום (ב’, 1.12) בכנס הבינה המלאכותית NeurIPS את NVIDIA DRIVE Alpamayo-R1 (AR1), מודל ה-Vision Language Action (“ראיה, שפה, פעולה”) הפתוח הראשון בעולם בקנה מידה תעשייתי עם יכולת “חשיבה” עבור מחקר בתחום הנהיגה האוטונומית.
לצד AR1, הציגה החברה שורה של מודלים, מאגרי מידע וכלים בקוד פתוח שיאיצו את המחקר בתחום הבינה המלאכותית הפיזית והדיגיטלית.
יכולת חשיבה מתקדמת לנהיגה אוטונומית
המודל החדש משלב הסקת מסקנות מבוססת שרשרת מחשבה (Chain-of-Thought) עם תכנון מסלול – רכיב קריטי לשיפור הבטיחות בכלי רכב אוטונומיים בתרחישים מורכבים, המאפשר נהיגה אוטונומית ברמה 4.
בעוד שגרסאות קודמות של מודלי נהיגה אוטונומית התקשו להתמודד עם מצבים מורכבים – למשל צומת עמוס בהולכי רגל, נתיב סגור לתנועה או רכב שחונה על נתיב אופניים – יכולת ה”חשיבה” של AR1 מאפשרת לו לנהוג בצורה דומה יותר לבני אדם ולבחור את המסלול האופטימלי לפי ההקשר.
AR1 מבצע זאת על ידי פירוק תרחיש וחשיבה על כל שלב בנפרד. הוא שוקל את כל המסלולים האפשריים, ולאחר מכן משתמש בנתונים הקשריים כדי לבחור את המסלול הטוב ביותר.
לדוגמה, רכב אוטונומי הנוסע באזור עמוס בהולכי רגל ליד נתיב אופניים יכול לקלוט נתונים מהמסלול שלו, לשלב “עקבות חשיבה” – הסברים מדוע הוא נקט בפעולות מסוימות – ולהשתמש במידע זה כדי לתכנן את המסלול העתידי שלו, כגון להתרחק מנתיב האופניים או לעצור עבור הולכי רגל פוטנציאליים.

בסיס פתוח למחקר והתאמה אישית
הקוד הפתוח של ה-AR1, המבוסס על NVIDIA Cosmos Reason, מאפשר לחוקרים להתאים את המודל לצרכי השימוש הלא-מסחריים שלהם, בין אם למטרות השוואה או לבניית יישומי נהיגה אוטונומית ניסיוניים.
לאחר אימון המודל, למידת חיזוק (Reinforcement Learning) הוכיחה את עצמה כיעילה במיוחד – חוקרים צפו בשיפור משמעותי ביכולות החשיבה של AR1 בהשוואה למודל המקורי לפני האימון.
כלים וטכנולוגיות נוספות
במקביל להשקת AR1, אנבידיה חשפה בכנס מספר כלים וטכנולוגיות נוספות לפיתוח בינה מלאכותית פיזית ודיגיטלית, ביניהם:
- LidarGen – מודל העולם הראשון שיכול לייצר נתוני lidar עבור סימולציית רכבים אוטונומיים.
- Omniverse NuRec Fixer – מודל המנצל את NVIDIA Cosmos Predict לטיפול מיידי בפגמים בנתונים משוחזרים נוירונית.
- MultiTalker Parakeet – מודל זיהוי דיבור אוטומטי לאודיו סטרימינג שיכול להבין מספר דוברים בו-זמנית.
- Sortformer – מודל שיכול להבחין במדויק בין מספר דוברים בזרם אודיו בזמן אמת.
- Nemotron Content Safety Reasoning – מודל בטיחות AI מבוסס חשיבה שאוכף דינמית מדיניות מותאמת אישית.
זמינות
מודל ה-NVIDIA DRIVE Alpamayo-R1 יהיה זמין ב-GitHub וב-Hugging Face, וחלק מהנתונים ששימשו לאימון ולהערכת המודל זמינים במאגרי הנתונים הפתוחים של NVIDIA Physical AI.