אנבידיה משיקה את Granary – מערך נתונים המוסיף ל-AI תמיכה ב-25 שפות אירופיות

Granary (מקור אנבידיה) Granary (מקור אנבידיה)

אנבידיה (Nvidia) משפרת את יכולות השפה של מודלי AI עם הצגת Granary – מערך נתונים (Dataset) עצום בקוד פתוח הכולל כ~1,000,000 שעות אודיו, במטרה לפתור את הבעיה שרק חלק קטן מתוך 7,000 השפות בעולם נתמכות כיום על ידי מודלי AI.

מערך הנתונים החדש נועד לאפשר למפתחים ליצור בקלות יותר צ’אטבוטים רב-לשוניים, סוכני שירות לקוחות קוליים ושירותי תרגום בזמן אמת, כאשר הוא מיועד לזיהוי ותרגום של 25 שפות אירופיות.

Granary – מערך נתונים מקיף עם מיליון שעות אודיו

מערך הנתונים Granary החדש פותח בשיתוף פעולה בין חוקרי אנבידיה וחוקרים מאוניברסיטת קרנגי מלון וקרן Bruno Kessler, ומתמקד בשפות אירופיות שזוכות לתמיכה מוגבלת במודלי AI קיימים, כמו קרואטית, אסטונית ומלטית.

מערך הנתונים כולל כמיליון שעות של הקלטות אודיו – כ-650,000 שעות לזיהוי דיבור ומעל 350,000 שעות לתרגום דיבור ומספק נתונים נקיים ומוכנים לשימוש לכמעט כל 24 השפות הרשמיות של האיחוד האירופי, בתוספת רוסית ואוקראינית.

מערך הנתונים נוצר באמצעות צינור עיבוד חדשני המופעל על ידי כלי ה-NVIDIA NeMo Speech Data Processor, שהפך קבצי אודיו לא מתויגים לנתונים מובנים ואיכותיים ללא צורך בביאור אנושי יקר.

החוקרים הוכיחו כי בהשוואה למערכי נתונים פופולריים אחרים, נדרש כמחצית מכמות הנתונים של Granary כדי להשיג רמת דיוק יעד בזיהוי דיבור אוטומטי ASR (ר”ת automatic speech recognition) ותרגום דיבור אוטומטי AST (ר”ת automatic speech translation).

Granary (מקור אנבידיה)
Granary (מקור אנבידיה)

שני מודלים מותאמים לשימושים שונים

לצד מערך ה-Granary החדש, אנבידיה הציגה גם צמד מודלי AI:

  • NVIDIA Canary-1b-v2 – מודל בעל מיליארד פרמטרים המותאם לדיוק גבוה במשימות מורכבות. המודל מרחיב את משפחת Canary מתמיכה בארבע שפות ל-25 שפות, ומציע איכות תמלול ותרגום דומה למודלים גדולים פי 3 תוך ביצוע מסקנות מהיר פי 10.
  • NVIDIA Parakeet-tdt-0.6b-v3 – מודל מותאם בן 600 מיליון פרמטרים המיועד למשימות מהירות עם השהיה נמוכה. המודל מסוגל לתמלל קטעי אודיו באורך 24 דקות במעבר יחיד, מזהה אוטומטית את שפת הקלט ומתמלל ללא צורך בשלבי הנחיה נוספים.

מערך הנתונים Granary ומודלי Canary ו-Parakeet זמינים כעת ב-Hugging Face, יחד עם כלי עיבוד הנתונים בקוד פתוח ב-GitHub.

השוואת מפרטים