מטא משיקה מערכת זיהוי דיבור אוטומטית לתמלול ב-1,600 שפות בקוד פתוח

לוגו מטא

מטא (Meta) השיקה את Omnilingual ASR, מערכת זיהוי דיבור רב-לשונית אוטומטית (Automatic Speech Recognition) המספקת אפשרות לתמלול אוטומטי של יותר מ-1,600 שפות, כולל 500 שפות נדירות שמעולם לא תומללו על ידי בינה מלאכותית.

המערכת החדשה משתמשת בטכנולוגיית in-context learning המאפשרת למשתמשים להרחיב את התמיכה לשפות חדשות באמצעות מספר דוגמאות בלבד, ובכך להגיע למעשה לכיסוי פוטנציאלי של יותר מ-5,400 שפות – כמעט כל שפה מדוברת עם מערכת כתב ידועה.

ההשקה של Omnilingual ASR מציבה את מטא כמובילה בתחום זיהוי הדיבור האוטומטי, הרבה מעבר למודל Whisper של OpenAI התומך ב-99 שפות בלבד.

המערכת משלבת מודל ייצוג דיבור רב-לשוני מסיבי בגודל של 7 מיליארד פרמטרים לצד שתי גרסאות פענוח שונות, ומשיגה שיעורי שגיאה נמוכים מ-10% ב-78% מהשפות הנתמכות.

פריצת דרך לקהילות עם שפות נדירות

אחת ההשפעות המרכזיות של Omnilingual ASR היא האפשרות שהיא פותחת לקהילות שפה מוחלשות וקטנות.

עד כה, מרבית מערכות זיהוי הדיבור התמקדו בשפות עם משאבים דיגיטליים רבים, דבר שהותיר בחוץ מיליוני דוברי שפות נדירות, שפות ילידים ושפות בסכנת הכחדה.

המערכת החדשה של מטא משנה את המצב הזה על ידי מתן האפשרות לקהילות להוסיף את השפה שלהן בעצמן.

הטכנולוגיה מבוססת על יכולת in-context learning שאימצה מתחום מודלי השפה הגדולים.

בפועל, משמעות הדבר היא שדובר שפה שאינה נתמכת יכול לספק רק קומץ דוגמאות של אודיו וטקסט מותאמות, ולקבל איכות תמלול שימושית – ללא צורך במאגרי נתונים עצומים, מומחיות טכנולוגית מורכבת או גישה לכוח מחשוב מתקדם.

למרות שהביצועים של המערכת במצב למידה zero-shot, לשפות שהכלי לא ראה מעולם, אינם תואמים עדיין למערכות שמאומנות במלואן, הגישה הזו מציעה דרך הרבה יותר נגישה להוספת שפות חדשות.

ארכיטקטורה וביצועים

המערכת מורכבת משני רכיבים עיקריים: מקודד דיבור מבוסס wav2vec 2.0 שהורחב לראשונה ל-7 מיליארד פרמטרים, המייצר ייצוגים סמנטיים עשירים ורב-לשוניים מתוך נתוני דיבור גולמיים וללא תמלול.

לאחר מכן, שני מפענחים שונים ממפים את הייצוגים הללו לתווים: הראשון מסתמך על CTC (ר”ת Connectionist Temporal Classification) מסורתי, והשני משתמש במפענח טרנספורמר (Transformer) שנפוץ במודלי שפה גדולים, הידוע בשם LLM-ASR.

מבחינת ביצועים, המערכת הגדולה ביותר במשפחה, omniASR_LLM_7B, משיגה שיעור שגיאות תווים (CER) נמוך מ-10% ב-95% מהשפות עם משאבים רבים ובינוניים, וב-36% מהשפות עם משאבים מועטים.

המערכת אומנה על למעלה מ-4.3 מיליון שעות אודיו מ-1,600+ שפות, ומציעה משפחת מודלים בגדלים שונים – ממודלים קלי משקל של 300 מיליון פרמטרים המיועדים למכשירים בעלי משאבים מוגבלים, ועד מודלים חזקים של 7 מיליארד פרמטרים המספקים דיוק ברמה הגבוהה ביותר.

ביצועי המודל בהתייחס לכמות המשאבים לכל שפה (מקור מטא)
ביצועי המודל בהתייחס לכמות המשאבים לכל שפה (מקור מטא)

זמינות

כלי ה-Omnilingual ASR החדש של מטא זמין תחת רישיון קוד פתוח: Apache 2.0 עבור המודלים והקוד, ו-CC-BY 4.0 עבור מאגר הנתונים.

הכלי זמין דרך ו-GitHub, כאשר ניתן להתנסות בדמו של יכולות התמלול באתר .

השוואת מפרטים