מטא משיקה מערכת זיהוי דיבור אוטומטית לתמלול ב-1,600 שפות

מטא (Meta) השיקה את Omnilingual ASR, מערכת זיהוי דיבור רב-לשונית אוטומטית (Automatic Speech Recognition) המספקת אפשרות לתמלול אוטומטי של יותר מ-1,600 שפות, כולל 500 שפות נדירות שמעולם לא תומללו על ידי בינה מלאכותית.

המערכת החדשה משתמשת בטכנולוגיית in-context learning המאפשרת למשתמשים להרחיב את התמיכה לשפות חדשות באמצעות מספר דוגמאות בלבד, ובכך להגיע למעשה לכיסוי פוטנציאלי של יותר מ-5,400 שפות – כמעט כל שפה מדוברת עם מערכת כתב ידועה.

ההשקה של Omnilingual ASR מציבה את מטא כמובילה בתחום זיהוי הדיבור האוטומטי, הרבה מעבר למודל Whisper של OpenAI התומך ב-99 שפות בלבד.

המערכת משלבת מודל ייצוג דיבור רב-לשוני מסיבי בגודל של 7 מיליארד פרמטרים לצד שתי גרסאות פענוח שונות, ומשיגה שיעורי שגיאה נמוכים מ-10% ב-78% מהשפות הנתמכות.

פריצת דרך לקהילות עם שפות נדירות

אחת ההשפעות המרכזיות של Omnilingual ASR היא האפשרות שהיא פותחת לקהילות שפה מוחלשות וקטנות.

עד כה, מרבית מערכות זיהוי הדיבור התמקדו בשפות עם משאבים דיגיטליים רבים, דבר שהותיר בחוץ מיליוני דוברי שפות נדירות, שפות ילידים ושפות בסכנת הכחדה.

המערכת החדשה של מטא משנה את המצב הזה על ידי מתן האפשרות לקהילות להוסיף את השפה שלהן בעצמן.

הטכנולוגיה מבוססת על יכולת in-context learning שאימצה מתחום מודלי השפה הגדולים.

בפועל, משמעות הדבר היא שדובר שפה שאינה נתמכת יכול לספק רק קומץ דוגמאות של אודיו וטקסט מותאמות, ולקבל איכות תמלול שימושית – ללא צורך במאגרי נתונים עצומים, מומחיות טכנולוגית מורכבת או גישה לכוח מחשוב מתקדם.

למרות שהביצועים של המערכת במצב למידה zero-shot, לשפות שהכלי לא ראה מעולם, אינם תואמים עדיין למערכות שמאומנות במלואן, הגישה הזו מציעה דרך הרבה יותר נגישה להוספת שפות חדשות.

Introducing Meta Omnilingual Automatic Speech Recognition (ASR), a suite of models providing ASR capabilities for over 1,600 languages, including 500 low-coverage languages never before served by any ASR system.

While most ASR systems focus on a limited set of languages that are… pic.twitter.com/D6Xv6c1MLy

— AI at Meta (@AIatMeta) November 10, 2025

ארכיטקטורה וביצועים

המערכת מורכבת משני רכיבים עיקריים: מקודד דיבור מבוסס wav2vec 2.0 שהורחב לראשונה ל-7 מיליארד פרמטרים, המייצר ייצוגים סמנטיים עשירים ורב-לשוניים מתוך נתוני דיבור גולמיים וללא תמלול.

לאחר מכן, שני מפענחים שונים ממפים את הייצוגים הללו לתווים: הראשון מסתמך על CTC (ר”ת Connectionist Temporal Classification) מסורתי, והשני משתמש במפענח טרנספורמר (Transformer) שנפוץ במודלי שפה גדולים, הידוע בשם LLM-ASR.

מבחינת ביצועים, המערכת הגדולה ביותר במשפחה, omniASR_LLM_7B, משיגה שיעור שגיאות תווים (CER) נמוך מ-10% ב-95% מהשפות עם משאבים רבים ובינוניים, וב-36% מהשפות עם משאבים מועטים.

המערכת אומנה על למעלה מ-4.3 מיליון שעות אודיו מ-1,600+ שפות, ומציעה משפחת מודלים בגדלים שונים – ממודלים קלי משקל של 300 מיליון פרמטרים המיועדים למכשירים בעלי משאבים מוגבלים, ועד מודלים חזקים של 7 מיליארד פרמטרים המספקים דיוק ברמה הגבוהה ביותר.

זמינות

כלי ה-Omnilingual ASR החדש של מטא זמין תחת רישיון קוד פתוח: Apache 2.0 עבור המודלים והקוד, ו-CC-BY 4.0 עבור מאגר הנתונים.

הכלי זמין דרך Hugging Face ו-GitHub, כאשר ניתן להתנסות בדמו של יכולות התמלול באתר Hugging Face.

מטא משיקה מערכת זיהוי דיבור אוטומטית לתמלול ב-1,600 שפות בקוד פתוח

פריצת דרך לקהילות עם שפות נדירות

ארכיטקטורה וביצועים

זמינות

גאדג’טי מסקר: ASUS ROG Zephyrus Duo 2026 - מפלצת עם 2 מסכי OLED

גאדג’טי מסקר: ASUS Zenbook A14 2026 - נייד Snapdragon X2 Elite עם 33 שעות סוללה

Apple iPhone 16 Pro

Apple iPhone 16 Pro Max

Google Pixel 8 Pro

Apple iPhone 15 Pro Max

מטא משיקה מערכת זיהוי דיבור אוטומטית לתמלול ב-1,600 שפות בקוד פתוח

פריצת דרך לקהילות עם שפות נדירות

ארכיטקטורה וביצועים

זמינות

עוקבים? כל החדשות מגאדג'טי >>

גאדג’טי מסקר: ASUS ROG Zephyrus Duo 2026 - מפלצת עם 2 מסכי OLED

גאדג’טי מסקר: ASUS Zenbook A14 2026 - נייד Snapdragon X2 Elite עם 33 שעות סוללה

Apple iPhone 16 Pro

Apple iPhone 16 Pro Max

Google Pixel 8 Pro

Apple iPhone 15 Pro Max