מטא (Meta) הכריזה על מודל הבינה המלאכותית SeamlessM4T או Massively Multilingual & Multimodal Machine Translation (“מודל תרגום מכונה רב לשוני מסיבי ורב-מודלים”), המאפשר תרגום של עד 100 שפות כתובות ופלט קולי ב-35 שפות שונות.
מחסום השפה הוא אחת מהבעיות הגדולות בדרך לתקשורת חופשית בין אנשים, כאשר ניתן למצוא כיום פתרונות תרגום מרובים, בהם שירות ה-Google Translate המוכר של גוגל.
עם זאת, ה”חלום” הגדול בתחום התרגום הוא יצירת “דג בבל” (Babel Fish) – פתרון תרגום אוניברסלי שהוצג בספר המד”ב “מדריך הטרמפיסט לגלקסייה”.
מודל ה-SeamlessM4T החדש מצטרף למודל ה-NLLB (ר”ת No Language Left Behind) אותו הציגה מטא בשנה שעברה כניסיון ליצור פתרון תרגום אוניברסלי באמת.
המודל החדש מטפל במגוון תרחישי תרגום בין דיבור וטקסט, עם תמיכה במספר גבוה של שפות, בהן זיהוי דיבור וכתב בעברית, אך ללא אפשרות לפלט קולי בשפה העברית.
המודל נועד להיות פתרון תרגום “מלא” המאפשר:
- זיהוי דיבור (Speech recognition) – זיהוי של כ~100 שפות.
- תרגום דיבור לטקסט (Speech-to-text) – תרגום של כ~100 שפות כקלט ופלט.
- תרגום דיבור לדיבור (Speech-to-speech) – קלט של כ~100 שפות שונות ותרגום ל-36 שפות שונות.
- תרגום טקסט לטקסט (Text-to-text) – תרגום של כ~100 שפות.
- תרגום טקסט לדיבור (Text-to-speech) – קלט של כ~100 שפות עם ותרגום ל-35 שפות שונות.

ניתן לראות את קוד מודל ה-SeamlessM4T באתר GitHUB, עם דמו רשמי באתר היעודי של החברה ואפשרות להתנסות בשימוש במודל דרך אתר Hugging Face.