בקוד פתוח: מטא מציגה את מחולל האודיו AudioCraft

מחולל האודיו AudioCraft (מקור מטא) מחולל האודיו AudioCraft (מקור מטא)

מטא (Meta) הכריזה על AudioCraft, פתרון בינה מלאכותית חדש בקוד פתוח ליצירת קטעי מוזיקה ואודיו המשלב בין שלושה מודלי בינה מלאכותיים אחרים של החברה, שנועד להיות פתרון “הכל באחד” בעבור משתמשים המעוניינים לייצר מוזיקה ושמע בהתאם לקלט שיוזן.

תחום הבינה המלאכותית ממשיך להיות התחום החם הגדול בעולם הטכנולוגי, עם מגוון פתרונות בינה מלאכותית גנרטיבית, בהם מודולי שפה כמו Llama 2 של מטא ומיקרוסופט או GPT-4 של OpenAI ומחוללי תמונות דוגמת Midjourney. חברות רבות מפתחות מחוללים בתחומים נוספים, בהם מחוללי אודיו מבוססי טקסט כמו MusicGen של מטא או MusicLM של גוגל.

על מנת לנסות לקדם את תחום מחוללי המוזיקה והאודיו מבוססי הטקסט, מטא יצרה את AudioCraft, פתרון בינה מלאכותית ליצירת קטעי מוזיקה ואודיו המבוסס על קוד פתוח (GitHub) ומיועד לסייע לקידום פיתוח תחום מחוללי האודיו והמוזיקה, כאשר הוא מורכב משלושה מודולי בינה מלאכותיים שונים:

  • מודל ה-MusicGen – מחולל מוזיקה מבוסס טקסט בקוד פתוח אותו החברה הציגה לפני כחודשיים, שאומן על 20,000 שעות של מוזיקה בבעלות מטא או ברישיון ספציפי למטרה זו.
  • מודל ה-AudioGen – מחולל אודיו מבוסס טקסט המאפשר ליצור אפקטים קוליים דוגמת כלב נובח, מכונית צופרת ועוד.
  • מודל ה-EnCodec – גרסה משופרת של מפענח (Decoder) המוזיקה EnCodec, המאפשר ליצור מוזיקה באיכות גבוהה ובצורה יעילה יותר.
תרשים זרימה של מחולל האודיו AudioCraft (מקור מטא)
תרשים זרימה של מחולל האודיו AudioCraft (מקור מטא)

קוד המקור של AudioCraft זמין באתר GitHub, וניתן להתנסות במודל ה-MusicGen באתר Hugging Face.

השוואת מפרטים