צוות חוקרי בינה מלאכותית בגוגל (Google) פיתחו מודל AI חדש בשם MusicLM, מחולל מוזיקה מבוסס טקסט המסוגל לייצר קטעי מוזיקה שונים וארוכים למדי בהתאם לקלט מהמשתמש, שיכול להגיע בז’אנר מוזיקלי מסויים, עם כלי נגינה או מוזיקה שמיוצרת בהתאם להסבר ארוך ומפורט הרבה יותר. בדומה לאופן בו השפיעו מחוללי התמונות על תחום האומנות, נראה כי השלב הבא יהיה עולם המוזיקה.
אחד הנושאים ה”חמים” בתחום הבינה המלאכותית בתקופה האחרונה הוא “מחוללים”, מודלי בינה מלאכותית המסוגלים לייצר תוכן חדש על סמך קלט מהמשתמש, כאשר רובנו מכירים כבר מחוללי תמונות מבוססי טקסט כמו ה-DALL·E 2 של OpenAI או את המחולל מבוסס התמונות AI Time Machine של חברת My Heritage ומחוללים נוספים.
כאן נכנס למעשה מודל ה-MusicLM החדש של גוגל. ובעוד שלא מדובר על המודל הראשון בעולם שמיועד לייצור מוזיקה, נכון להיום כנראה מדובר על המודל המתקדם ביותר בתחום, שמצליח לייצר מוזיקה מורכבת למדי ב-24kHz אחרי שאומן על 280 אלף שעות של מוזיקה.
המודל מסוגל לייצר כיום קטעי מוזיקה ארוכים יחסית של מספר דקות ואף להוסיף להם ולייצר קטעים ווקאלים על אף שהם פחות מפותחים מאשר מוזיקה בלבד.
דוגמאות לייצור מוזיקה עם MusicLM
בדומה למחוללי תמונות אחרים, גם במקרה של ה-MusicLM יותר קל לשמוע על מנת להבין מה מחולל המוזיקה החדש מסוגל לעשות.
בגוגל העלו מספר רב מאוד של דוגמאות על מנת להציג את היכולות של מודל הבינה המלאכותית החדש עם דגש על מספר רב של מצבי יצירה כמו:
- מוזיקה מבוססת טקסט עשיר (בתרגום חופשי לעברית) – “פס הקול הראשי הוא של משחק ארקייד, קצבי ואופטימי, עם ריף גיטרה חשמלית קליט. המוזיקה חוזרת על עצמה וקלה לזכור, אבל עם צלילים בלתי צפויים, כמו התרסקות מצלתיים או תופים”.
- “מצב סיפור” (Story Mode) – מוזיקה המיוצרת על ידי רצף הנחיות טקסט קצרות עם פרקי זמן דוגמת:
- זמן למדיטציה (0:00-0:15)
- זמן לקום (0:15-0:30)
- זמן לרוץ (0:30-0:45)
- זמן לתת 100% (0:45-0:60)
- “תקופות” (Epochs) – “מועדון בשנות ה-80”.
בניגוד למודלי בינה מלאכותית אחרים הקיימים בשוק, שכבר זמינים למשתמשים לפחות באופן חלקי, מודל ה-MusicLM החדש עדיין אינו נגיש “לציבור”, אך כפי שלמדנו לא פעם בתקופה האחרונה, סביר להניח שנראה מחוללי מוזיקה אחרים שיוכלו לייצר מוזיקה ברמה הדומה לזו של MusicLM כבר בעתיד הקרוב.