הזינו טקסט וצרו חיקוי קולי: מיקרוסופט מציגה את VALL-E

שלט לוגו של מיקרוסופט (צילום: רונן מנדזיצקי, גאדג'טי) צילום: רונן מנדזיצקי

לאחרונה נדמה כי לכל מקום אליו אנו פונים אנחנו שומעים עוד ועוד על מודלי AI שיכולים לעשות עבורנו דברים מדהימים, החל מיצירת תמונות ואווטארים מרשימים מהתמונות הקיימות שלנו, דרך יצירת תמונות שלמות על בסיס הזנת טקסט בלבד וכעת גם יצירה של חיקוי קולי של בני אדם בעזרת דגימת קול באורך של 3 שניות בלבד.

המודל VALL-E שחשפה מיקרוסופט מאפשר לדגום קטע אודיו בן 3 שניות ולהפיק באמצעותו חיקוי קולי של האדם עד לרמת הדרך בה הוא יאמר את הדברים ולא רק בחזרה עליהם.

כלומר, המודל יוכל להגיע לדיוק ברמת טון הדיבור או הרגשות שמביע האדם דרך קולו בזמן הדיבור, כך שקטע טקסט שתספקו יומר לדיבור של טקסט זה בקולו של האדם שנדגם. המודל מסוגל גם לשחזר את הסביבה בה דיבר האדם בקטע שנדגם, ולהפיק קול התואם לזה של אדם הנשוחח בטלפון או בתוך אולם גדול.

מבנה המודל VALL-E (באדיבות מיקרוסופט)
מבנה המודל VALL-E (באדיבות מיקרוסופט)

ל-VALL-E יש לא מעט שימושים, כמו למשל עריכת קטעי קול במהירות. חשבו על האפשרות שהקלטתם קטע קול לפודקאסט או וידאו וגיליתם טעות בדבר מה שאמרתם.

לכלי כמו VALL-E יש את הפוטנציאל לאפשר לכם לערוך את אותו קטע קול בקלות באמצעות הזנת הטקסט המתוקן וללא צורך בהקלטה קולית של הדברים שאמרתם מחדש, או לחלופין לאפשר לכם להזין את מה שתרצו לומר בטקסט ולתת לכלי לעשות את ההמרה לדיבור בקולכם. כמובן שלכלי כזה יש גם פוטנציאל לשימוש שלילי, כמו זיוף של קטעי קול ללא אישור מהאדם שאת דגימתו לקחתם.

מיקרוסופט מספקת מספר דוגמאות ליצירת קטעים קוליים מתוך דוגמאות קצרות של 3 שניות ורובן באמת מרשימות ונשמעות כתואמות היטב לקול של האדם שדיבר במקור, אך בחלק מהמקרים הצלחנו לזהות עיוותים שיכולים להוביל בקלות למסקנה כי מדובר בקטע קולי שלא נוצר על ידי אדם.

תוכלו להאזין לדוגמאות שמספקת מיקרוסופט בעמוד הפרויקט VALL-E באתר גיטהאב (מומלץ לא להשתמש בדפדפן ספארי, אנחנו חוינו באגים) – תגללו למטה.

במיקרוסופט מסבירים כי את המודל החדש הם אימנו על בסיס ספריית האודיו הקיימת Librilight שבנתה חברת מטא, הכוללת 60 אלף שעות של דיבור בשפה האנגלית מקולם של מעל 7,000 אנשים שונים

השוואת מפרטים