FAIR (ר”ת Fundamental AI Research), קבוצת מחקר ה-AI של מטא (Meta), הציגה אוסף מודלי בינה מלאכותיים חדש הכולל את מחולל האודיו JASCO שמסוגל לייצר אודיו בהתבסס על טקסט ואודיו, את מודל ה-Chameleon המעורב, המסוגל לעבד ולייצר טקסט או תמונה בכל שילוב אפשרי ביניהם, את ה-Multi-token prediction לחיזוי מרובה מילים ואת ה-AudioSeal להוספת “סימן מים” לקטעי שמע לזיהוי תוכן שעבר שינוי על ידי בינה מלאכותית.
JASCO – מחולל אודיו מבוסס אודיו וטקסט
מודל ה-JASCO, או בשמו המלא (והארוך מאוד) Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation, הוא מודל אודיו שפותח על ידי חוקרי מטא והאוניברסטיה העברית, בהם יוסי עדי, אור טל, אלון זיו ופליקס קרויק, המציע אפשרות ליצור אודיו בהתבסס על קטעי שמע קיימים, עם אפשרות להוסיף התניות והנחיות ספציפיות כמו סגנונות וכלי נגינה, זאת בניגוד למודלי אודיו אחרים, בהם ה-MusicGen של מטא, המתבססים על טקסט בלבד ליצירת אודיו.
ניתן לשמוע דוגמאות למודל ה-JASCO באתר הרשמי של האוניברסיטה העברית, בהן עיבוד R&B עם תופים וחצוצרה לאגם הברבורים, או גרסת ג’אז לפתיחת האופרה כרמן, כאשר החברה צפויה לשחרר את המודל ואת קוד המקור שלו בהמשך.

Chameleon – מודל טקסט/תמונה מעורב
מודל ה-Chameleon (“זיקית”) של מטא מגיע כמשפחת מודלים מעורבים בין טקסט ותמונות על כלל השילובים האפשרים ביניהם, כמו טקטס לטקסט, טקסט לתמונה, תמונה לטקסט, טקסט לתמונה וטקסט וכו’.
בניגוד למודלים אחרים המשתמשים בדיפוזיה (diffusion) ללמידה, המודל החדש משתמש בטוקניזציה מאוחדת עבור טקסט ותמונות יחד, דבר המאפשר טווח רחב במיוחד של שימושים.
מודל ה-Chameleon נחשב כרגע על ידי מטא כמודל עם סיכון מסויים לגבי יכולות היצירה שלו, מה שהוביל את החברה לשחרר חלק מהרכיבים של המודל בגרסת 7 ו-34 מיליארד פרמטרים עם תמיכה בקלט מעורב, אבל קלט טקסטואלי בלבד למטרות מחקר בלבד.
קישורים רלוונטים: מחקר Chameleon, בקשת גישה ל-Chameleon.
Multi-token prediction – חיזוי מרובה אסימונים
אחד מהשימושים הגדולים של מודלי השפה הקיימים הוא חיזוי המילה הבאה. נשמע פשוט למדי ליישום, אך מאוד לא יעיל לאור כמות הלמידה הדרושה על מנת לקבל תוצאות ברמה גבוהה.
עם המודל החדש מטא משנה את צורת העבודה ובמקום לנחש ולחזות את המילה הבאה, הוא משתמש בריבוי אסימונים על מנת לחזות מספר מילים עתידיות בו זמנית, דבר שהופך את המודל ליעיל ומהיר יותר בהשוואה לפתרונות אחרים.
מודל ה-Multi-token prediction החדש של מטא זמין ב-Hugging Face לשימוש לא-מסחרי ולמטרות מחקר.
AudioSeal – “סימן מים” לאודיו שנוצר על ידי AI
אחת הבעיות הגדולות ביותר שמגיעות עם השימוש במודלי AI השונים היא היכולת ליצור תמונות, וידאו או שמע מזוייפים, שיכולים להערים על אנשים ולגרום להם לחשוב כי מדובר על תוכן אמיתי, או במילים אחרות דיפ-פייק (“זיוף עמוק”).
כחלק מהניסיון של מפתחים למנוע שימוש לרעה בכלי ה-AI קיימות מספר טכניקות “סימון מים” המאפשרות לזהות כי מדובר על תוכן “מזוייף” שנוצר על ידי AI.
במקרה של AudioSeal מדובר לפי החברה על “סימן המים” הראשון שנוצר לסימון קבצי אודיו, כאשר הוא מהיר ויעיל יותר לעומת טכניקות זיהוי שמע אחרות עם סימון קבצי אודיו שנערכו או נוצרו על ידי AI.
AudioSeal משוחרר תחת רישיון מסחרי וזמין ב-GitHub.
