מטא מציגה את SAM Audio – מודל AI להפרדה וחיתוך של סאונד

SAM Audio (מקור מטא) SAM Audio (מקור מטא)

⭐ נקודות עיקריות

  • מודל מאוחד ראשון להפרדת אודיו (Audio Separation) באמצעות הנחיות מולטי-מודאליות.
  • מאפשר בידוד צלילים ספציפיים מתערובות שמע מורכבות באמצעות טקסט, רמזים ויזואליים בוידאו, או סימון מקטעי זמן.
  • מופעל על ידי מנוע טכני חדש בשם Perception Encoder Audiovisual (PE-AV) המשלב ראייה ושמיעה ממוחשבת.
  • המודל זמין להתנסות בפלטפורמת Segment Anything Playground.

חברת מטא הכריזה על SAM Audio, מודל בינה מלאכותית חדש המצטרף למשפחת Segment Anything (להלן SAM) של החברה, ומיועד להפרדה וחיתוך של צלילים ספציפיים מתוך הקלטות אודיו מורכבות.

המודל החדש מציע יכולות עריכת אודיו מתקדמות באמצעות שימוש בהנחיות (Prompts) טבעיות, בממשק אינטואיטיבי הדומה לאופן בו אנשים מתקשרים עם צלילים.

SAM Audio מסוגל לבצע משימות שדרשו עד כה עבודה ידנית מורכבת בכלי עריכה מקצועיים, כמו בידוד צליל גיטרה מתוך הקלטת הופעה חיה, סינון רעשי רקע כמו תנועת רכבים מסרטון שצולם ברחוב, או הסרת הפרעות נקודתיות, דוגמת נביחות כלב, לאורך הקלטת פודקאסט שלמה.

שלוש שיטות הנחיה אינטואיטיביות

לדברי מטא, SAM Audio הוא המודל הראשון שתומך במספר אופני אינטראקציה לביצוע הפרדת שמע, במטרה לחקות את האופן שבו בני אדם תופסים סאונד.

המערכת מציעה שלוש שיטות עיקריות שניתן להשתמש בהן בנפרד או בשילוב:

  • הנחיית טקסט (Text Prompting): המשתמש יכול להקליד תיאור מילולי של הצליל הרצוי, כגון “נביחת כלב” או “שירה”, והמודל יבצע את ההפרדה.
  • הנחיה ויזואלית (Visual Prompting): במידה וישנו וידאו, ניתן ללחוץ על האדם המדבר או על החפץ המשמיע קול המופיע על המסך כדי לבודד את האודיו התואם לו. לדוגמה, בהקלטה של להקה, לחיצה על הגיטריסט תבודד את צליל הגיטרה בלבד.
  • סימון זמן (Span Prompting): מטא מציינת כי זוהי יכולת חדשנית בתעשייה, המאפשרת למשתמשים לסמן מקטעי זמן ספציפיים בהם מופיע הצליל המבוקש, כך שניתן לטפל בו לאורך ההקלטה כולה.

המנוע הטכני: PE-AV

בלב המודל פועלת ארכיטקטורת Flow-Matching Diffusion Transformer, המקבלת את תערובת האודיו וההנחיות ומייצרת את רצועות האודיו המבודדות.

את היכולות המולטי-מודאליות של SAM Audio מניע Perception Encoder Audiovisual (PE-AV), מנוע טכני שנבנה על בסיס מודל ה-Perception Encoder שמטא שיתפה מוקדם יותר השנה.

המנוע מאפשר מיצוי תכונות ברמת פריימים מסרטונים וסנכרון שלהן עם ייצוגי האודיו, מה שמאפשר למערכת להפריד במדויק מקורות קול המעוגנים ויזואלית בתמונה, כמו דוברים או כלי נגינה. PE-AV אומן על למעלה מ-100 מיליון סרטונים באמצעות למידה קונטרסטיבית רב-מודאלית בקנה מידה גדול.

מודל ה-SAM Audio החדש של מטא זמין כבר היום באתר Segment Anything Playground ולהורדה דרך GitHub ו-.

השוואת מפרטים