מודל Add-it החדש של אנבידיה מוסיף אובייקטים לתמונות בקלות

Add-it (מקור אנבידיה)

צוות חוקרים מאנבידיה (NVIDIA), אוניברסיטת תל אביב ואוניברסיטת בר אילן הציג במהלך כנס הבינה המלאכותית ICLR 2025 המתקיים בסינגפור את Add-it, מחולל תמונות המסוגל להוסיף מגוון רחב של פריטים לתמונות אמיתיות או כאלו שנוצרו על ידי AI ללא צורך באימון מיוחד או אופטימיזציה.

בזמן שניתן למצוא כיום מגוון רחב של מודלי AI ליצירת תמונות, אחת ממשימות העריכה הקשות עדיין בעבור מודלי AI רבים היא הוספת אובייקטים לתמונות קיימות או כאלו שנוצרו על ידי המחוללים עצמם, אובייקטים דוגמת פריטי לבוש, לוגואים, בעלי חיים ועוד, תוך כדי שהם משתלבים בצורה טבעית ותקינה בתמונה הקיימת.

מודל Add-it החדש של אנבידיה מציע גישה חדשה ונטולת אימון באמצעות מנגנון “קשב” (attention) לביצוע דיפוזיה של טקסט-לתמונה (text-to-image diffusion) משלושה מקורות שונים: התמונה המקורית, פרומפט הטקסט עם השינוי הרלוונטי והתמונה שנוצרה.

לפי החוקרים, גישה זו מבטיחה עקביות ומיקום ריאליסטי של האובייקט בתמונה עם “מדד יכולת ההוספה” (Additing Affordance Benchmark) כדי להעריך את סבירות מיקום האובייקט שתרצו להוסיף לתמונה.

דוגמאות להוספת אוביקטים לתמונות עם Add-it (מקור אנבידיה)
דוגמאות להוספת אוביקטים לתמונות עם Add-it (מקור אנבידיה)

פרופסור גל צ’צ’יק, מנהל מרכז מחקרי הבינה המלאכותית של NVIDIA בישראל, ומי שעומד מאחורי המחקר ביחד עם יועד תבל, רינון גל, דביר שמואל, יובל עצמון וליאור וולף – חוקרים מאנבידיה, אוניברסיטת תל אביב ואוניברסיטת בר אילן, מסביר:

הוספה של פריט חדש לתמונות באמצעות פרומפט היא משימה מאתגרת שדורשת איזון עדין בין שמירה על הסצנה המקורית לבין שילוב של הפריט החדש בנראות מתאימה ובמקום המתאים.

מודלים קיימים מתקשים למצוא את האיזון הזה. בשביל לפתור את הבעיה, הרחבנו את מנגנון ה-Attention של מודל הבינה המלאכותית כך שישלב מידע משלושה מקורות – התמונה המקורית, הפרומפט הטקסטואלי והתמונה הסופית. בבדיקות שערכנו, בני אדם העדיפו את התוצאות של Add-it על פני שיטות אחרות ב-80% מהמקרים

ניתן ללמוד עוד על Add-it בעמוד הבית הרשמי ו-GitHub ולקרוא את עבודת המחקר המלאה ב-arXiv.

השוואת מפרטים