אינטל (intel), בשיתוף פעולה עם Blockade Labs, הכריזה על פיתוח ה-LDM3D (ר”ת Latent Diffusion Model for 3D), מודל בינה מלאכותית גנרטיבית המסוגל לייצר “תמונה תלת מימדית אינטראקטיבית” מתיאורי טקסט באמצעות צמד כלים יעודיים בשם DepthFusion ו-TouchDesigner למגוון רחב של שימושים.
עם פריחת תחום הבינה המלאכותית בתקופה האחרונה זכינו לראות מגוון עצום למדי של פתרונות Generative AI עם מחוללי תמונות, וידאו ואף מוזיקה.
בעוד שניתן לייצר תמונות ווידאו בקלות יחסית בהתבסס על קלט טקסטואלי, בסופו של דבר מדובר על מדיה דו-מימדית וחסרת עומק, דבר אותו החברות רוצות לשנות עם מודל ה-LDM3D החדש.
מודל ה-LDM3D מתבסס על גרסה מותאמת של מודל ה-stable diffusion V1.4 שעברה אימון עם דאטה סט עצום של תמונות ותיאורים בשם Laion400M על גבי מערכות המשתמשות במעבדי ה-Xeon ו-Habana Gaudi של אינטל, זאת על מנת לאפשר למודל ליצור תמונה דו-מימדית רגילה עם מפת עומק (depth map), מידע בו משתמש כלי ה-DepthFusion היעודי שפותח לתצוגת 360° תלת-מימדית, כאשר כלי נוסף בשם TouchDesigner מאפשר להפוך אותה לאינטראקטיבית.
על ידי שימוש בכלי ה-DepthFusion ו-TouchDesigner, משתמשים ומפתחים יוכלו ליצור בקלות תוכן תלת-מימדי וירטואלי לשימושים שונים כמו משחקי וידאו ופתרונות מציאות מדומה, כאשר קלט דוגמת “חוף טרופי שליו עם שמים כחולים בהירים” יצר למעשה “עולם” וירטואלי תואם.
קוד מודל ה-LDM3D זמין למפתחים באתר Hugging Face.
הסבר וידאו רשמי: