גוגל חושפת את Titans ו-MIRAS: ארכיטקטורת AI עם זיכרון ארוך טווח

שלט בחנות גוגל בניו-יורק צילום: רונן מנדזיצקי

גוגל פרסמה לאחרונה פרטים מלאים על ארכיטקטורת Titans ועל המסגרת התיאורטית החדשה MIRAS, המציעות פתרון לאחד האתגרים המרכזיים בתחום הבינה המלאכותית – מודלים שממשיכים ללמוד במהלך השימוש ושומרים על זיכרון ארוך טווח.

הטכנולוגיה מאפשרת למודלי AI לעבד הקשרים ארוכים במיוחד ולעדכן את הזיכרון המרכזי שלהם תוך כדי פעולה, ללא צורך באימון מחדש.

ההכרזה מגיעה כשנה לאחר שגוגל פרסמה לראשונה את המאמר המדעי על Titans, והיא מייצגת התקדמות משמעותית בניסיונות להתגבר על המגבלות של מודלי Transformer המסורתיים.

מודלים אלה נתקלים בקשיים כאשר הם מעבדים טקסטים ארוכים כמו ספרים שלמים, מסמכים מקצועיים או אפילו רצפי DNA, מכיוון שהעלות החישובית גדלה באופן דרמטי ככל שאורך הטקסט גדל.

למידה בזמן אמת במקום דחיסה

Titans מציגה גישה חדשנית המבוססת על הפרדה בין זיכרון קצר טווח לזיכרון ארוך טווח, בדומה למוח האנושי.

בעוד שמנגנוני Attention מצטיינים בזיכרון מדויק לטווח קצר, Titans מוסיפה מודול זיכרון ארוך טווח שפועל כרשת נוירונים עמוקה, ולא כמצב פשוט בגודל קבוע.

המודל לא רק שומר מידע באופן פסיבי – הוא לומד באופן אקטיבי מה חשוב ומה פחות, תוך כדי עבודה.

המפתח להצלחה הוא מנגנון ה”הפתעה” – המודל מזהה מתי מידע חדש שונה משמעותית ממה שהוא כבר יודע, ורק אז הוא שומר אותו בזיכרון הקבוע.

בדומה לאופן שבו אנשים זוכרים אירועים מפתיעים או בלתי צפויים הרבה יותר טוב מאירועים שגרתיים, כך גם Titans נותנת עדיפות למידע בלתי צפוי.

המודל גם יודע לשכוח – הוא משתמש במנגנון שמאפשר לו להשליך מידע שכבר לא רלוונטי, כדי לפנות מקום למידע חדש וחשוב יותר.

Titans (מקור גוגל)
Titans (מקור גוגל)

MIRAS: מסגרת מאחדת לכל מודלי ה-AI

MIRAS היא מסגרת תיאורטית שמאחדת את רוב מודלי ה-AI תחת גישה אחת שפותרת את אותה בעיה יסודית: כיצד לשלב מידע חדש עם זיכרונות ישנים מבלי לאבד מושגים חיוניים.

המסגרת מגדירה כל מודל רצפי לפי ארבע שאלות עיצוב מרכזיות: מהו מבנה האחסון (וקטור, מטריצה או רשת עמוקה)? מה הכלל הפנימי שקובע מה נשמר? כמה מהר מידע חדש מחליף מידע ישן? ואיזה אלגוריתם משמש לעדכון הזיכרון?

באמצעות גישה זו, גוגל יצרה שלוש גרסאות שונות של מודלים:

  • YAAD – מודל עמיד במיוחד לטעויות חריגות, שמשתמש בגישה מתמטית רכה יותר לטיפול בשגיאות. זה הופך אותו לאידיאלי למצבים שבהם הנתונים לא מושלמים או מכילים טעויות.
  • MONETA – מודל שמשתמש בכללים מתמטיים מחמירים יותר, מה שמוביל למערכת זיכרון חזקה ויציבה יותר לאורך זמן.
  • MEMORA – מודל שמתמקד ביציבות מקסימלית על ידי כך שהוא מאלץ את הזיכרון לפעול כמפה הסתברותית מדויקת, מה שמבטיח עדכונים מבוקרים ומאוזנים.

ביצועים מרשימים בבדיקות

בבדיקות מעבדה נרחבות, Titans הצליחה לעבוד עם חלונות הקשר של יותר מ-2 מיליון טוקנים – שווה ערך לאלפי עמודים של טקסט.

במבחן BABILong, שבודק את היכולת לחבר מידע מפוזר במסמכים ארוכים במיוחד, Titans עלתה על מודלים גדולים הרבה יותר כמו GPT-4, למרות שיש לה פחות פרמטרים.

המודל גם הצליח להשיג דיוק של מעל 95% במבחן “Needle in the Haystack” – מטלה שבה צריך למצוא פיסת מידע ספציפית בתוך טקסט ארוך של 16,000 טוקנים.

צעד לעבר AI שלומד כל הזמן

בהקשר הרחב יותר, העבודה של גוגל על Titans ו-MIRAS נוגעת בכמה מהמאפיינים שמחקר הבינה המלאכותית מזהה זה שנים כחיוניים למודלים כלליים יותר, בהם למידה מתמשכת, זיכרון ארוך טווח שאינו תלוי בחלון הקשר והיכולת לשלב מידע חדש מבלי לפגוע בידע קיים.

למרות שגוגל לא מציגה את הטכנולוגיות כצעד לעבר בינה מלאכותית כללית (AGI), ההתמקדות בבעיות היסוד הללו ממקמת את המחקר הנוכחי כחלק מהניסיונות להתגבר על מגבלות עמוקות שמפרידות כיום בין מודלי שפה מתקדמים לבין מערכות בינה מלאכותית כלליות באמת.

ההכרזה על Titans ו-MIRAS מייצגת התקדמות משמעותית לעבר מודלי AI שממשיכים ללמוד ולהשתפר תוך כדי שימוש, במקום להישאר “קפואים בזמן” לאחר האימון הראשוני.

השוואת מפרטים