חוקרי אבטחה יצרו תולעת שנועדה להדביק מערכות AI

תמונה: Google Gemini

שלושה חוקרי אבטחה פיתחו את Morris II, תולעת “אפס קליקים” (Zero-click Worm) בעלת יכולת שכפול והפצה עצמית המיועדת לתקוף מערכות AI ולהדגים את הסכנות הטמונות בתחום כיום.

החוקרים הדגימו כי התולעת הצליחה לגנוב מידע אישי משירותי מייל שהשתמשו במודלי שפה גדולים LLM (ר”ת Large Language Models) ולהדגים כיצד הקלט של מודלי ה-AI יכול לשמש ככלי תקיפה כנגד המערכות עצמן.

“מירוץ החימוש” הגדול של חברות הטכנולוגיה בתחום הבינה המלאכותית הצליח להציג שיפורים דרמטיים ביכולות של פתרונות הבינה המלאכותיים השונים, אך בהרבה מקרים קיימת התעלמות מהסכנות של הבינה המלאכותית. לא מדובר על תרחישי Skynet הקיצוניים, אלא בשימוש של גורמים זדוניים בכלי ה-AI השונים או פשוט דליפות מידע כלי ה-AI השונים ותרחישים נוספים.

שלושת חוקרי האבטחה כוללים את סתיו כהן מהטכניון, רון ביטון מחברת Intuit ובן נשיא מאוניברסיטת קורנל, שיצרו תולעת שקיבלה את השם Morris II על שם תולעת ה-Morris המקורית שפיתח סטודנט מקורנל בשנת 1988, עם יכולת שכפול והפצה עצמית, דבר שגרם להגדרת ה-Morris II על ידי החוקרים כ”תולעת אפס קליקים” (Zero-click Worm) בזכות היכולת לשכפל את עצמה דרך מנגנוני פתרונות ה-AI השונים ללא צורך בפעולה כלשהי מהמשתמשים המותקפים.

כחלק מהמחקר שלהם, החוקרים השתמשו בתולעת אותה פיתחו על שלושה מודלי AI גדולים ופופולריים: Gemini Pro של גוגל, ChatGPT 4.0 של OpenAI ו-LLaVA, על מנת לתקוף את המודלים שהיו בשימוש כעוזרים של מערכות אימייל. התולעת הצליחה לגנוב מהם פרטיים אישיים של המשתמשים ולהפיץ ספאם שעקף את המנגנונים הקיימים שנועדו למנוע אותו.

בצורה הפשוטה ביותר, החוקרים הדגימו כיצד ניתן לנצל את מודלי ה-AI למטרות זדוניות עם מתקפה הדומה ל”הזרקת SQL” על ידי יצירה של קלט (Promt) טקסטואלי זדוני מיוחד, adversarial self-replicating prompt, המוסווה כקלט סטנדרטי שאותו עיבדו מודלי ה-AI השונים, וכתמונות שהכילו קלט זדוני בתוכן על מנת לגרום למודלים להחזיר אליהם מידע פרטי של משתמשים מהמייל ולהפיץ את התמונות הזדוניות הלאה כאשר הן מדלגות על האבטחה המובנת בשירותי המייל.

דוגמה רלוונטית במיוחד שניתנה נגעה להפצת מייל בחירות שמצליח לעקוף את מנגנון הספאם המובנה במייל.

על אף שעדיין לא נצפו תולעים שנוצרו על מנת להדביק מערכות AI, עבודת המחקר החדשה מציגה את הסכנות הטמונות בפיתוחים המהירים בתחום הבינה המלאכותית ללא יצירת אמצעי אבטחה מתאימים, שיוכלו למנוע מגורמים זדוניים לעקוף אמצעי אבטחה קיימים או “להרעיל” את מודלי ה-AI על ידי החדרת קוד זדוני שיוכל להיטמע בהם.

ניתן ללמוד עוד על התועלת אותה פיתחו חוקרי האבטחה באתר ComPromptMized הרשמי, לבחון את הקוד ב-GitHub ולקרוא גם את עבודת המחקר המלאה שלהם (PDF).

השוואת מפרטים