גוגל (Google) הכריזה על Gemini 2.5 Computer Use, מודל בינה מלאכותית חדש המסוגל לנווט ולבצע פעולות בדפדפן אינטרנט באופן עצמאי.
המודל החדש, המבוסס על יכולות ההבנה הוויזואלית וההיגיון של Gemini 2.5 Pro, מאפשר לסוכני AI לבצע משימות מורכבות דרך ממשקי משתמש גרפיים, כמו מילוי טפסים, ניווט באתרים וארגון מידע.
מודל ה-Gemini 2.5 Computer Use מגיע כמענה לפיתוחים של חברות טכנולוגיה אחרות בתחום סוכני ה-AI המתקדמים, דוגמת ה-ChatGPT Agent של OpenAI.
בניגוד למודלי שימוש אחרים הקיימים כיום בשוק, המודל החדש של גוגל מוגבל בשלב הנוכחי לגלישה בדפדפן בלבד – ולא לסביבת מחשב שלמה.
אופן הפעולה
מודל Gemini 2.5 Computer Use מפעיל מנגנון לולאה המתבצעת עד להשלמת המשימה.
התהליך כולל ארבעה שלבים עיקריים:
- שליחת בקשה למודל הכוללת צילום מסך של הסביבה והיסטוריית פעולות קודמות
- ניתוח הבקשה על ידי המודל והחזרת תגובה בצורת פעולת UI
- ביצוע הפעולה על ידי הקוד בצד הלקוח
- שליחת צילום מסך מעודכן חזרה למודל.
המודל תומך ב-13 פעולות שונות, כולל פתיחת דפדפן, הקלדת טקסט, קליקים, גלילה, גרירה ושחרור אלמנטים, ניווט לכתובות URL ספציפיות, חיפוש ברשת, ניווט קדימה ואחורה בהיסטוריית הדפדפן ושילובי מקלדת.

דוגמאות שימוש ויכולות
גוגל הדגימה את יכולות המודל במספר תרחישים, ובהם הפרומפט הבא (בתרגום חופשי לעברית):
מהכתובת https://tinyurl.com/pet-care-signup, קבל את כל הפרטים עבור כל חיית מחמד עם מקום מגורים בקליפורניה והוסף אותם כאורח במערכת ניהול קשרי הלקוחות של הספא שלי בכתובת https://pet-luxe-spa.web.app/. לאחר מכן, קבע תור ביקור המשך עם המומחית Anima Lavar ל-10 באוקטובר בכל שעה אחרי 8 בבוקר. הסיבה לביקור זהה לטיפול המבוקש שלהם.
ביצועים והשוואה למתחרים
לפי גוגל, Gemini 2.5 Computer Use מציג ביצועים מובילים במספר מדדי השוואה לשליטה בדפדפן ובמכשירים ניידים, כאשר הוא עולה בביצועים על מודלי Claude של אנתרופיק והסוכן של OpenAI.
המודל מצליח להצגי ביצועים מובילים בתחום השליטה בדפדפן עם זמן האחזור הנמוך ביותר, כפי שנמדד בביצועים על מערכת הבדיקות של Browserbase עבור Online-Mind2Web.

זמינות למפתחים
מודל ה-Gemini 2.5 Computer Use זמין כעת בתצוגה מקדימה דרך ממשק ה-Gemini API ב-Google AI Studio וב-Vertex AI.
בנוסף, קיימת הדגמה באתר Browserbase, שם ניתן לצפות במודל משלים משימות שונות כמו משחק 2048 או דפדוף ב-Hacker News לחיפוש דיונים פופולריים.