גוגל משיקה זירת משחקים למדידת ביצועי בינה מלאכותית

מגרש המשחקים ל-AI של גוגל ב-Kaggle תמונה: Google

גוגל הכריזה על Kaggle Game Arena – פלטפורמת קוד פתוח חדשה המיועדת להערכה דינמית, שקופה ומבוססת-משחקים של ביצועי מודלי בינה מלאכותית מתקדמים.

במסגרת זירת המשחקים, מודלי AI יכולים להתחרות ראש בראש בסדרת משחקים אסטרטגיים, החל ממשחק השחמט, במטרה לספק מדד מהימן וחדשני ליכולותיהם.

לטענת גוגל, המדדים הקיימים כיום בתחום הבינה המלאכותית אינם מצליחים לשקף באופן מדויק את היכולות של מודלי ה-AI החדשים ביותר.

בעוד שמבחנים סטנדרטיים הפכו לקלים מדי עבור מודלים מתקדמים, ושיטות מבוססות שיפוט אנושי נוטות לסובייקטיביות, על פי גוגל המשחקים מציעים סביבת הערכה בעלת כללים ברורים, הצלחה אותה ניתן למדוד ואתגר משתנה שמספק תובנות משמעותיות לגבי תהליכי החשיבה האסטרטגית והיכולת להסתגל למצבים דינמיים.

איך זה עובד?

Game Arena פועלת על גבי תשתית Kaggle ומורכבת ממספר רכיבים:

  • סביבת המשחק (Environment): מגדירה את מטרות המשחק, החוקים וממשק הפעולה של המודלים עם העולם.
  • מנגנון הפעלה (Harness): קובע אילו נתונים יקבל המודל ואיך יישלחו החלטותיו חזרה למשחק. למשל, תיאור מהלך בטקסט.
  • תצוגה ויזואלית (Visualizer): מאפשרת לצפות במהלך המשחק ולהבין את האסטרטגיה מאחורי כל מהלך.
  • לוחות דירוג (Leaderboards): מדרגים את המודלים לפי מדדים כמו Elo.

משחק שחמט בין מודלי AI

ההשקה הרשמית של Game Arena כוללת טורניר שחמט תחרותי בן שלושה ימים (5-7 באוגוסט), במהלכו יתמודדו שמונה ממודלי ה-AI המובילים בעולם, כולל:

  • Claude Opus 4 (Anthropic)
  • Gemini 2.5 Pro ו-Gemini 2.5 Flash (Google)
  • Grok 4 (xAI)
  • o3 ו-o4-mini (OpenAI)
  • DeepSeek R1 (DeepSeek)
  • Kimi-K2 (Moonshot AI)

המשחקים מתקיימים בפורמט של הדחות ישירות (single elimination) כאשר כל מפגש מורכב מארבעה משחקים לכל היותר.

ניתן לצפות בשידורים החיים באתר Kaggle Game Arena, עם פרשנות חיה של שחקנים בכירים כמו היקארו נקמורה, לוי רוזמן ומגנוס קרלסן.

כדי להתאים את הפורמט למודלים מבוססי שפה, המהלכים מתבצעים בטקסט, ללא שימוש בכלים חיצוניים כמו Stockfish וללא הצגת כל המהלכים החוקיים האפשריים. אם מודל מציע מהלך לא חוקי, יש לו עד שלוש הזדמנויות לתקן, ולאחר מכן המשחק ייפסק וייחשב כהפסד.

לצד משחקי התצוגה בטורניר, מאחורי הקלעים מתבצעות מאות סימולציות בין כל זוג מודלים, במטרה לייצר דירוג סופי מבוסס סטטיסטיקה. כל המשחקים והקוד הפתוח שמריץ אותם זמינים לצפייה ושימוש, כחלק מהרצון של גוגל להציג שקיפות מלאה.

המשחקים שיגיעו בהמשך

מעבר לשחמט, גוגל וקאגל מתכננות להרחיב את מגוון המשחקים שיכללו בזירה, כולל Go, פוקר, משחקי וידאו ואפילו סימולציות מרובות משתתפים שיבחנו יכולות כמו שיתוף פעולה, תכנון ארוך טווח, זיכרון, הונאה ואף הבנה של כוונות היריב (theory of mind).

בהמשך צפויים טורנירים עם סוגי קלט שונים (למשל קלט חזותי במקום טקסטואלי), ויוזמות שיאפשרו לחוקרים, מפתחים ואקדמיה להציע משחקים וסביבות מבחן משלהם.

Game Arena הוא ניסיון שאפתני לבנות מדד אמין, דינמי ופתוח ליכולות אסטרטגיות של מודלי AI, כזה שעשוי לשמש כבסיס להשוואה, הבנה והתקדמות בתחום הבינה המלאכותית, לפחות לפי הגדרתה של גוגל.

השוואת מפרטים