סמסונג הדגימה כיצד מודלי AI מיוחדים יכולים להיות חזקים ביותר גם בגדלים זעירים. Tiny Recursion Model (TRM), מודל בעל 7 מיליון פרמטרים בלבד מצליח להביס מודלים ענקיים כמו DeepSeek, o3-mini של OpenAI ו-Gemini 2.5 Pro בפתרון סודוקו, מבוכים ופאזלים של מבחן ARC-AGI.
בעוד שהמודל לא צפוי להחליף מודלי שפה גדולים (LLM) רגילים, הוא מציג חלופה זולה ויעילה יותר לבעיות ספציפיות ולא “כלליות” להן מיועדים מודלי AI רגילים.
המודל פותח על ידי Alexia Jolicoeur-Martineau, חוקרת בכירה ב-Samsung SAIT AI Lab במונטריאול, קנדה, והוצג במאמר מחקרי “Less is More: Recursive Reasoning with Tiny Networks”.
החוקרת הדגישה כי “הרעיון שחייבים להסתמך על מודלים גדולים שעלותם מיליוני דולרים כדי לפתור בעיות קשות הוא מלכודת”.
New paper ????: Tiny Recursion Model (TRM) is a recursive reasoning approach with a tiny 7M parameters neural network that obtains 45% on ARC-AGI-1 and 8% on ARC-AGI-2, beating most LLMs.
Blog: https://t.co/w5ZDsHDDPE
Code: https://t.co/7UgKuD9Yll
Paper: https://t.co/3m8ANhNMiw
— Alexia Jolicoeur-Martineau (@jm_alexia) October 7, 2025
ביצועים מרשימים למרות הגודל הזעיר
מודל ה-TRM השיג ציון של 45% במבחן ARC-AGI-1, שמודד כמה טוב מודלי AI פותרים פאזלים שקלים לבני אדם אך קשים למערכות בינה מלאכותית.
תוצאה זו קרובה לציון של GPT-5 (Low) ועולה על Gemini 2.5 Pro ו-Claude Opus 4. במבחן המתקדם יותר ARC-AGI-2, המודל השיג 8%, כשהוא שוב עולה על מודלי שפה גדולים וסגורים.
היתרון הבולט ביותר של TRM הוא בעלות: להשגת אותה תוצאה, העלות למשימה היא שבריר של סנט בלבד, בעוד שמודלים גדולים דורשים בין רבע דולר למעלה מדולר להשגת אותה תוצאה.
המודל גם הצטיין בפתרון סודוקו קשה (Sudoku-Extreme) עם דיוק של 87.4% ובמבוכים קשים (Maze-Hard) עם 85% דיוק.
איך עובד המודל הזעיר?
ה-TRM משתמש בגישה של “חשיבה רקורסיבית” (Recursive Reasoning) – הוא משפר את התשובה שלו באופן איטרטיבי.
כאשר המודל חוזה תשובה ראשונה, הוא מנסה לשפר אותה בארבע איטרציות נוספות, תוך העברת השאלה, התשובה והנימוק הקודמים כקלט חוזר.
“תהליך רקורסיבי זה מאפשר למודל לשפר באופן הדרגתי את תשובתו תוך מזעור overfitting”, מסבירה Jolicoeur-Martineau.
המחקר גילה שהגדלת מספר השכבות במודל לא שיפרה אותו, אלא דווקא הפחיתה את יכולת ההכללה שלו בגלל למידת יתר (overfitting) של נתוני האימון.
קוד פתוח וזמינות
המודל זמין כקוד פתוח תחת רישיון MIT ב-GitHub, כולל סקריפטים מלאים לאימון והערכה, בוני מערכי נתונים עבור סודוקו, מבוכים ו-ARC-AGI, והגדרות ייחוס לשחזור התוצאות שפורסמו.
החוקרת הדגישה כי “עם חשיבה רקורסיבית, מתברר ש’פחות זה יותר’: לא תמיד צריך להגדיל את גודל המודל כדי שיוכל לחשוב ולפתור בעיות קשות”.