חברת הסטארטאפ מיסטרל (Mistral AI) הצרפתית הכריזה על Mistral Large 2 (להלן ML2), מודל שפה גדול (LLM) של 123 מיליארד פרמטרים וחלון הקשר של 128 אלף טוקנים, המציג ביצועים דומים ואף טובים יותר ממודלי שפה אחרים, בדגש על יכולות השפה, הבנה וכתיבת קוד.
כשבוע בלבד לאחר שהציגה את מודל ה-Mistral-NeMo הזעיר שפותח בשיתוף פעולה עם אנבידיה ובמקביל להצגת מודל ה-Llama 3.1 405B של מטא, מיסטרל מציגה את ML2 כדור הבא של מודל ה-Mistral Large, המציג לפי נתוני החברה ביצועים דומים ואף טובים יותר ממודלי ה-GPT-4o, Claude 3 Opus ואף ה-Llama 3 405B בתחום כתיבת הקוד והמתמטיקה, דבר שמרשים במיוחד בהתחשב שהוא משתמש בפחות משליש מהפרמטרים שלו.
הדגש הגדול של מיסטרל במודל ה-ML2 היה על הפחתת המקרים בהם המודל “הוזה”, בעיה ידועה לשמצה בתחום הבינה המלאכותית, עם תמיכה בעשרות שפות, בהן צרפתית, גרמנית, ספרדית, איטלקית, פורטוגזית, ערבית, הינדו, רוסית, סינית, יפנית, קוריאנית ועוד, ומעל 80 שפות תכנות שונות כמו Python, Java, C, C++, JavaScript, ו-Bash.
Super excited to announce Mistral Large 2
– 123B params – fits on a single H100 node
– Natively Multilingual
– Strong code & reasoning
– SOTA function calling
– Open-weights for non-commercial usageBlog: https://t.co/5nRrlNH9Sj
Weights: https://t.co/1s94W1NfVR1/N pic.twitter.com/k2o7FbmYiE
— Devendra Chaplot (@dchaplot) July 24, 2024
מודל ה-Mistral Large 2 החדש של מיסטרל זמין בפלטפורמת ה-la Plateforme של החברה, Hugging Face ופלטפורמות ה-Vertex AI של גוגל, Azure AI Studio של מיקרוסופט, Bedrock של אמזון ו-watsonx.ai של IBM.