⭐ נקודות עיקריות
- חברת Taalas חושפת את HC1, שבב ייעודי להאצת מודלי בינה מלאכותית.
- הדור הראשון תוכנן במיוחד להרצת מודל השפה Llama 3.1 8B.
- לדברי החברה, השבב מציג קצב עיבוד של כ-17,000 טוקנים בשנייה.
- הטכנולוגיה זמינה כעת למפתחים להתנסות דרך שירות ענן (API).
חברת הסטארטאפ Taalas הכריזה על ה-HC1, שבב עיבוד חדש שנועד להאיץ הרצה של מודלי בינה מלאכותית יוצרת (Generative AI).
בניגוד למעבדים גרפיים כלליים, ה-HC1 מתוכנן ברמת החומרה עבור מודל ספציפי בודד, במטרה להוזיל עלויות ולשפר את מהירות התגובה באופן ניכר, כאשר במקרה הנוכחי מדובר על מודל ה-Llama 3.1 8B הפתוח של מטא.
למעשה מדובר על שבב ASIC (ר”ת Application Specific Integrated Circuit) המיועד לשימוש ספציפי במיוחד ולא על פתרון גמיש יותר כמו מעבד (CPU) רגיל או מאיץ גרפי (GPU) סטנדרטי, דבר ההופך אותו ליעל בהרבה למשימה הספציפית שעבורה הוא נוצר.
הכירו את ה-Taalas HC1
המוצר הראשון של החברה, שבב ה-HC1, תוכנן באופן בלעדי להרצת מודל השפה הפתוח Llama 3.1 8B.
על פי הודעת החברה, פיתוח השבב נועד להדגים את היתרונות של התאמת החומרה ישירות למודל תוכנה בודד.
אף שהשבב מקודד מראש למודל הספציפי, הוא שומר על רמה מסוימת של גמישות ויכולת התאמה.
החברה מציינת כי גישת הפיתוח שלה מבטלת את ההפרדה המסורתית בין זיכרון ליחידות עיבוד.
ה-HC1 משלב את האחסון והעיבוד על גבי שבב יחיד בצפיפות של זיכרון DRAM. תצורה זו, לדברי Taalas, חוסכת את הצורך בטכנולוגיות יקרות כמו זיכרון HBM, אריזת 3D Stacking מתקדמת או רכיבי תקשורת מהירים.
הדור הראשון של השבב משתמש בפורמט נתונים מותאם אישית של 3 ו-6 ביט. החברה מציינת כי דחיסה (Quantization) אגרסיבית זו מובילה לירידה מסוימת באיכות התוצרים בהשוואה להרצה על מעבדים גרפיים סטנדרטיים, מגבלה שצפויה להיפתר לדבריה בדורות הבאים.

ביצועים
על פי הנתונים שסיפקה Taalas, ה-HC1 מסוגל להפיק 16,960 טוקנים (Tokens) בשנייה למשתמש. לשם השוואה, החברה מציגה נתון של 353 טוקנים בשנייה עבור מעבד ה-B200 של אנבידיה.
עוד טוענת היצרנית כי בהשוואה למערכות מתחרות דוגמת Cerebras WSE-3, השבב החדש מציג ביצועים מהירים פי עשרה, תוך שהוא דורש עשירית מצריכת החשמל ומוזיל את עלויות המערכת פי 20.

לוחות זמנים
נכון לעכשיו, ה-HC1 אינו מוצע למכירה ומחירו הרשמי טרם פורסם. עם זאת, הטכנולוגיה זמינה כעת למפתחים במסגרת שירות ענן (API) ובגרסת בטא של צ’אטבוט, המאפשרים התנסות ביכולות השבב מרחוק.
החברה מתכננת להציג באביב הקרוב מודל חשיבה (Reasoning) בגודל בינוני שיתבסס על אותה פלטפורמה, ולקראת החורף צפויה להשיק את הדור השני של השבבים, ה-HC2. דור זה יעבור להשתמש בפורמט נקודה צפה סטנדרטי של 4 ביט.