מודל GPT-Realtime הקולי של OpenAI הופך שיחות קוליות לטבעיות

OpenAI מציגה את gpt-realtime (מקור OpenAI) OpenAI מציגה את gpt-realtime (מקור OpenAI)

OpenAI הכריזה על שני חידושים משמעותיים בתחום הבינה המלאכותית הקולית: מודל GPT-Realtime קולי חדש וממשק Realtime API משודרג.

המודל הקולי החדש מציג שיפורים דרמטיים ביכולות הבנה קולית, ביצוע הוראות ותפקוד כסוכן AI, עם דגש על שיחות טבעיות וזורמות בזמן אמת.

שיחה קולית בשפה טבעית

סוכני AI נחשבים לדבר הגדול הבא בתחום הבינה המלאכותית, דבר שהופך את התמיכה ביכולות שיחה קולית וטבעית לחשובה במיוחד.

בניגוד למודלי שפה מסורתיים, המתמקדים בטקסט, כאשר מודל ה-GPT-Realtime החדש נועד לספק חוויית שיחה רציפה וטבעית עם יכולות הבנה מתקדמות.

המודל מדמה שיחה רגילה בין אנשים עם התאמת קצב הדיבור ויכולת הוספת “רגש” בקול. בנוסף, החברה הוסיפה שני קולות חדשים למודל: סידר (Cedar) ומרין (Marin) שנוספו לשמונת הקולות הקיימים כיום.

יכולות סוכן AI משופרות

אחד השיפורים המרכזיים במודל החדש מתמקד ביכולות הקריאה לפונקציות (Function Calling) של המודל, דבר חיוני לבניית סוכני AI יעילים.

המודל השיג 66.5% במדד ComplexFuncBench Audio, שיפור משמעותי לעומת 49.7% במודל הקודם. היכולת כוללת זיהוי מתי להפעיל כלים חיצוניים, איזה כלים להפעיל ועם אילו פרמטרים.

השיפור מתבטא בשלושה היבטים מרכזיים: קריאה לפונקציות רלוונטיות בהקשר הנכון, תזמון מדויק של השימוש בכלים, וביצוע קריאות עם פרמטרים מתאימים.

היכולות הללו הופכות את המודל למתאים יותר לפיתוח יישומים מעשיים כמו עוזרים וירטואליים, מערכות שירות לקוחות ואוטומציה עסקית.

שיפורים משמעותיים ביכולות ההבנה

מודל ה-GPT-Realtime החדש מציג קפיצת מדרגה בביצועי ההבנה הקולית, עם שיפור לציון של 82.8% במדד Big Bench Audio Intelligence, לעומת 65.6% במודל הקודם מדצמבר 2024. המדד בוחן יכולות חשיבה מתקדמות בעיבוד קול ומבוסס על מערך בדיקות מאתגר שנועד לבחון הבנה מורכבת.

בתחום ביצוע הוראות, GPT-Realtime השיג ציון של 30.5% במדד MultiChallenge Audio, שיפור של כמעט 50% לעומת המודל הקודם שהשיג 20.6%. המדד בוחן יכולת למלא הוראות מורכבות בשיחות רב-שלביות הדורשות ניהול הקשר וחשיבה במהלך השיחה.

תכונות חדשות ב-Realtime API

לצד המודל הקולי החדש, OpenAI הציגה שיפורים לממשק ה-Realtime API שנועד לאפשר למפתחים ליצור סוכני AI קוליים משופרים.

בין הפיצ’רים החדשים שנוספו ל-API אפשר למצוא תמיכה בקלט תמונות, המאפשרת למשתמשים לשלב תמונות, צילומי מסך ותצלומים בשיחה.

ה-API מציע כעת תמיכה בפרוטוקול MCP (ר”ת Model Context Protocol) מרוחק, המאפשרת למפתחים לחבר בקלות כלים חיצוניים על ידי הפניה לשרת MCP. ההרחבה הזו מאפשרת הוספת יכולות חדשות לסוכן ללא צורך בפיתוח אינטגרציות מורכבות.

נוספה גם תמיכה בפרוטוקול SIP (ר”ת Session Initiation Protocol), המאפשר חיבור היישומים לרשת הטלפון הציבורית, מערכות PBX וטלפונים שולחניים. היכולת הזו פותחת אפשרויות חדשות לשילוב המודל במערכות תקשורת עסקיות קיימות.

זמינות ומחירים

מודל ה-GPT-Realtime וממשק ה-Realtime API זמינים למפתחים, כאשר OpenAI הפחיתה את מחיר השימוש ב-20% לעומת גרסת הבטא (Preview) המוקדמת, עם מחיר של 32 ו-64 דולר לכל מיליון טוקני אודיו של קלט ופלט, בהתאמה.

השוואת מפרטים