חברת OpenAI הכריזה על מודל קול חדש עם תרגום ותמלול בזמן אמת

מודל הקול GPT-Realtime-2 (מקור OpenAI) מודל הקול GPT-Realtime-2 (מקור OpenAI)

⭐ נקודות עיקריות

  • OpenAI הכריזה על GPT-Realtime-2 – מודל קול חדש לאינטראקציות קוליות בזמן אמת.
  • המודל כולל חלון הקשר של 128 אלף טוקנים ותמיכה בשליטה על טון הדיבור ורמת החשיבה.
  • לצדו הוצגו גם מודלי תרגום חי ותמלול רציף בהשהיה נמוכה למפתחים.
  • OpenAI הוסיפה גם את Trusted Contact – פיצ’ר בטיחות חדש למשתמשי ChatGPT.

חברת OpenAI הכריזה על GPT-Realtime-2, דור חדש של מודלי קול המיועדים ליישומי בינה מלאכותית בזמן אמת, לצד מודלים חדשים לתרגום ותמלול חי ועדכון בטיחות חדש עבור משתמשי ChatGPT.

הדור החדש נועד לשפר את האינטראקציה הקולית בין משתמשים למערכות AI, עם תגובות טבעיות יותר, חלון הקשר גדול במיוחד וכלים חדשים למפתחים המעוניינים לבנות עוזרים קוליים, שירותי תמיכה, פלטפורמות תרגום ומערכות תמלול בזמן אמת.

GPT-Realtime-2 – מודל קול חדש לאינטראקציות חיות

המודל המרכזי בהכרזה הוא GPT-Realtime-2, מודל קול חדש המיועד לניהול שיחות קוליות רציפות עם משתמשים בזמן אמת.

לדברי החברה, המודל מסוגל לשמור על הקשר שיחה לאורך זמן, להגיב בצורה טבעית להפרעות מצד המשתמש ולבצע מספר פעולות במקביל באמצעות שימוש בכלים חיצוניים.

אחד השדרוגים המרכזיים הוא חלון הקשר (Context Window) של עד 128 אלף טוקנים, המאפשר למודל לזכור ולהתייחס לכמות גדולה בהרבה של מידע לאורך השיחה.

המשמעות היא שניתן לנהל אינטראקציות ארוכות ומורכבות יותר מבלי לאבד את רצף ההקשר.

OpenAI הוסיפה גם אפשרות חדשה לשליטה ברמת “מאמץ החשיבה” של המודל. מפתחים יכולים לבחור בין תגובות מהירות במיוחד עם השהיה נמוכה, לבין מצב מתקדם יותר עבור בקשות מורכבות הדורשות עיבוד מעמיק יותר.

בנוסף, המודל מאפשר שליטה רחבה יותר באופן הדיבור ובטון הקולי שלו. לפי החברה, ניתן להתאים את אופי התגובה לסוגי שימוש שונים – החל משירות לקוחות רגוע ועד סוכני תמיכה טכנית המיועדים להתמודד עם משתמשים מתוסכלים.

תרגום חי ותמלול בהשהיה נמוכה

לצד GPT-Realtime-2 הציגה החברה גם שני מודלים נוספים לעיבוד אודיו בזמן אמת:

  • GPT-Realtime-Translate: מודל תרגום חי המסוגל לתרגם דיבור ממעל ל-70 שפות קלט ל-13 שפות פלט בזמן אמת. המודל נועד לשימוש בפלטפורמות גלובליות ובמערכות תקשורת הדורשות תרגום כמעט מיידי במהלך שיחה.
  • GPT-Realtime-Whisper: מודל תמלול חדש המבצע המרת דיבור לטקסט (Speech-to-Text) באופן רציף ובהשהיה נמוכה. המודל מיועד לשימוש בכתוביות חיות, סיכומי פגישות וכלים ארגוניים המבוססים על אינטראקציה קולית.

Trusted Contact – פיצ’ר בטיחות חדש ל-ChatGPT

לצד עדכוני הקול, OpenAI הכריזה גם על Trusted Contact (“איש קשר מהימן”), פיצ’ר בטיחות חדש עבור משתמשי ChatGPT בני 18 ומעלה.

המערכת מאפשרת למשתמש להגדיר איש קשר שיקבל התראה במקרה שבו מזוהה שיח המעיד על סיכון לפגיעה עצמית. לדברי החברה, ההתראות אינן אוטומטיות לחלוטין ועוברות בדיקה של צוות אנושי ייעודי לפני שליחתן.

הוספת איש קשר מהימן (מקור OpenAI)
הוספת איש קשר מהימן (מקור OpenAI)

ההתראות עצמן אינן כוללות את תוכן השיחות או תמלילי הצ’אט, אלא רק מידע כללי על כך שעלה נושא המעורר דאגה במהלך השיחה, לצד קישור להנחיות מקצועיות.

התראה במקרה של זיהוי צורך בסיוע (מקור OpenAI)
התראה במקרה של זיהוי צורך בסיוע (מקור OpenAI)

זמינות

מודלי הקול החדשים זמינים למפתחים דרך ה-Realtime API של OpenAI. פיצ’ר ה-Trusted Contact מופץ כעת בהדרגה כהגדרה אופציונלית למשתמשי ChatGPT ברחבי העולם.

השוואת מפרטים