OpenAI 發布了 GPT-實時語音到語音模型,支持多模態和先進的對話能力

簡要

OpenAI發布了具有多模態支持、先進對話能力和強大音頻推理性能的gpt-realtime語音對語音模型。

OpenAI 推出具有多模態支持和高級對話功能的 GPT-實時語音轉語音模型

人工智能研究機構OpenAI宣布其Realtime API的全面可用性,該API現在增強了功能,允許開發者和企業構建強大的、生產就緒的語音代理。該API支持遠程MCP服務器、圖像輸入和通過會話發起協議(SIP)進行電話撥打,使得語音應用程序更加強大和具有上下文意識。

除了API,OpenAI還發布了其最先進的語音對語音模型gpt-realtime,旨在改善指令跟隨、功能調用和自然聽起來的語音。該模型能夠理解復雜的提示、在句中切換語言、準確再現字母數字序列並捕捉非語言線索。兩種新聲音,Cedar和Marin,也可用,提供更具表現力和更人性化的語調。現有聲音已更新以融入這些增強功能。

Realtime API 通過單一模型直接處理音頻,減少延遲並保留細微差別,與將單獨的語音轉換爲文本和文本轉換爲語音模型串聯的傳統流程不同。gpt-realtime 與用戶合作訓練,以在客戶支持、個人助理和教育等現實應用中表現出色。基準評估顯示,與以前的模型相比,在推理、遵循指令和功能調用準確性方面有顯著改善。

其他更新包括異步函數調用,允許長時間運行的操作而不幹擾正在進行的對話,進一步支持無縫的、生產就緒的語音體驗。

OpenAI擴展實時API,支持MCP、圖像輸入、SIP集成以及語音代理的成本節約控制

OpenAI的實時API現在包括新功能,旨在簡化集成並擴展生產就緒語音代理的能力。開發者可以通過將會話連結到MCP服務器URL來啓用遠程MCP支持,從而允許API自動管理工具調用,並在無需手動設置的情況下訪問額外功能。

gpt-realtime模型現在支持圖像輸入,使系統能夠將照片、截圖和其他視覺內容與音頻或文本結合使用。這允許用戶根據他們看到的內容提出特定上下文的問題,同時開發者可以控制哪些圖像被共享以及何時共享。

其他改進包括會話發起協議 (SIP) 支持將應用程序連接到電話網路和PBX系統,以及可重用的提示,使開發人員能夠在多個會話中保存和部署預配置的指令、工具和示例消息。

現在所有開發者都可以訪問通常可用的實時API和gpt-realtime模型,定價比之前的gpt-4o-realtime-preview降低了20%。新的對話上下文控制允許更智能的令牌管理,從而減少長期會話的成本。爲了支持開發者採用這些功能,提供了文檔、一個用於測試的遊樂場以及實時API提示指南。

GPT6.37%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)