🔥 Gate Alpha 限時賞金活動第三期上線!
在 Alpha 區交易熱門代幣,瓜分 $30,000 獎池!
💰 獎勵規則:
1️⃣ 連續2日每日交易滿 128 USDT,即可參與共享 $20,000 美金盲盒獎勵
2️⃣ 累計買入 ≥1,024 USDT,交易量前100名可直領獎勵 100美金盲盒
⏰ 活動時間:8月29日 16:00 — 8月31日 16:00 (UTC+8)
👉 立即參與交易: https://www.gate.com/announcements/article/46841
#GateAlpha # #GateAlphaPoints # #onchain#
OpenAI 的新 GPT 實時語音 API 用於商業自動化
OpenAI正式推出了GPT-Realtime和改版的Realtime API,提供了一種強大的全能語音轉語音模型,旨在改變商業應用中的語音互動。OpenAIGPT-Realtime功能
實時應用程式接口正式退出測試階段,準備好爲您的生產語音代理服務!
我們還推出了gpt-realtime——我們迄今爲止最先進的語音對語音模型——以及新的聲音和應用程式接口功能:
遠程 MCP ️ 圖片輸入
SIP電話呼叫 ️ 可重用的提示 pic.twitter.com/fX5yvt0CDD
什麼是GPT-Realtime及其重要性
GPT‑Realtime 是一個語音到語音的模型,直接處理音頻輸入和輸出,繞過傳統的多模型管道。這種單模型方法顯著降低了延遲,捕捉語音細微差別(例如,停頓、語調、笑聲),並提供自然、富有表現力的響應。Realtime API 現在已經準備好投入生產,包含了額外的功能,如圖像輸入、SIP 電話支持、遠程模型上下文協議(MCP)工具和可重用的提示。OpenAI 與客戶密切合作訓練該模型,以在客戶支持、個人助手和教育等實際領域表現出色。
該模型在指令遵循準確性方面顯示出顯著改善(,從大約65.6%上升到82.8%),以及語音質量。隨着兩個新聲音“雪松”和“海洋”的引入,交互變得更加生動和吸引人。重要的是,OpenAI將價格降低了約20%,當前每百萬音頻輸入令牌的費用約爲32美元,每百萬輸出令牌的費用約爲64美元,使得高性能語音AI對企業來說更加具成本效益。
爲商業而建:現實世界的應用案例
OpenAI 強調模型與實際企業使用的一致性。通過促進直接音頻處理和啓用工具集成,開發者現在可以爲實時客戶支持、輔導、虛擬助手等任務構建響應式語音代理。SIP 電話呼叫功能的增加對於呼叫中心部署尤其重要,能夠實現 AI 與傳統電話系統之間的無縫交接。
GPT‑Realtime 基於 2024 年 5 月推出的 GPT‑4o ( 的遺產,"o" 代表 "omni")。GPT‑4o 引入了真正的多模態能力,處理文本、音頻和視覺,具有本地語音支持和令人印象深刻的性能基準。它支持超過 50 種語言,並支持企業定制的微調。2024 年 10 月發布的 Realtime API 標志着語音互動的早期階段,現已通過今天的增強顯著成熟。
結論
GPT-Realtime 代表了 AI 驅動語音應用的一個重要進展,將低延遲、自然語音和擴展工具訪問結合到一個單一的、適合商業的 API 中。借助改進的性能指標、降低的成本和實用的集成功能,這次更新爲開發語音代理、客戶支持系統和互動學習工具的組織提供了實質性的價值。
功能