OpenAI Memperkenalkan Model Suara-ke-Suara GPT-Realtime Dengan Dukungan Multimodal Dan Kemampuan Percakapan Lanjutan

Secara Singkat

OpenAI merilis model gpt-realtime speech-to-speech dengan dukungan multimodal, keterampilan percakapan yang canggih, dan kinerja penalaran audio yang kuat.

OpenAI Meluncurkan Model GPT-Realtime Speech-To-Speech Dengan Dukungan Multimodal Dan Kemampuan Percakapan Lanjutan

Organisasi penelitian kecerdasan buatan OpenAI mengumumkan ketersediaan umum API Realtime-nya, yang kini dilengkapi dengan fitur-fitur yang memungkinkan pengembang dan perusahaan membangun agen suara yang kuat dan siap produksi. API ini mendukung server MCP jarak jauh, masukan gambar, dan panggilan telepon melalui Protokol Inisiasi Sesi (SIP), memungkinkan aplikasi suara yang lebih mampu dan sadar konteks.

Seiring dengan API, OpenAI telah merilis model suara-ke-suara paling canggihnya, gpt-realtime, yang dirancang untuk meningkatkan pemahaman instruksi, pemanggilan fungsi, dan suara yang terdengar alami. Model ini dapat menginterpretasikan prompt yang kompleks, beralih bahasa di tengah kalimat, mereproduksi urutan alfanumerik dengan akurat, dan menangkap isyarat non-verbal. Dua suara baru, Cedar dan Marin, juga tersedia, menawarkan intonasi yang lebih ekspresif dan mirip manusia. Suara yang ada telah diperbarui untuk mengintegrasikan peningkatan ini.

API Realtime memproses audio langsung melalui satu model, mengurangi latensi dan mempertahankan nuansa, tidak seperti jalur tradisional yang menghubungkan model pemrosesan bicara ke teks dan teks ke bicara yang terpisah. gpt-realtime telah dilatih bekerja sama dengan pengguna untuk unggul dalam aplikasi dunia nyata seperti dukungan pelanggan, bantuan pribadi, dan pendidikan. Evaluasi tolok ukur menunjukkan peningkatan substansial dalam penalaran, kepatuhan instruksi, dan akurasi pemanggilan fungsi dibandingkan dengan model sebelumnya.

Pembaruan tambahan mencakup pemanggilan fungsi asinkron, memungkinkan operasi yang berjalan lama tanpa mengganggu percakapan yang sedang berlangsung, lebih lanjut mendukung pengalaman suara yang mulus dan siap produksi.

OpenAI Memperluas API Realtime Dengan Dukungan MCP, Input Gambar, Integrasi SIP, Dan Kontrol Penghematan Biaya Untuk Agen Suara

API Realtime OpenAI sekarang mencakup fitur-fitur baru yang dirancang untuk menyederhanakan integrasi dan memperluas kemampuan untuk agen suara siap produksi. Pengembang dapat mengaktifkan dukungan MCP jarak jauh dengan menghubungkan sesi ke URL server MCP, memungkinkan API untuk mengelola panggilan alat secara otomatis dan mengakses fungsionalitas tambahan tanpa pengaturan manual.

Model gpt-realtime sekarang mendukung input gambar, memungkinkan sistem untuk menggabungkan foto, tangkapan layar, dan visual lainnya bersama audio atau teks. Ini memungkinkan pengguna untuk mengajukan pertanyaan spesifik konteks tentang apa yang mereka lihat, sementara pengembang tetap mengendalikan gambar mana yang dibagikan dan kapan.

Perbaikan tambahan termasuk dukungan Protokol Inisiasi Sesi (SIP) untuk menghubungkan aplikasi ke jaringan telepon dan sistem PBX, serta prompt yang dapat digunakan kembali yang memungkinkan pengembang menyimpan dan menerapkan instruksi, alat, dan pesan contoh yang telah dikonfigurasi sebelumnya di berbagai sesi.

API Realtime yang umumnya tersedia dan model gpt-realtime sekarang dapat diakses oleh semua pengembang, dengan harga yang dikurangi sebesar 20% dibandingkan dengan gpt-4o-realtime-preview sebelumnya. Kontrol baru untuk konteks percakapan memungkinkan manajemen token yang lebih cerdas, mengurangi biaya untuk sesi yang berlangsung lama. Dokumentasi, Playground untuk pengujian, dan panduan pemicu API Realtime tersedia untuk mendukung pengembang dalam mengadopsi fitur-fitur ini.

GPT10.32%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)