Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Suka suara Tesla? xAI secara resmi membuka API suara Grok, TTS seharga 4,2 dolar AS per juta karakter, tingkat pengenalan mengalahkan ElevenLabs
xAI resmi merilis API pengenalan suara (STT) dan konversi teks ke suara (TTS) yang independen minggu ini, teknologi ini telah digunakan secara nyata di Grok Voice, kendaraan Tesla, dan sistem layanan pelanggan Starlink. Harga STT adalah $0.10 per jam batch dan $0.20 per jam streaming, mendukung lebih dari 25 bahasa.
(Latar belakang: Beta Grok 4.3 dibuka untuk pelanggan Heavy! Elon Musk: Versi flagship yang benar selesai pelatihan dalam 5 hari)
(Informasi tambahan: Google meluncurkan Gemini 3.1 Flash TTS: penandaan audio membuat pengisi suara AI lebih hidup, mendukung lebih dari 70 bahasa, Google AI Studio gratis untuk dicoba)
Daftar Isi Artikel
Toggle
Teknologi yang sama yang membuat kendaraan Tesla bisa berbicara dan sistem layanan pelanggan Starlink merespons suara pengguna kini tersedia melalui API. xAI secara resmi mengumumkan peluncuran API pengenalan suara (STT) dan konversi teks ke suara (TTS) Grok yang independen pada tanggal 17, memungkinkan pengembang eksternal untuk langsung memanggil infrastruktur suara yang sudah berjalan di produk-produk di bawah naungan xAI.
STT: timestamp per kata + pemisah pembicara, transkripsi batch hanya $0.10 per jam
Menurut penjelasan resmi, API Grok STT menyediakan dua mode akses: melalui REST API untuk pemrosesan batch, dan melalui WebSocket API untuk streaming real-time dengan latensi rendah. Dari segi harga, pemrosesan batch dikenai biaya $0.10 per jam dan streaming $0.20 per jam, dan pihak resmi menyatakan bahwa harga ini memiliki keunggulan yang signifikan dibandingkan pesaing utama seperti ElevenLabs dan Deepgram.
Dari segi fungsi, Grok STT mendukung lebih dari 25 bahasa, dilengkapi timestamp per kata, pemisah pembicara (speaker diarization), serta audio multi-kanal dan normalisasi teks balik cerdas. Cocok untuk transkripsi rapat, catatan hukum dan medis, log panggilan layanan pelanggan, dan skenario perusahaan lain yang membutuhkan tingkat akurasi tinggi.
Dalam pengujian pengenalan entitas nyata, Grok STT menunjukkan keunggulan. Dalam panggilan telepon, saat mengenali nama, akun, tanggal, dan entitas penting lainnya, tingkat kesalahan Grok STT adalah 5.0%, sedangkan ElevenLabs 12.0%, Deepgram 13.5%, dan AssemblyAI mencapai 21.3%.
TTS: 5 kepribadian suara + penanda suara, $4.2 per juta karakter
API Grok TTS menawarkan lima pilihan suara dengan gaya berbeda: Ara (wanita, hangat dan ramah), Eve (wanita, ceria dan aktif), Leo (pria, berwibawa dan kuat), Rex (pria, percaya diri dan jernih), Sal (netral, lancar dan seimbang).
API secara otomatis mendeteksi bahasa input, mendukung lebih dari 20 bahasa secara native, dan mengontrol pengucapan melalui kode bahasa BCP-47.
Format output audio meliputi MP3, WAV, PCM (Linear16), G.711 μ-law, dan G.711 A-law, dua yang terakhir adalah format kompresi suara umum dalam sistem telepon, menunjukkan bahwa xAI menargetkan integrasi dengan industri telekomunikasi.
Fitur utama dari API TTS adalah “penanda suara”, di mana pengembang dapat menyisipkan instruksi dalam teks untuk mengontrol jeda, tawa, bisikan, penekanan intonasi, kecepatan bicara, dan pitch, membuat suara sintetis lebih alami dan mirip manusia. Harga adalah $4.20 per juta karakter.
Teknologi yang sama sudah menggerakkan Tesla dan Starlink
xAI menegaskan bahwa kedua API ini bukan teknologi yang dikembangkan sepenuhnya dari nol, melainkan infrastruktur dasar yang sudah digunakan secara nyata di Grok Voice, interaksi suara kendaraan Tesla, dan sistem dukungan pelanggan Starlink.
Infrastruktur ini pertama kali muncul pada akhir 2025 dalam bentuk Grok Voice Agent API, yang menyediakan kemampuan percakapan suara real-time, dan meraih peringkat pertama dalam pengujian Big Bench Audio, dengan waktu respons audio pertama di bawah 1 detik, sekitar lima kali lebih cepat dari pesaing terbaru.
Peluncuran endpoint STT dan TTS yang terpisah ini setara dengan memecah komponen dari pipeline suara terpadu ini, memungkinkan pengembang untuk menggabungkan sesuai kebutuhan.