ChatGPT "Monday" belajar bahasa Mandarin Taiwan dari mana? PTT, Dcard, dan Jiubadao sudah selesai dibaca.

Question

Modul gaya ChatGPT "Monday" melontarkan banyak frasa dan idiom Taiwan karena "menangkap" banyak materi dari jaringan Taiwan. (Ringkasan: ChatGPT meluncurkan suara wanita yang lelah di dunia "Senin", malas dan tersesat di komunitas untuk menjadi populer) (Suplemen latar belakang: Biro IP secara resmi menanggapi "ChatGPT adalah sejumlah besar tiruan Ghibli": Imitasi AI tidak ilegal, tergantung pada kasusnya) Saat Anda membuka modul suara bergaya ChatGPT "Senin", Anda akan menemukan bahwa "orang ini sedikit kedinginan dan lelah di dunia", dan akan mendeteksi aksen Anda, dan akan berbicara "Mandarin Taiwan" sebagai tanggapan, mengapa terdengar sangat mirip dengan bahasa Taiwan? Jawabannya: ChatGPT telah mengakui bahwa mereka menangkap banyak data di web Taiwan. Apa itu "Mode Senin"? Kita harus mengklarifikasi bahwa "Monday" bukanlah model GPT baru, atau versi GPT-5 yang ditingkatkan, tetapi gaya dialog yang dibuat oleh OpenAI dengan penyetelan gaya pada arsitektur GPT-4. Sederhananya, AI yang sama mengubah nadanya, seperti mengenakan set pakaian yang berbeda, pergi bekerja dan akhir pekan. Mode Senin santai, sedikit dingin, sopan tetapi tidak bertele-tele, dan rasanya seperti Anda baru saja check-in di perusahaan pada hari Senin, dan Anda sangat melankolis. Perayap dengan banyak data Taiwan melatih OpenAI untuk melatih GPT, yang sebenarnya sangat "jadul" tetapi sangat efektif: untuk melihat seluruh jaringan meledak. Termasuk situs berita, Wikipedia, buku-buku Cina, forum sosial, blog, PDF, sejarah hitam yang biasa Anda tulis di situs tanpa nama. Selama itu adalah halaman web publik, mereka yang dapat dirayapi oleh perayap pada dasarnya cenderung dilemparkan ke korpus untuk pelatihan. Kami membandingkan silang reaksi perilaku perusahaan open source utama dan GPT, dan menemukan bahwa media Taiwan ini dibaca oleh ChatGPT: "United News Network" "ETtoday" "Zhongshi Electronic News" "Wind Media" "NOWnews" ... Outlet media ini memiliki satu kesamaan: tidak ada paywall yang terkunci, pencarian Google, dan struktur situs web bersih dan mudah didaki. Sebaliknya, situs-situs seperti Tianxia, The Report, dan BusinessWeek yang dibayar atau diblokir oleh dinding keanggotaan memiliki peluang yang sangat rendah untuk dilatih. GPT telah benar-benar membaca karya-karya penulis Taiwan GPT sangat pandai meniru ritme dialog novel dalam gaya sembilan pisau, dan juga dapat menceritakan kalimat sentimental dalam gaya Wu Nianzhen, dan bahkan nada Long Yingtai "Sungai Besar dan Laut" Ini memiliki sedikit penguasaan. Apa artinya ini? Itu benar-benar membaca, atau setidaknya melihat klip yang diposting ulang. Kemungkinan besar, karya-karya ini banyak disalin dan ditempel di PTT, blog, atau situs pengeposan ulang konten, dan karya-karya awal Nine Knives bahkan diterbitkan langsung di storyboard PTT, dan kemudian ditangkap oleh model sebagai bahan pembelajaran. Jika Anda bertanya tentang detail novel Zhang Dachun atau Luo Yijun? GPT biasanya mulai berbicara omong kosong, karena karya sastra jarang dibahas dan dikutip, tidak ada file elektronik publik, tidak langsung dicetak ulang di Internet, dan kalaupun ada, tidak bisa ditangkap. PTT adalah guru indera Taiwan GPT Ini hampir pasti: GPT memahami terrier penduduk desa, dapat memahami apa itu "tweet", "shh", "pengemudi tua", bahkan rasa lelah dunia dari papan Tech\_Job, dapat dipulihkan, dan pidatonya bisa sangat mirip dengan insinyur bambu. Mengapa? Karena data PTT telah lama dikumpulkan oleh civitas akademika menjadi korpus yang dapat dilatih, dirilis secara publik, atau dalam format JSON. Ini surga bagi model. Sebaliknya, meskipun Dcard sangat populer, tetapi anti-crawler kemudian berjalan dengan baik, kecuali untuk artikel awal atau acara populer yang telah dicetak ulang, artikel Dcard dalam 2 tahun terakhir mungkin tidak dikuasai oleh ChatGPT. "Jiwa" di balik hari Senin sebenarnya dipelajari dari semua kata yang Anda tinggalkan di Internet dalam sepuluh tahun terakhir. Itu benar, semua yang Anda katakan, itu mengingat sedikit. Lain kali Anda berbicara dengan ChatGPT, pikirkanlah, "Hah, bukankah seharusnya itu benar-benar melihat tweet saya di PTT sepuluh tahun yang lalu?" Kemungkinan besar ada. Cerita Terkait GPT-5 Ditunda! OpenAI pertama mendorong o3, o4-Mini, Sam Altman self-exposed: integrasi lebih sulit dari yang dibayangkan OpenAI memperkuat GPT-4o bergegas ke tempat kedua! Sam Altman: Pemahaman yang lebih baik tentang orang dan program penulisan, kreativitas sangat meningkat OpenAI mengumumkan: Open Agents SDK mendukung MCP, menghubungkan semuanya ke langkah kunci lainnya 〈Bagaimana ChatGPT "Monday" belajar bahasa Mandarin Taiwan? PTT, Dcard, dan Nine Knives semuanya telah dibaca" Artikel ini pertama kali diterbitkan di BlockTempo's "Dynamic Trend - The Most Influential Blockchain News Media".