Gate.io 推薦話題每日發帖活動: #CandyDrop 上线#
💰 請帶上話題 #CandyDrop 上线# 發帖,5位優質發帖者*每人$10點卡獎勵
Gate.io 全新任務制空投平台 CandyDrop 上線!完成簡單任務贏取熱門項目空投獎勵!無需鎖倉,人人可參與!火熱項目INIT, ZORA, HYPER等你贏取!立即參與 👉️ https://www.gate.io/candy-drop
發帖分享你對 CandyDrop 的使用體驗或產品建議,帶上話題 #CandyDrop 上线# ,參與瓜分 $50 獎勵!
📅 活動時間:4月27日13:00 - 4月28日13:00(UTC+8)
⚠️ 注意事項:禁止抄襲,鼓勵原創內容
ChatGPT「Monday」是怎麼學台灣中文的?PTT、Dcard、九把刀全讀完了
ChatGPT的風格模組「Monday」會脫口許多台灣用語和習慣,這些都因為它「捕獲」大量來自台灣網路的資料。 (前情提要:ChatGPT推出厭世女聲「Monday」,又懶又喪在社群爆紅 ) (背景補充:智財局正式回應「ChatGPT大量仿作吉卜力」:AI模仿不違法,視個案而定 ) 打開 ChatGPT 風格語音模組「Monday」時你會發現,「這傢伙講話有點 chill、又好厭世」,還會偵測你的口音,回應時會講「台灣國語」,它為什麼聽起來這麼像台灣人?答案是:ChatGPT 已經承認它大量捕捉了台灣網路上滿滿的資料。 什麼是「Monday 模式」? 我們必須闡明「Monday」不是一個新的 GPT 模型,也不是升級版 GPT-5,而是 OpenAI 在 GPT-4 架構上,用風格微調(style tuning)做出來的一種對話風格。 簡單說,同個 AI 換個語氣,像穿不同套衣服、上班跟週末兩種人格。Monday 模式主打輕鬆、有點 chill、禮貌但不囉唆,感覺像你週一剛進公司打卡,那個很憂鬱的自己。 大量台灣資料的爬蟲訓練 OpenAI 訓練 GPT 的方式,其實很「老派」但超有效:看爆整個網路。 包括新聞網站、維基百科、中文書籍、社群論壇、部落格、PDF、你以前寫在無名小站的黑歷史..只要是公開網頁,能被爬蟲爬下來的,基本上都有可能被丟進語料裡訓練。 我們交叉比對各大開源語料庫跟 GPT 的行為反應,發現這些台灣媒體被 ChatGPT 讀進去: 《聯合新聞網》 《ETtoday》 《中時電子報》 《風傳媒》 《NOWnews》… 這些媒體有一個共通點:沒上鎖付費牆,Google 搜得到,網站結構乾淨好爬。 反過來說,像《天下》、《報導者》、《商業周刊》這種付費或會員牆擋著的網站,被訓練進去的機率就非常低。 GPT 真的讀過台灣作家的作品 GPT 很會模仿九把刀式的小說對話節奏,也能講出吳念真風格的感性句子,甚至龍應台的《大江大海》語調它也有點掌握。這表示什麼?它真的讀過,或至少看過被轉貼的片段。 最有可能的情況是:這些作品在 PTT、部落格、或內容轉貼站被大量複製貼上,九把刀早期作品甚至直接在 PTT 故事版上公開,然後被模型抓去當學習資料。 如果你問它張大春或駱以軍的小說細節?GPT 通常會開始亂講,因為涉及文學作品較少人討論與引用、沒有公開電子檔,沒被直接轉載出現在網路上,就算有也抓不到。 PTT 是 GPT 的台灣語感老師 這點幾乎可以確定:GPT 懂鄉民梗、看得懂「推文」、「噓」、「老司機」是什麼,就連 Tech_Job 板的厭世感,它都能神還原,講話可以非常像個竹科工程師。 為什麼?因為 PTT 的資料早就被學術界整理成可訓練語料、公開釋出,還是 JSON 格式的。對模型來說就是天堂。 相比之下,Dcard 雖然很紅,但後期防爬蟲做得還不錯,除了早期文章或有被轉載出去的爆紅事件,Dcard 近 2 年的文章可能並未被 ChatGPT 掌握。 Monday 背後的「靈魂」,其實是從你過去十幾年在網路上留下的所有字,學出來的。沒錯,你說過的話,它都記得一點點。 下次跟 ChatGPT 說話的時候,不妨想一想:「欸,它該不會真的看過我十年前在 PTT 留的推文吧?」 很可能有。 相關報導 GPT-5延期!OpenAI先推o3、o4-Mini,Sam Altman自曝:整合比想像中更難 OpenAI 強化 GPT-4o 衝上排行榜第二!Sam Altman:更懂人話和寫程式,創造力大增 OpenAI 重磅宣布:開放 Agents SDK 支援 MCP,串聯萬物再跨關鍵一步 〈ChatGPT「Monday」是怎麼學台灣中文的?PTT、Dcard、九把刀全讀完了〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。