ChatGPT「Monday」是怎麼學台灣中文的？PTT、Dcard、九把刀全讀完了

Question

ChatGPT的風格模組「Monday」會脫口許多台灣用語和習慣，這些都因為它「捕獲」大量來自台灣網路的資料。 （前情提要：ChatGPT推出厭世女聲「Monday」，又懶又喪在社群爆紅 ） （背景補充：智財局正式回應「ChatGPT大量仿作吉卜力」：AI模仿不違法，視個案而定 ） 打開 ChatGPT 風格語音模組「Monday」時你會發現，「這傢伙講話有點 chill、又好厭世」，還會偵測你的口音，回應時會講「台灣國語」，它為什麼聽起來這麼像台灣人？答案是：ChatGPT 已經承認它大量捕捉了台灣網路上滿滿的資料。 什麼是「Monday 模式」？ 我們必須闡明「Monday」不是一個新的 GPT 模型，也不是升級版 GPT-5，而是 OpenAI 在 GPT-4 架構上，用風格微調（style tuning）做出來的一種對話風格。 簡單說，同個 AI 換個語氣，像穿不同套衣服、上班跟週末兩種人格。Monday 模式主打輕鬆、有點 chill、禮貌但不囉唆，感覺像你週一剛進公司打卡，那個很憂鬱的自己。 大量台灣資料的爬蟲訓練 OpenAI 訓練 GPT 的方式，其實很「老派」但超有效：看爆整個網路。 包括新聞網站、維基百科、中文書籍、社群論壇、部落格、PDF、你以前寫在無名小站的黑歷史..只要是公開網頁，能被爬蟲爬下來的，基本上都有可能被丟進語料裡訓練。 我們交叉比對各大開源語料庫跟 GPT 的行為反應，發現這些台灣媒體被 ChatGPT 讀進去： 《聯合新聞網》 《ETtoday》 《中時電子報》 《風傳媒》 《NOWnews》… 這些媒體有一個共通點：沒上鎖付費牆，Google 搜得到，網站結構乾淨好爬。 反過來說，像《天下》、《報導者》、《商業周刊》這種付費或會員牆擋著的網站，被訓練進去的機率就非常低。 GPT 真的讀過台灣作家的作品 GPT 很會模仿九把刀式的小說對話節奏，也能講出吳念真風格的感性句子，甚至龍應台的《大江大海》語調它也有點掌握。這表示什麼？它真的讀過，或至少看過被轉貼的片段。 最有可能的情況是：這些作品在 PTT、部落格、或內容轉貼站被大量複製貼上，九把刀早期作品甚至直接在 PTT 故事版上公開，然後被模型抓去當學習資料。 如果你問它張大春或駱以軍的小說細節？GPT 通常會開始亂講，因為涉及文學作品較少人討論與引用、沒有公開電子檔，沒被直接轉載出現在網路上，就算有也抓不到。 PTT 是 GPT 的台灣語感老師 這點幾乎可以確定：GPT 懂鄉民梗、看得懂「推文」、「噓」、「老司機」是什麼，就連 Tech\_Job 板的厭世感，它都能神還原，講話可以非常像個竹科工程師。 為什麼？因為 PTT 的資料早就被學術界整理成可訓練語料、公開釋出，還是 JSON 格式的。對模型來說就是天堂。 相比之下，Dcard 雖然很紅，但後期防爬蟲做得還不錯，除了早期文章或有被轉載出去的爆紅事件，Dcard 近 2 年的文章可能並未被 ChatGPT 掌握。 Monday 背後的「靈魂」，其實是從你過去十幾年在網路上留下的所有字，學出來的。沒錯，你說過的話，它都記得一點點。 下次跟 ChatGPT 說話的時候，不妨想一想：「欸，它該不會真的看過我十年前在 PTT 留的推文吧？」 很可能有。 相關報導 GPT-5延期！OpenAI先推o3、o4-Mini，Sam Altman自曝：整合比想像中更難 OpenAI 強化 GPT-4o 衝上排行榜第二！Sam Altman：更懂人話和寫程式，創造力大增 OpenAI 重磅宣布：開放 Agents SDK 支援 MCP，串聯萬物再跨關鍵一步 〈ChatGPT「Monday」是怎麼學台灣中文的？PTT、Dcard、九把刀全讀完了〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。