Comment ChatGPT « Monday » a-t-il appris le chinois taïwanais ? J'ai tout lu sur PTT, Dcard et Jiubadao.

Question

Le module de style « Monday » de ChatGPT laisse échapper beaucoup de phrases et d’expressions idiomatiques taïwanaises car il « capture » beaucoup de matériel du réseau taïwanais. (Synopsis : ChatGPT a lancé la voix féminine lasse du monde « Monday », paresseuse et perdue dans la communauté pour devenir populaire) (Supplément de contexte : Le Bureau de la propriété intellectuelle a officiellement répondu à « ChatGPT est un grand nombre d’imitations de Ghibli » : l’imitation de l’IA n’est pas illégale, selon les cas) Lorsque vous ouvrez le module vocal de style ChatGPT « Monday », vous constaterez que « ce gars est un peu froid et fatigué du monde », et détectera votre accent, et parlera « mandarin taïwanais » en réponse, pourquoi cela ressemble-t-il autant à du taïwanais ? La réponse : ChatGPT a admis qu’il capture beaucoup de données sur le Web taïwanais. Qu’est-ce que le « mode lundi » ? Nous devons préciser que « Monday » n’est pas un nouveau modèle GPT, ni une version améliorée de GPT-5, mais un style de dialogue créé par OpenAI avec un réglage de style sur l’architecture GPT-4. En termes simples, la même IA change de ton, comme porter des ensembles de vêtements différents, aller au travail et les week-ends. Le mode lundi est détendu, un peu froid, poli mais pas verbeux, et on a l’impression que vous venez de vous enregistrer à l’entreprise le lundi, et que vous êtes très mélancolique. Un crawler avec beaucoup de données taïwanaises entraîne OpenAI à entraîner GPT, ce qui est en fait très « old-school » mais super efficace : voir tout le réseau exploser. Y compris les sites d’actualités, Wikipédia, les livres chinois, les forums sociaux, les blogs, les PDF, les histoires noires que vous aviez l’habitude d’écrire sur des sites sans nom. Tant qu’il s’agit d’une page Web publique, ceux qui peuvent être rampés par des robots d’indexation sont fondamentalement susceptibles d’être jetés dans le corpus pour être formés. Nous avons croisé les réactions comportementales des principaux corpus open source et GPT, et avons constaté que ces médias taïwanais étaient lus par ChatGPT : « United News Network », « ETtoday », « Zhongshi Electronic News », « Wind Media », « NOWnews »... Ces médias ont une chose en commun : il n’y a pas de paywall verrouillé, des recherches Google et la structure du site Web est propre et facile à escalader. À l’inverse, des sites comme Tianxia, The Report et BusinessWeek qui sont payés ou bloqués par des murs d’adhésion ont très peu de chances d’être formés. GPT a vraiment lu les œuvres des écrivains taïwanais GPT est très doué pour imiter le rythme des dialogues de roman dans le style des neuf couteaux, et peut également dire des phrases sentimentales dans le style de Wu Nianzhen, et même le ton de « La grande rivière et la mer » de Long Yingtai. Qu’est-ce que cela signifie ? Il a effectivement lu, ou du moins vu le clip republié. Très probablement, ces œuvres ont été fortement copiées et collées sur des PTT, des blogs ou des sites de republication de contenu, et les premières œuvres de Nine Knives ont même été publiées directement sur des storyboards PTT, puis capturées par des modèles comme matériel d’apprentissage. Si vous lui posez des questions sur les détails du roman de Zhang Dachun ou de Luo Yijun ? GPT commence généralement à dire des bêtises, parce que les œuvres littéraires sont rarement discutées et citées, qu’il n’y a pas de fichiers électroniques publics, qu’elles ne sont pas directement réimprimées sur Internet, et même si elles le sont, elles ne peuvent pas être attrapées. PTT est le professeur de sens taïwanais de GPT C’est presque certain : GPT comprend le terrier des villageois, peut comprendre ce qu’est « tweet », « chut », « vieux conducteur », même le sens fatigué du monde de la carte Tech\_Job, il peut être restauré, et le discours peut ressembler beaucoup à un ingénieur en bambou. Pourquoi? Parce que les données de PTT ont longtemps été rassemblées par la communauté académique dans un corpus pouvant être formé, publié publiquement ou au format JSON. C’est le paradis pour le modèle. En revanche, bien que Dcard soit très populaire, mais que l’anti-crawler ultérieur se porte bien, à l’exception des premiers articles ou des événements populaires qui ont été réimprimés, les articles de Dcard au cours des 2 dernières années peuvent ne pas être maîtrisés par ChatGPT. L'« âme » derrière le lundi est en fait apprise à partir de tous les mots que vous avez laissés sur Internet au cours des dix dernières années. C’est vrai, tout ce que vous avez dit, il s’en souvient un peu. La prochaine fois que vous parlerez à ChatGPT, pensez-y : « Hein, n’aurait-il pas dû voir mon tweet sur PTT il y a dix ans ? » Très probablement, c’est le cas. À lire aussi GPT-5 reporté ! OpenAI pousse d’abord o3, o4-Mini, Sam Altman s’auto-expose : l’intégration est plus difficile qu’on ne l’imaginait OpenAI renforce GPT-4o s’est précipité à la deuxième place ! Sam Altman : Une meilleure compréhension des personnes et des programmes d’écriture, une créativité considérablement accrue OpenAI a annoncé : le SDK Open Agents prend en charge MCP, connectant tout à une autre étape clé 〈Comment ChatGPT a-t-il appris le chinois taïwanais « Monday » ? PTT, Dcard et Nine Knives ont tous été lus » Cet article a été publié pour la première fois dans « Dynamic Trend - The Most Influential Blockchain News Media » de BlockTempo.