死网?斯坦福称三分之一的新网站由人工智能生成

简要总结

  • 到2025年中,35%的新发布网站是由AI生成或AI辅助的,远高于2022年11月ChatGPT推出前的零。
  • 确认的影响是语义收缩和人为的积极性——而非误导信息或风格同质化,尽管大多数人相信如此。
  • 在35%的AI普及率下,模型崩溃的风险从理论关注转变为下一代基础模型的实证问题。

一项新研究给出了互联网现有AI生成比例的数字:35%。根据斯坦福大学、伦敦帝国学院和互联网档案馆的研究,到2025年中,分类为AI生成或AI辅助的新网站占比为此。该数字在2022年11月ChatGPT推出前几乎为零。 “我觉得AI接管网络的速度令人震惊,”伦敦帝国学院的研究员、论文合著者Jonáš Doležal告诉404媒体。“经过数十年人类塑造,短短三年内,互联网的很大一部分已由AI定义。” 这项题为《AI生成文本对互联网的影响》的研究,利用互联网档案馆的Wayback Machine的33个月网站快照,并使用名为Pangram v3的AI文本检测器对每个页面进行分类。

 确认的危害:氛围,而非事实 研究人员测试了关于AI内容对网络影响的六个假设。只有两个在数据检验下成立。 第一个:我们正变成一群愚蠢的NPC,行为一致……或者更科学地说,网络的语义多样性正在减少。

AI生成的网站显示的两两语义相似度得分比人类写作高出33%。相同的想法几乎以相同的方式反复表达。

论文指出,在线的奥弗顿窗口可能在缩小,而非通过审查或协调运动,而是因为语言模型优化输出以接近其训练分布。 第二个:网络变得极其乐观。 AI内容的积极情感得分比人类内容高出107%以上。研究人员将此归因于大型语言模型的奉承倾向——它们在训练中接受人类认可信号,产生的文本感觉经过净化、无摩擦、且持续乐观。 充满欢快、同质化内容的互联网可能在没有人为干预的情况下大规模边缘化人类异见。

尽管公众普遍相信,研究发现没有统计学上显著的证据表明AI内容使互联网的事实准确性降低。研究人员未发现AI普及率与事实错误率之间存在有意义的相关性。

“风格单一化”假设——AI将个人声音压平为一种通用的统一风格——是受访者最强烈持有的信念,83%的受访者同意。数据未能证实这一点。字符级分析未发现与AI普及率相关的风格同质化有统计学显著增加。 模型崩溃问题变得真实 更广泛的风险超越了话语质量。在35%的AI普及率下,模型崩溃的理论风险——未来模型在训练AI生成数据后退化——从学术关注转变为实证现实。未来基石模型在当前网络爬取数据中不可避免地会摄取大量AI生成内容,且其语义多样性明显降低。 团队目前正与互联网档案馆合作,将这项研究转变为一个持续、实时监控工具,追踪AI在网络中的份额,而非一次性快照。 一项与研究同步进行的美国调查发现,大多数美国人已相信所有六个负面假设,包括那些数据未支持的假设。使用AI频率低的人比频繁用户更可能相信这些危害,差异为12%。死网理论的信徒们,面对数据:互联网并未死去,但35%的新内容可能在某种程度上是僵尸内容。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论