🔥 WCTC S8 全球交易赛正式开赛!
8,000,000 USDT 超级奖池解锁开启
🏆 团队赛:上半场正式开启,预报名阶段 5,500+ 战队现已集结
交易量收益额双重比拼,解锁上半场 1,800,000 USDT 奖池
🏆 个人赛:现货、合约、TradFi、ETF、闪兑、跟单齐上阵
全场交易量比拼,瓜分 2,000,000 USDT 奖池
🏆 王者 PK 赛:零门槛参与,实时匹配享受战斗快感
收益率即时 PK,瓜分 1,600,000 USDT 奖池
活动时间:2026 年 4月 23 日 16:00:00 -2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即参与:https://www.gate.com/competition/wctc-s8
#WCTCS8
谷歌公开将AI学习与推理分离的TPU 8t·8i…能否撼动以英伟达为中心的市场
谷歌为迎接“智能体时代”,改变了人工智能半导体战略。它摆脱了过去使用单一通用芯片同时处理学习和推理的方式,分别推出了用于大规模学习的“TPU 8t”和用于高并发推理的“TPU 8i”。
谷歌于23日(当地时间)在美国拉斯维加斯举行的“Google Cloud Next 2026”上,公开了两款定制化AI半导体。该公司表示,AI市场正在迅速划分为“构建模型的阶段”和“将模型投入实际服务的阶段”,并解释称,新款TPU正是为适应这种需求变化而设计的。
如果说此前的“Ironwood TPU”是面向推理时代的单一旗舰平台,那么这一代产品的特点在于其结构本身实现了二元化。这被解读为,谷歌判断,随着AI智能体的普及,训练更大模型所需的基础设施,以及在云端快速运行这些模型的推理基础设施需求正在同时增长。
TPU 8t:强化大规模AI训练性能与成本效率
TPU 8t是一款专注于大规模预训练和以嵌入为中心的工作负载的芯片。谷歌表示,该产品采用了“3D环面”网络拓扑结构,提升了大型集群的可扩展性。单个Pod可连接的芯片数量为9600个,高于Ironwood的9216个。
其核心在于支持“SparseCore”和4位浮点运算。SparseCore是一款专用加速器,用于处理大语言模型搜索过程中频繁出现的不规则内存访问。谷歌声称,通过结合低比特运算,降低了内存带宽负担,即使使用更小的内存容量也能保持准确性,同时使吞吐量翻倍。
这顺应了被称为“量化”的技术趋势。减少每个参数所需的比特数,意味着即使在规格相对较低的系统中也能运行更大的模型,同时还能减少功耗和空间占用。谷歌表示,在大规模训练环境下,TPU 8t相较Ironwood,每美元性能提升了最多2.7倍。
TPU 8i:聚焦推理速度与并发处理能力
TPU 8i专为将训练完成的模型投入实际服务的推理阶段而设计。它在大模型的后处理以及处理大量用户同时请求的高并发推理方面尤其具有优势。
据谷歌称,TPU 8i配备了比Ironwood多3倍的静态随机存取存储器。这使得它能容纳大语言模型推理所需的更大“键值缓存”,从而提升文本生成速度。此外,谷歌还应用了一套名为“Collectives Acceleration Engine”的推理系统。该系统负责加速自回归解码和“思维链”推理过程中所需的同步与归约运算。
芯片间的连接结构也重新设计。谷歌引入了一种名为“Boardfly ICI”的定制网络拓扑结构,最多可互联1152颗芯片。其设计目标是使所有芯片能够更有效地相互引用,从而减少数据包的传输距离和跳数。谷歌表示,在基于专家混合模型的大语言模型和推理模型所必需的“All-to-All”通信中,总跳数最多可减少50%。
成本效益也是强调的重点。谷歌解释称,TPU 8i的设计旨在低延迟环境下,相较Ironwood实现约80%的每美元性能提升,尤其有利于服务超大型的专家混合前沿模型。
谷歌的胜负手:能否撼动以NVIDIA为中心的市场?
谷歌补充说,TPU 8t和TPU 8i的每瓦性能都比上一代提升了2倍。能效是决定大型AI数据中心盈利能力的关键变量,因此这一提升意义重大。
此次发布不仅仅是发布一款新的半导体产品,更像是谷歌正式将其AI基础设施战略区分为“训练”和“推理”的一个信号。在AI服务竞争正从模型性能转向运营成本、响应速度和并发处理量的趋势中,谷歌正试图通过TPU进一步提升其云业务的分量。
市场认为,最终决定成败的关键变量将是实际客户的采用速度,以及在与以NVIDIA为中心的生态系统竞争时的软件兼容性。不过,随着AI智能体的普及,训练用半导体和推理用半导体的需求正在同步增长,谷歌此次的TPU二元化战略,很可能成为未来AI基础设施竞争的一个重要转折点。
TP AI 注意事项 本文基于TokenPost.ai的语言模型进行摘要。正文的主要内容可能存在遗漏或与事实不符的情况。