谷歌公開將AI學習與推理分離的TPU 8t·8i…能否撼動以英偉達為中心的市場

robot
摘要生成中

谷歌為迎接“智能體時代”,改變了人工智能半導體戰略。它擺脫了過去使用單一通用芯片同時處理學習和推理的方式,分別推出了用於大規模學習的“TPU 8t”和用於高並發推理的“TPU 8i”。

谷歌於23日(當地時間)在美國拉斯維加斯舉行的“Google Cloud Next 2026”上,公開了兩款定制化AI半導體。該公司表示,AI市場正在迅速劃分為“構建模型的階段”和“將模型投入實際服務的階段”,並解釋稱,新款TPU正是為適應這種需求變化而設計的。

如果說此前的“Ironwood TPU”是面向推理時代的單一旗艦平台,那麼這一代產品的特點在於其結構本身實現了二元化。這被解讀為,谷歌判斷,隨著AI智能體的普及,訓練更大模型所需的基礎設施,以及在雲端快速運行這些模型的推理基礎設施需求正在同時增長。

TPU 8t:強化大規模AI訓練性能與成本效率

TPU 8t是一款專注於大規模預訓練和以嵌入為中心的工作負載的芯片。谷歌表示,該產品採用了“3D環面”網絡拓撲結構,提升了大型集群的可擴展性。單個Pod可連接的芯片數量為9600個,高於Ironwood的9216個。

其核心在於支持“SparseCore”和4位浮點運算。SparseCore是一款專用加速器,用於處理大語言模型搜索過程中頻繁出現的不規則內存訪問。谷歌聲稱,通過結合低比特運算,降低了內存帶寬負擔,即使使用更小的內存容量也能保持準確性,同時使吞吐量翻倍。

這順應了被稱為“量化”的技術趨勢。減少每個參數所需的比特數,意味著即使在規格相對較低的系統中也能運行更大的模型,同時還能減少功耗和空間佔用。谷歌表示,在大規模訓練環境下,TPU 8t相較Ironwood,每美元性能提升了最多2.7倍。

TPU 8i:聚焦推理速度與並發處理能力

TPU 8i專為將訓練完成的模型投入實際服務的推理階段而設計。它在大模型的後處理以及處理大量用戶同時請求的高並發推理方面尤其具有優勢。

據谷歌稱,TPU 8i配備了比Ironwood多3倍的靜態隨機存取存儲器。這使得它能容納大語言模型推理所需的更大“鍵值快取”,從而提升文本生成速度。此外,谷歌還應用了一套名為“Collectives Acceleration Engine”的推理系統。該系統負責加速自回歸解碼和“思維鏈”推理過程中所需的同步與歸約運算。

芯片間的連接結構也重新設計。谷歌引入了一種名為“Boardfly ICI”的定制網絡拓撲結構,最多可互聯1152顆芯片。其設計目標是使所有芯片能夠更有效地相互引用,從而減少數據包的傳輸距離和跳數。谷歌表示,在基於專家混合模型的大語言模型和推理模型所必需的“All-to-All”通信中,總跳數最多可減少50%。

成本效益也是強調的重點。谷歌解釋稱,TPU 8i的設計旨在低延遲環境下,相較Ironwood實現約80%的每美元性能提升,尤其有利於服務超大型的專家混合前沿模型。

谷歌的勝負手:能否撼動以NVIDIA為中心的市場?

谷歌補充說,TPU 8t和TPU 8i的每瓦性能都比上一代提升了2倍。能效是決定大型AI數據中心盈利能力的關鍵變數,因此這一提升意義重大。

此次發布不僅僅是發布一款新的半導體產品,更像是谷歌正式將其AI基礎設施戰略區分為“訓練”和“推理”的一個信號。在AI服務競爭正從模型性能轉向運營成本、響應速度和並發處理量的趨勢中,谷歌正試圖通過TPU進一步提升其雲業務的分量。

市場認為,最終決定成敗的關鍵變數將是實際客戶的採用速度,以及在與以NVIDIA為中心的生態系統競爭時的軟件兼容性。不過,隨著AI智能體的普及,訓練用半導體和推理用半導體的需求正在同步增長,谷歌此次的TPU二元化戰略,很可能成為未來AI基礎設施競爭的一個重要轉折點。

TP AI 注意事項 本文基於TokenPost.ai的語言模型進行摘要。正文的主要內容可能存在遺漏或與事實不符的情況。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言