Published on 20-03-2026
Nvidia GTC 2026 大會,黃仁勳帶來近 3 小時的主題演講,發表英偉達從「芯片供應商」到「AI 基礎設施與工廠公司」的戰略轉型宣言,要睇:
一、演講整體核心主題與戰略定調
本次演講跳出了單一硬件發布的傳統框架,完整定義了 AI 產業的下一個時代,核心主題可歸納為四大維度:
- 時代拐點判斷:AI 正式從「訓練時代」進入「推理時代」,產業核心矛盾從「如何訓練出更好的大模型」,轉向「如何低成本、高效率地用好模型」,AI 進入工業化落地的全新階段。
- 企業戰略轉型:英偉達不再是單純的 GPU 芯片公司,而是 AI 時代的全棧基礎設施締造者,提供從底層芯片、系統架構、軟件庫到上層智能體平台的完整 AI 解決方案。
- 產業商業邏輯重構:提出「Token 工廠」核心概念 —— 數據中心不再是數據存儲倉庫,而是生產 AI 智慧基本單位「Token」的工廠,Token 成為 AI 時代的全新大宗商品,企業的核心競爭力將由「Token 生產效率與單位成本」決定。
- 市場空間預期:將 2026-2027 年全球 AI 算力需求預期從 5000 億美元直接上調至 1 萬億美元,判斷 AI 算力需求已進入「百萬倍增長」階段。
二、AI 算力成本的深度拆解:底層邏輯、技術突破與量化成果
黃仁勳在演講中明確指出:算力成本的核心約束是電力,而非芯片數量。「一座 1GW 的工廠永遠無法變成 2GW,這是物理定律。在固定的功率下,誰的每瓦 Token 吞吐量最高,誰的生產成本就最低」,這一判斷構成了英偉達本次所有技術發布的核心出發點。
(一)算力成本下降的核心硬件突破:Vera Rubin 平台
本次演講的核心硬件發布 Vera Rubin 全棧計算平台,是英偉達壓低 AI 算力成本的核心載體,已進入量產階段,下半年將大規模交付,其對算力成本的優化體現在全鏈路的量化突破:
- 推理成本數量級下降:相比上一代 Blackwell 平台,Vera Rubin Ultra 機櫃的每瓦推理吞吐量提升 10 倍,單 Token 推理成本直接降至前代的 1/10。其中 FP4 精度推理算力達到 50 PFLOPS,是 Blackwell 的 5 倍,訓練算力 35 PFLOPS,達到前代的 3.5 倍。
- 訓練成本大幅優化:針對當前主流的 MoE 混合專家模型,Vera Rubin NVL72 機架可讓頂級 MoE 模型訓練所需的 GPU 數量減少 75%,也就是僅需上一代平台 1/4 的硬件資源即可完成同等規模的模型訓練,大幅降低採購、部署與運維成本。
- 基礎設施端的成本壓縮:該機架採用 100% 液冷與無線纜模塊化設計,機架安裝時間從 2 小時壓縮至 5 分鐘,解決了高密度算力的散熱與部署痛點,進一步降低數據中心的建設與運營成本。
- 制程與內存的底層優化:採用台積電 3nm 製程,集成 3360 億晶體管,搭載 288GB HBM4 內存,內存帶寬達 22TB / 秒,大幅降低數據讀寫延遲與能耗,從芯片底層實現算力效率的提升與單位成本的下降。
(二)推理場景的補充成本革命:Groqq LPU 芯片
針對對延遲極度敏感的高價值推理場景,英偉達通過收購的 Groqq 公司發布全新 LP30 LPU 芯片與 Groqq3LPX 機架,實現推理成本的進一步突破:
- 單機架集成 256 個 LPU 處理器,每兆瓦推理吞吐量較前代提升 35 倍,專門面向高實時性、高價值的 Token 生成場景,彌補了通用 GPU 在極速推理場景的效率短板。
- 黃仁勳在演講中給出了明確的算力配置建議:高吞吐場景 100% 使用 Vera Rubin;若有大量高價值的編程級 Token 生成需求,可將 25% 的數據中心規模配置給 Groqq,實現成本與效率的最優平衡。
(三)軟件生態帶來的長期算力成本持續下降
除了硬件迭代,黃仁勳重點強調了 CUDA 生態帶來的「長期成本紅利」,這也是英偉達算力成本優勢的核心護城河:
- CUDA 飛輪效應:今年是 CUDA 誕生 20 周年,其已在全球累計數億級的安裝基數,形成「安裝基數吸引開發者 — 開發者帶來算法優化 — 優化推動性能提升與成本下降 — 進一步擴大安裝基數」的正向循環。
- 全生命周期的成本優化:英偉達會對已出貨的 GPU 架構提供長期軟件優化,而非僅有新品上市時的性能躍升。例如 6 年前出貨的 Ampere 架構,如今在雲端的定價反而上漲,核心原因就是持續的軟件優化讓其算力效率不斷提升,用戶的單位算力成本持續下降。
- 數據處理環節的成本壓縮:本次發布的 cuDF(結構化數據加速庫)與 cuVS(非結構化向量數據處理庫),可讓企業級數據運算效率實現數量級提升,例如與 Snapchat 合作將其計算成本降低了近 80%,覆蓋了 AI 全流程中數據預處理環節的成本優化。
(四)Token 工廠經濟學:算力成本的商業化模型
黃仁勳在演講中完整構建了基於算力成本的 AI 商業模型,將算力成本與 AI 企業的營收、盈利直接掛鉤:
- 成本與收入的直接對標:在 Token 工廠模型中,Token 的生產效率與單位成本,直接決定 AI 服務企業的營收與利潤率。黃仁勳明確指出「在這個 Token 工廠裡,你的吞吐量和 Token 生成速度,將直接轉化為你明年的精確收入」。
- AI 服務的成本分層體系:演講中首次公布了當前 AI 服務的商業分層與對應的成本結構,而英偉達的全棧方案可覆蓋全場景的成本優化:
- 免費層:高吞吐、低速度,需要極低的單位 Token 成本
- 中級層:約每百萬 Token 3 美元
- 高級層:約每百萬 Token 6 美元
- 高速層:約每百萬 Token 45 美元
- 超高速層:約每百萬 Token 150 美元
- 成本優化的終極目標:黃仁勳表示,英偉達的技術路線核心目標,就是讓 Token 變得像空氣一樣便宜,打破 Token 的稀缺性,推動 AI 在全產業的規模化落地。
三、後續算力成本的技術路線圖
演講中還提前披露了未來 3 年的技術迭代路線,持續鎖定算力成本的進一步下降:
- Rubin Ultra(2027 年量產):採用 Kyber 豎向機架架構,單機架集成 576 顆 GPU,FP4 推理算力達 15 ExaFLOPS,是 Rubin NVL144 的 4 倍,升級 HBM4e 內存,專為超大規模世界模型訓練設計,進一步壓低超大模型的訓練與推理成本。
- Feynman 架構(2028 年量產):下一代旗艦架構,採用台積電 1.6nm 製程,引入光通信技術,實現銅線與 CPO 共封裝光學的共同水平擴展,將實現算力的進一步躍升與能耗的顯著降低,支撐未來百萬倍的算力需求增長。
NVIDIA GTC 2026 主題演講核心發布內容
以下內容基於大會主題演講的核心發布邏輯,結合 NVIDIA 技術生態與行業場景,對每項核心發布進行深度延展與完整說明:
一、三大平台與全新 AI 工廠平台發布,構建全棧式 AI 生態體系
NVIDIA 在本屆 GTC 2026 正式公布三大核心戰略平台,完成從底層硬體、中間件到上層場景的全鏈路生態閉環,徹底打通 AI 技術從研發到產業化落地的全流程。
三大平台具體包括:
- CUDA X 全棧加速平台:作為 CUDA 生態的下一代升級版本,CUDA X 進一步擴充了針對生成式 AI、科學計算、工業數字孿生的專用加速庫,向下兼容全系列 NVIDIA 硬體,向上支撐全球超 90% 的 AI 框架與商業軟體,持續鞏固 NVIDIA 在通用加速計算領域的生態壁壘;
- 系統級整合平台:覆蓋從邊緣終端、企業級伺服器到超算中心的全場景硬體系統,實現硬體、固件、驅動與軟體棧的深度優化,解決傳統分散式架構的性能瓶頸;
- 全新一代 AI 工廠平台:作為本屆大會的核心戰略發布,AI 工廠平台整合了數據處理、模型預訓練、微調、推理部署、代理運行的全流程能力,為企業提供一站式的 AI 產業化落地解決方案,無需企業自行搭建複雜的分散式架構,即可實現大模型與 AI 代理的規模化商用。
二、神經渲染技術與 DLSS 5 正式亮相,重構下一代圖形渲染標準
NVIDIA 在本屆大會發布下一代圖形技術核心 —— 神經渲染,實現 3D 圖形學與人工智慧的深度融合,顛覆傳統光柵化與光線追蹤的渲染邏輯。
不同於傳統渲染技術對幾何、材質、光線的逐幀物理模擬,神經渲染透過 AI 模型對場景、光影、材質的深度學習,實現可控、高保真、超低算力消耗的實時渲染,可廣泛應用於遊戲、影視動畫、工業數字孿生、元宇宙場景。
與此同時,NVIDIA 正式推出DLSS 5 超分辯率技術,作為神經渲染體系的核心組件,DLSS 5 基於新一代多模態大模型訓練,相比上一代實現了畫質、幀率、場景泛化能力的全面躍升:不僅可實現更高倍數的畫面超分與幀率生成,更解決了前代技術在快速移動場景、細微紋理、文字渲染上的失真問題,同時原生支持神經渲染場景的畫面優化,成為下一代遊戲與 3D 內容創作的標配技術。
三、虛擬世界結構化數據與生成式 AI 深度融合,打造可信 AI 基礎底座
NVIDIA 在演講中強調,結構化數據是實現可信、可控生成式 AI 的核心基礎,本屆大會正式推出虛擬世界結構化數據與生成式 AI 的融合解決方案。
傳統生成式 AI 的輸出存在隨機性、不可控性,難以滿足工業、影視、建築等專業場景的精準需求;而 NVIDIA 透過將 Omniverse 平台的數字孿生結構化數據(包括場景幾何、物理規則、材質屬性、時序邏輯等標準化數據)與生成式 AI 模型深度耦合,讓 AI 在生成內容時嚴格遵循底層的結構化規則,徹底解決生成內容的「幻覺」問題。
該技術可實現三大核心價值:
- 完全符合物理規則的 3D 場景與動畫生成;
- 嚴格匹配工業參數的數字孿生模型自動構建;
- 可追溯、可編輯、可復用的生成式內容生產,為工業製造、智慧城市、影視內容創作等領域提供了可信的生成式 AI 底座。
四、AI 代理全面賦能軟體工程,實現從輔助編碼到全流程自動化的躍升
NVIDIA 在本屆大會公布了 AI 代理在軟體工程領域的全面落地成果,並宣布 NVIDIA 全球研發團隊已全面啟用自研的 AI 輔助編碼與工程代理工具。
黃仁勳在演講中提到,AI 技術已完成從「感知能力」「生成能力」到「邏輯推理與任務執行能力」的進化,AI 代理不再是簡單的代碼補全工具,而是可深度參與軟體工程全流程的協作者。
NVIDIA 的軟體工程 AI 代理可實現全鏈路賦能:基於自然語言需求自動拆解開發任務,生成完整的開發流程與技術方案;完成全棧式代碼編寫、單元測試、漏洞修復與性能優化;實現跨團隊協作的任務跟進、文檔生成與代碼維護;基於線上運行數據自動迭代優化系統架構。
目前 NVIDIA 內部數據顯示,該 AI 代理工具已將軟體研發的整體效率提升超過 300%,大幅縮短了新技術與新產品的研發週期,同時也將該能力開放給全球開發者,賦能整個軟體行業的生產力升級。
五、全新自研 CPU 與 Vera Rubin 超級計算系統正式發布,突破通用計算性能邊界
NVIDIA 在本屆 GTC 2026 帶來重磅硬體發布:推出專為高單執行緒性能、海量數據處理與極高能效比設計的全新自研 CPU,同時發布搭載該 CPU 的Vera Rubin 超級計算系統。
不同於此前面向超算場景的 Arm 架構 Grace CPU,本次發布的全新 CPU 針對 AI 時代的工作負載進行了架構級重構:重點強化了單執行緒執行性能,解決 AI 訓練與推理場景中 CPU 側的性能瓶頸;同時集成了專用的數據預處理加速引擎、內存互連控制器與安全加密模塊,可與 NVIDIA GPU 實現無縫協同,端到端提升 AI 工作負載的執行效率。
而 Vera Rubin 超級計算系統,則是 NVIDIA 基於全新 CPU 與下一代 GPU 架構打造的頂級超算平台,實現了 CPU、GPU、DPU 的全棧整合,可支撐超大規模大模型預訓練、科學計算、天體物理模擬、氣候預測等極限算力需求,成為全球頂級科研機構與科技企業的核心算力底座。
六、100% 液冷技術賦能 Vera Rubin 系統,重塑數據中心建設與運營標準
伴隨 Vera Rubin 超算系統的發布,NVIDIA 同時公布了新一代數據中心液冷技術方案,為 Vera Rubin 系統提供全鏈路的散熱與能效優化。
該方案採用100% 液冷架構,捨棄了傳統的風冷散熱模式,並創新性地採用 45℃熱水冷卻技術,顛覆了傳統液冷對低水溫的嚴苛要求。相比傳統數據中心方案,該技術帶來了多個維度的革命性提升:
- 部署效率大幅提升:單機櫃的安裝調試時間從傳統方案的 2 天縮短至 2 小時,大幅降低了超大規模數據中心的建設週期與人力成本;
- 能耗成本顯著下降:無需配置低溫冷水機組,可直接利用常溫水進行冷卻,數據中心 PUE(電源使用效率)可降至 1.05 以下,遠低於全球數據中心的平均水平,每年可為超大規模 AI 數據中心節省數億元的電力成本;
- 算力密度極限提升:單機櫃可支持的算力密度相比風冷方案提升超過 5 倍,可在有限的數據中心空間內部署更大規模的算力集群,完美匹配 AI 大模型時代對超大規模算力的需求。
七、第六代 NVLink 互聯系統正式推出,搭載 Groq 晶片的 LP30 系統實現量產
NVIDIA 在本屆大會發布第六代 NVLink 互聯技術,作為 NVIDIA 多 GPU 集群互連的核心技術,第六代 NVLink 實現了帶寬、延遲、擴展性的全面升級。
相比上一代技術,第六代 NVLink 的單向帶寬提升超過 100%,多 GPU 之間的點對點延遲降低超過 40%,同時支持更大規模的 GPU 集群無縫互聯,可實現數千顆 GPU 之間的高速數據交互,徹底解決超大規模 AI 訓練場景中的互連瓶頸,是支撐萬億參數大模型預訓練的核心技術底座。
與此同時,NVIDIA 宣布搭載八顆 Groq 專用 AI 晶片的 LP30 加速系統已正式實現量產,該系統原生支持第六代 NVLink 互連技術,針對 AI 推理與 AI 代理工作負載進行了深度優化,相比傳統通用 GPU 方案,在 AI 代理任務上的能效比提升超過 6 倍,可為企業提供低成本、高性價比的 AI 代理規模化部署解決方案,進一步完善了 NVIDIA 從訓練到推理的全場景硬體佈局。
八、全球首款 CPO 封裝 Spectrum X 交換機量產,攜手台積電打造 Coupe 工藝
NVIDIA 在本屆大會宣布,全球首款基於 CPO(共封裝光學)技術的 Spectrum X 乙太網交換機已正式量產,再次引領數據中心網絡技術的革新。
Spectrum X 是 NVIDIA 專為 AI 數據中心打造的高端交換機系列,本次升級的 CPO 版本,將光學引擎與交換晶片直接封裝在一起,捨棄了傳統的可插拔光模組方案,帶來了革命性的性能提升:
- 帶寬密度大幅提升:單機交換帶寬相比傳統方案提升超過 3 倍,同時體積縮小 50%;
- 能效比顯著優化:單比特數據傳輸的功耗降低超過 60%,大幅降低 AI 數據中心的網絡側能耗;
- 傳輸延遲顯著降低:消除了光模組與晶片之間的信號損耗,端到端網絡延遲降低超過 40%,完美匹配 AI 分散式訓練與推理對低延遲、高可靠網絡的需求。
同時,NVIDIA 透露該 CPO 交換機採用了與台積電聯合研發的 Coupe 製程工藝,實現了邏輯晶片與光學元件的異構集成,為下一代半導體封裝技術提供了全新的解決方案。

