【三千世界】世界變

Published on 20-03-2026

Nvidia GTC 2026 大會，黃仁勳帶來近 3 小時的主題演講，發表英偉達從「芯片供應商」到「AI 基礎設施與工廠公司」的戰略轉型宣言，要睇：

一、演講整體核心主題與戰略定調

本次演講跳出了單一硬件發布的傳統框架，完整定義了 AI 產業的下一個時代，核心主題可歸納為四大維度：

時代拐點判斷：AI 正式從「訓練時代」進入「推理時代」，產業核心矛盾從「如何訓練出更好的大模型」，轉向「如何低成本、高效率地用好模型」，AI 進入工業化落地的全新階段。
企業戰略轉型：英偉達不再是單純的 GPU 芯片公司，而是 AI 時代的全棧基礎設施締造者，提供從底層芯片、系統架構、軟件庫到上層智能體平台的完整 AI 解決方案。
產業商業邏輯重構：提出「Token 工廠」核心概念 —— 數據中心不再是數據存儲倉庫，而是生產 AI 智慧基本單位「Token」的工廠，Token 成為 AI 時代的全新大宗商品，企業的核心競爭力將由「Token 生產效率與單位成本」決定。
市場空間預期：將 2026-2027 年全球 AI 算力需求預期從 5000 億美元直接上調至 1 萬億美元，判斷 AI 算力需求已進入「百萬倍增長」階段。

二、AI 算力成本的深度拆解：底層邏輯、技術突破與量化成果

黃仁勳在演講中明確指出：算力成本的核心約束是電力，而非芯片數量。「一座 1GW 的工廠永遠無法變成 2GW，這是物理定律。在固定的功率下，誰的每瓦 Token 吞吐量最高，誰的生產成本就最低」，這一判斷構成了英偉達本次所有技術發布的核心出發點。

（一）算力成本下降的核心硬件突破：Vera Rubin 平台

本次演講的核心硬件發布 Vera Rubin 全棧計算平台，是英偉達壓低 AI 算力成本的核心載體，已進入量產階段，下半年將大規模交付，其對算力成本的優化體現在全鏈路的量化突破：

推理成本數量級下降：相比上一代 Blackwell 平台，Vera Rubin Ultra 機櫃的每瓦推理吞吐量提升 10 倍，單 Token 推理成本直接降至前代的 1/10。其中 FP4 精度推理算力達到 50 PFLOPS，是 Blackwell 的 5 倍，訓練算力 35 PFLOPS，達到前代的 3.5 倍。
訓練成本大幅優化：針對當前主流的 MoE 混合專家模型，Vera Rubin NVL72 機架可讓頂級 MoE 模型訓練所需的 GPU 數量減少 75%，也就是僅需上一代平台 1/4 的硬件資源即可完成同等規模的模型訓練，大幅降低採購、部署與運維成本。
基礎設施端的成本壓縮：該機架採用 100% 液冷與無線纜模塊化設計，機架安裝時間從 2 小時壓縮至 5 分鐘，解決了高密度算力的散熱與部署痛點，進一步降低數據中心的建設與運營成本。
制程與內存的底層優化：採用台積電 3nm 製程，集成 3360 億晶體管，搭載 288GB HBM4 內存，內存帶寬達 22TB / 秒，大幅降低數據讀寫延遲與能耗，從芯片底層實現算力效率的提升與單位成本的下降。

（二）推理場景的補充成本革命：Groqq LPU 芯片

針對對延遲極度敏感的高價值推理場景，英偉達通過收購的 Groqq 公司發布全新 LP30 LPU 芯片與 Groqq3LPX 機架，實現推理成本的進一步突破：

單機架集成 256 個 LPU 處理器，每兆瓦推理吞吐量較前代提升 35 倍，專門面向高實時性、高價值的 Token 生成場景，彌補了通用 GPU 在極速推理場景的效率短板。
黃仁勳在演講中給出了明確的算力配置建議：高吞吐場景 100% 使用 Vera Rubin；若有大量高價值的編程級 Token 生成需求，可將 25% 的數據中心規模配置給 Groqq，實現成本與效率的最優平衡。

（三）軟件生態帶來的長期算力成本持續下降

除了硬件迭代，黃仁勳重點強調了 CUDA 生態帶來的「長期成本紅利」，這也是英偉達算力成本優勢的核心護城河：

CUDA 飛輪效應：今年是 CUDA 誕生 20 周年，其已在全球累計數億級的安裝基數，形成「安裝基數吸引開發者 — 開發者帶來算法優化 — 優化推動性能提升與成本下降 — 進一步擴大安裝基數」的正向循環。
全生命周期的成本優化：英偉達會對已出貨的 GPU 架構提供長期軟件優化，而非僅有新品上市時的性能躍升。例如 6 年前出貨的 Ampere 架構，如今在雲端的定價反而上漲，核心原因就是持續的軟件優化讓其算力效率不斷提升，用戶的單位算力成本持續下降。
數據處理環節的成本壓縮：本次發布的 cuDF（結構化數據加速庫）與 cuVS（非結構化向量數據處理庫），可讓企業級數據運算效率實現數量級提升，例如與 Snapchat 合作將其計算成本降低了近 80%，覆蓋了 AI 全流程中數據預處理環節的成本優化。

（四）Token 工廠經濟學：算力成本的商業化模型

黃仁勳在演講中完整構建了基於算力成本的 AI 商業模型，將算力成本與 AI 企業的營收、盈利直接掛鉤：

成本與收入的直接對標：在 Token 工廠模型中，Token 的生產效率與單位成本，直接決定 AI 服務企業的營收與利潤率。黃仁勳明確指出「在這個 Token 工廠裡，你的吞吐量和 Token 生成速度，將直接轉化為你明年的精確收入」。
AI 服務的成本分層體系：演講中首次公布了當前 AI 服務的商業分層與對應的成本結構，而英偉達的全棧方案可覆蓋全場景的成本優化：
- 免費層：高吞吐、低速度，需要極低的單位 Token 成本
- 中級層：約每百萬 Token 3 美元
- 高級層：約每百萬 Token 6 美元
- 高速層：約每百萬 Token 45 美元
- 超高速層：約每百萬 Token 150 美元
成本優化的終極目標：黃仁勳表示，英偉達的技術路線核心目標，就是讓 Token 變得像空氣一樣便宜，打破 Token 的稀缺性，推動 AI 在全產業的規模化落地。

三、後續算力成本的技術路線圖

演講中還提前披露了未來 3 年的技術迭代路線，持續鎖定算力成本的進一步下降：

Rubin Ultra（2027 年量產）：採用 Kyber 豎向機架架構，單機架集成 576 顆 GPU，FP4 推理算力達 15 ExaFLOPS，是 Rubin NVL144 的 4 倍，升級 HBM4e 內存，專為超大規模世界模型訓練設計，進一步壓低超大模型的訓練與推理成本。
Feynman 架構（2028 年量產）：下一代旗艦架構，採用台積電 1.6nm 製程，引入光通信技術，實現銅線與 CPO 共封裝光學的共同水平擴展，將實現算力的進一步躍升與能耗的顯著降低，支撐未來百萬倍的算力需求增長。

NVIDIA GTC 2026 主題演講核心發布內容

以下內容基於大會主題演講的核心發布邏輯，結合 NVIDIA 技術生態與行業場景，對每項核心發布進行深度延展與完整說明：

一、三大平台與全新 AI 工廠平台發布，構建全棧式 AI 生態體系

NVIDIA 在本屆 GTC 2026 正式公布三大核心戰略平台，完成從底層硬體、中間件到上層場景的全鏈路生態閉環，徹底打通 AI 技術從研發到產業化落地的全流程。

三大平台具體包括：

CUDA X 全棧加速平台：作為 CUDA 生態的下一代升級版本，CUDA X 進一步擴充了針對生成式 AI、科學計算、工業數字孿生的專用加速庫，向下兼容全系列 NVIDIA 硬體，向上支撐全球超 90% 的 AI 框架與商業軟體，持續鞏固 NVIDIA 在通用加速計算領域的生態壁壘；
系統級整合平台：覆蓋從邊緣終端、企業級伺服器到超算中心的全場景硬體系統，實現硬體、固件、驅動與軟體棧的深度優化，解決傳統分散式架構的性能瓶頸；
全新一代 AI 工廠平台：作為本屆大會的核心戰略發布，AI 工廠平台整合了數據處理、模型預訓練、微調、推理部署、代理運行的全流程能力，為企業提供一站式的 AI 產業化落地解決方案，無需企業自行搭建複雜的分散式架構，即可實現大模型與 AI 代理的規模化商用。

二、神經渲染技術與 DLSS 5 正式亮相，重構下一代圖形渲染標準

NVIDIA 在本屆大會發布下一代圖形技術核心 —— 神經渲染，實現 3D 圖形學與人工智慧的深度融合，顛覆傳統光柵化與光線追蹤的渲染邏輯。

不同於傳統渲染技術對幾何、材質、光線的逐幀物理模擬，神經渲染透過 AI 模型對場景、光影、材質的深度學習，實現可控、高保真、超低算力消耗的實時渲染，可廣泛應用於遊戲、影視動畫、工業數字孿生、元宇宙場景。

與此同時，NVIDIA 正式推出DLSS 5 超分辯率技術，作為神經渲染體系的核心組件，DLSS 5 基於新一代多模態大模型訓練，相比上一代實現了畫質、幀率、場景泛化能力的全面躍升：不僅可實現更高倍數的畫面超分與幀率生成，更解決了前代技術在快速移動場景、細微紋理、文字渲染上的失真問題，同時原生支持神經渲染場景的畫面優化，成為下一代遊戲與 3D 內容創作的標配技術。

三、虛擬世界結構化數據與生成式 AI 深度融合，打造可信 AI 基礎底座

NVIDIA 在演講中強調，結構化數據是實現可信、可控生成式 AI 的核心基礎，本屆大會正式推出虛擬世界結構化數據與生成式 AI 的融合解決方案。

傳統生成式 AI 的輸出存在隨機性、不可控性，難以滿足工業、影視、建築等專業場景的精準需求；而 NVIDIA 透過將 Omniverse 平台的數字孿生結構化數據（包括場景幾何、物理規則、材質屬性、時序邏輯等標準化數據）與生成式 AI 模型深度耦合，讓 AI 在生成內容時嚴格遵循底層的結構化規則，徹底解決生成內容的「幻覺」問題。

該技術可實現三大核心價值：

完全符合物理規則的 3D 場景與動畫生成；
嚴格匹配工業參數的數字孿生模型自動構建；
可追溯、可編輯、可復用的生成式內容生產，為工業製造、智慧城市、影視內容創作等領域提供了可信的生成式 AI 底座。

四、AI 代理全面賦能軟體工程，實現從輔助編碼到全流程自動化的躍升

NVIDIA 在本屆大會公布了 AI 代理在軟體工程領域的全面落地成果，並宣布 NVIDIA 全球研發團隊已全面啟用自研的 AI 輔助編碼與工程代理工具。

黃仁勳在演講中提到，AI 技術已完成從「感知能力」「生成能力」到「邏輯推理與任務執行能力」的進化，AI 代理不再是簡單的代碼補全工具，而是可深度參與軟體工程全流程的協作者。

NVIDIA 的軟體工程 AI 代理可實現全鏈路賦能：基於自然語言需求自動拆解開發任務，生成完整的開發流程與技術方案；完成全棧式代碼編寫、單元測試、漏洞修復與性能優化；實現跨團隊協作的任務跟進、文檔生成與代碼維護；基於線上運行數據自動迭代優化系統架構。

目前 NVIDIA 內部數據顯示，該 AI 代理工具已將軟體研發的整體效率提升超過 300%，大幅縮短了新技術與新產品的研發週期，同時也將該能力開放給全球開發者，賦能整個軟體行業的生產力升級。

五、全新自研 CPU 與 Vera Rubin 超級計算系統正式發布，突破通用計算性能邊界

NVIDIA 在本屆 GTC 2026 帶來重磅硬體發布：推出專為高單執行緒性能、海量數據處理與極高能效比設計的全新自研 CPU，同時發布搭載該 CPU 的Vera Rubin 超級計算系統。

不同於此前面向超算場景的 Arm 架構 Grace CPU，本次發布的全新 CPU 針對 AI 時代的工作負載進行了架構級重構：重點強化了單執行緒執行性能，解決 AI 訓練與推理場景中 CPU 側的性能瓶頸；同時集成了專用的數據預處理加速引擎、內存互連控制器與安全加密模塊，可與 NVIDIA GPU 實現無縫協同，端到端提升 AI 工作負載的執行效率。

而 Vera Rubin 超級計算系統，則是 NVIDIA 基於全新 CPU 與下一代 GPU 架構打造的頂級超算平台，實現了 CPU、GPU、DPU 的全棧整合，可支撐超大規模大模型預訓練、科學計算、天體物理模擬、氣候預測等極限算力需求，成為全球頂級科研機構與科技企業的核心算力底座。

六、100% 液冷技術賦能 Vera Rubin 系統，重塑數據中心建設與運營標準

伴隨 Vera Rubin 超算系統的發布，NVIDIA 同時公布了新一代數據中心液冷技術方案，為 Vera Rubin 系統提供全鏈路的散熱與能效優化。

該方案採用100% 液冷架構，捨棄了傳統的風冷散熱模式，並創新性地採用 45℃熱水冷卻技術，顛覆了傳統液冷對低水溫的嚴苛要求。相比傳統數據中心方案，該技術帶來了多個維度的革命性提升：

部署效率大幅提升：單機櫃的安裝調試時間從傳統方案的 2 天縮短至 2 小時，大幅降低了超大規模數據中心的建設週期與人力成本；
能耗成本顯著下降：無需配置低溫冷水機組，可直接利用常溫水進行冷卻，數據中心 PUE（電源使用效率）可降至 1.05 以下，遠低於全球數據中心的平均水平，每年可為超大規模 AI 數據中心節省數億元的電力成本；
算力密度極限提升：單機櫃可支持的算力密度相比風冷方案提升超過 5 倍，可在有限的數據中心空間內部署更大規模的算力集群，完美匹配 AI 大模型時代對超大規模算力的需求。

七、第六代 NVLink 互聯系統正式推出，搭載 Groq 晶片的 LP30 系統實現量產

NVIDIA 在本屆大會發布第六代 NVLink 互聯技術，作為 NVIDIA 多 GPU 集群互連的核心技術，第六代 NVLink 實現了帶寬、延遲、擴展性的全面升級。

相比上一代技術，第六代 NVLink 的單向帶寬提升超過 100%，多 GPU 之間的點對點延遲降低超過 40%，同時支持更大規模的 GPU 集群無縫互聯，可實現數千顆 GPU 之間的高速數據交互，徹底解決超大規模 AI 訓練場景中的互連瓶頸，是支撐萬億參數大模型預訓練的核心技術底座。

與此同時，NVIDIA 宣布搭載八顆 Groq 專用 AI 晶片的 LP30 加速系統已正式實現量產，該系統原生支持第六代 NVLink 互連技術，針對 AI 推理與 AI 代理工作負載進行了深度優化，相比傳統通用 GPU 方案，在 AI 代理任務上的能效比提升超過 6 倍，可為企業提供低成本、高性價比的 AI 代理規模化部署解決方案，進一步完善了 NVIDIA 從訓練到推理的全場景硬體佈局。

八、全球首款 CPO 封裝 Spectrum X 交換機量產，攜手台積電打造 Coupe 工藝

NVIDIA 在本屆大會宣布，全球首款基於 CPO（共封裝光學）技術的 Spectrum X 乙太網交換機已正式量產，再次引領數據中心網絡技術的革新。

Spectrum X 是 NVIDIA 專為 AI 數據中心打造的高端交換機系列，本次升級的 CPO 版本，將光學引擎與交換晶片直接封裝在一起，捨棄了傳統的可插拔光模組方案，帶來了革命性的性能提升：

帶寬密度大幅提升：單機交換帶寬相比傳統方案提升超過 3 倍，同時體積縮小 50%；
能效比顯著優化：單比特數據傳輸的功耗降低超過 60%，大幅降低 AI 數據中心的網絡側能耗；
傳輸延遲顯著降低：消除了光模組與晶片之間的信號損耗，端到端網絡延遲降低超過 40%，完美匹配 AI 分散式訓練與推理對低延遲、高可靠網絡的需求。

同時，NVIDIA 透露該 CPO 交換機採用了與台積電聯合研發的 Coupe 製程工藝，實現了邏輯晶片與光學元件的異構集成，為下一代半導體封裝技術提供了全新的解決方案。

Share on Facebook

【黃金時代】齊晒

【黃金時代】拿手好戲

【黃金時代】加價是贏家

股中人早點(2026/05/04)

股中人早點(2026/04/29)

股中人早點(2026/04/28)

【三千世界】當下的力量

【三千世界】寧靜一夜

【三千世界】買ARM嘢

【收工最緊要睇戲】一頁百紙　一詩漣漪

【文字譚】一部電視三段人生寫盡煇黃時代

【文字譚】衛斯理主題曲體現倪匡超俗

【戰報】首屆PDC亞錦賽9月底舉行

【牛馬風塵】只許高層開P，不許會員掟鏢——疫下的香港飛鏢聯合總會

【戰報】PDC世錦賽　港隊代表林鼎智首圈出局

【蒼穹之下】見山是靈山

【通勤看小說】Netflix影集《愛X死X機器人》小說版：《魚夜》f.t 2023年台灣基隆朝藝術節

【通勤看小說’s書單】渣男的多重宇宙推理

股中人早點(2026/05/04)

股中人早點(2026/04/29)

股中人早點(2026/04/28)

【深夜點播】股中人🎧阿蘭《赤壁～大江東去～》

【深夜點播】股中人🎧《暖》方大同

【深夜點播】股中人🎧陳奕迅《任我行》

【三千世界】世界變

股中人早點(2026/05/04)

股中人早點(2026/04/29)

股中人早點(2026/04/28)

股中人早點(2026/04/27)