
商傳媒|記者顏康寧/台北報導
科技圈近期迎來一次令人頭皮發麻的「系統更新」。DeepSeek V4 正式登場,這款模型最受關注的指標,不在於單純堆高參數,而在於對 KV Cache 的極致優化。官方資料顯示,V4-Pro 採用 MoE 架構,總參數達 1.6 兆、啟動參數約 49B,並支援 100 萬 token 長上下文。更關鍵的是,在相同長上下文條件下,其 KV Cache 負擔可降至前代約 10%,單 token 推論運算量也明顯下降。
這對長期承受「記憶體擠壓」的 AI 基礎設施而言,無疑是一場軟體層面的效率革命。不過,這並不代表大型模型已經能輕易在普通硬體上跑出資料中心級表現。更精準的說法是,DeepSeek V4 降低了長上下文與 AI Agent 推論的邊際成本,使更多企業與開發者有機會把複雜 AI 工作流帶進實際應用場景。
NVIDIA 的反應同樣迅速。Blackwell GPU 已實現 Day-0 同步支援,並透過 NIM、vLLM、SGLang 等工具鏈加速部署。這也呼應黃仁勳近期在專訪中的核心邏輯:即使模型持續優化、推論成本逐步下降,AI 最後仍需有人把電力、晶片、網路、記憶體與散熱系統轉化為 token。軟體效率提升沒有消滅算力需求,反而可能因為應用場景擴大,推升總體推論量。
對台灣年輕工程師而言,這是一個微妙訊號。當 AI Agent 開始成群結隊使用開發工具,過去單純依靠「寫程式」建立優勢的模式,正在面臨重新定價。真正變便宜的不是工程師本身,而是可重複、可明確描述、低風險的程式碼生產。未來更值錢的能力,將是定義問題、拆解需求、設計系統、驗證結果,並讓 AI 安全接入企業流程。
黃仁勳看透了這一點。NVIDIA 賣的不只是晶片,而是整個 AI 技術堆疊的執行環境。從 CUDA、生態工具、模型部署、資料中心到雲端合作,NVIDIA 正試圖讓全球最重要的 AI 工作負載,優先發生在其平台之上。投資 OpenAI、Anthropic 等模型公司,也不只是財務操作,更像是對未來 token 工廠的長期卡位。不過,這條護城河並非沒有挑戰,Google TPU、AWS Trainium、華為 Ascend 與各類開源推論框架,都在試圖分散 CUDA 的壟斷力量。
最犀利的觀察,仍落在地緣政治。當美國試圖用出口管制限制中國取得高階算力時,黃仁勳曾提醒,若政策只阻斷晶片,卻把開發者推向替代生態,長期可能削弱美國技術標準的影響力。DeepSeek V4 同時相容華為昇騰晶片,正是一個值得關注的訊號:中國 AI 生態正在尋找不依賴美國硬體與軟體堆疊的新路徑。
當然,出口管制並非沒有安全考量。美國國安派憂心先進 AI 晶片可能被用於軍事、監控與網攻能力,因此主張必要限制。問題在於,管制若無法同步維持開發者、工具鏈與產業標準的吸引力,短期或許能延緩對手取得高階算力,長期卻可能催生另一套自主生態。
未來 AI 產業的瓶頸,也不會只停留在 CoWoS 或 HBM。隨著資料中心規模持續擴張,電力、冷卻、光纖、交換器、施工人力與基礎建設,都將成為新限制。這是一個極大的諷刺:雲端模型正在討論兆級參數與百萬 token,而底層物理世界卻可能卡在電網、變電站與工程技術人力。
DeepSeek V4 的登場,並未宣告硬體時代結束,而是宣告 AI 競爭進入更複雜的階段。模型效率、晶片平台、開源框架、國家政策與基礎建設,將共同決定下一輪算力秩序。對開發者而言,真正的選擇不只是擁抱 CUDA,或轉向開源新路徑,而是在封閉但成熟的主流生態,與分散但不確定的替代生態之間,找到足以跨越下一個十年的技術位置。
