外稿_產經, 新聞來源:商傳媒, 綜合

Google 為 Gemma 4 模型釋出 MTP 草稿器，AI 推論速度最高提升三倍

2026-05-08

我要分享

商傳媒｜責任編輯／綜合外電報導

Google 於日前為其開源人工智慧模型系列 Gemma 4 釋出多代幣預測（Multi-Token Prediction, MTP）草稿器，旨在透過推測性解碼（speculative decoding）技術，顯著提升 AI 模型推論速度與反應能力，造福開發者。

Google 表示，這些新的 MTP 草稿器能夠將推論速度提高高達三倍，同時不影響輸出品質或推理性能。傳統大型語言模型（LLM）的推論過程常因處理器頻繁傳輸模型參數而產生瓶頸，MTP 技術正是為了解決此問題。其運作原理是讓輕量化的草稿模型同時預測多個未來的詞元（token），而較大的目標模型則平行驗證這些生成內容。

這項技術的應用層面廣泛，包括程式編寫助理、自主 AI 代理、語音應用程式、邊緣裝置 AI 工作負載，以及在消費者硬體上運行的離線 AI 系統。將 Gemma 4 模型與對應的 MTP 草稿器結合使用，能有效降低延遲、加速本地開發流程、改善裝置上的性能，並減少電池消耗，同時仍能維持輸出的準確性。為了優化硬體效率，草稿模型與目標模型共享啟動（activations）及鍵值快取（KV cache）資源，以減少重複計算。

Google 工程師 Olivier Lacombe 指出：「透過採用多代幣預測（MTP）草稿器，Gemma 4 模型有效減少延遲瓶頸，並為開發者提供更佳的反應能力。」此次釋出的 MTP 草稿器也針對邊緣模型和 Apple 晶片環境進行了額外優化。

Gemma 4 MTP 草稿器已在 Gemma 4 模型的 Apache 2.0 開源授權下立即提供，並支援多種平台，包含 Hugging Face、Kaggle、MLX、transformers、vLLM、SGLang、Ollama，以及 Google AI Edge Gallery 等。Google 先前曾宣布 Gemma 4 是其功能最強大的開源 AI 模型家族，並在發布後的數週內達到超過 6,000 萬次下載量。