警政時報

Google 為 Gemma 4 模型釋出 MTP 草稿器,AI 推論速度最高提升三倍

我要分享
圖/本報AI製圖(示意圖)

商傳媒|責任編輯/綜合外電報導

Google 於日前為其開源人工智慧模型系列 Gemma 4 釋出多代幣預測(Multi-Token Prediction, MTP)草稿器,旨在透過推測性解碼(speculative decoding)技術,顯著提升 AI 模型推論速度與反應能力,造福開發者。

Google 表示,這些新的 MTP 草稿器能夠將推論速度提高高達三倍,同時不影響輸出品質或推理性能。傳統大型語言模型(LLM)的推論過程常因處理器頻繁傳輸模型參數而產生瓶頸,MTP 技術正是為了解決此問題。其運作原理是讓輕量化的草稿模型同時預測多個未來的詞元(token),而較大的目標模型則平行驗證這些生成內容。

這項技術的應用層面廣泛,包括程式編寫助理、自主 AI 代理、語音應用程式、邊緣裝置 AI 工作負載,以及在消費者硬體上運行的離線 AI 系統。將 Gemma 4 模型與對應的 MTP 草稿器結合使用,能有效降低延遲、加速本地開發流程、改善裝置上的性能,並減少電池消耗,同時仍能維持輸出的準確性。為了優化硬體效率,草稿模型與目標模型共享啟動(activations)及鍵值快取(KV cache)資源,以減少重複計算。

Google 工程師 Olivier Lacombe 指出:「透過採用多代幣預測(MTP)草稿器,Gemma 4 模型有效減少延遲瓶頸,並為開發者提供更佳的反應能力。」此次釋出的 MTP 草稿器也針對邊緣模型和 Apple 晶片環境進行了額外優化。

Gemma 4 MTP 草稿器已在 Gemma 4 模型的 Apache 2.0 開源授權下立即提供,並支援多種平台,包含 Hugging Face、Kaggle、MLX、transformers、vLLM、SGLang、Ollama,以及 Google AI Edge Gallery 等。Google 先前曾宣布 Gemma 4 是其功能最強大的開源 AI 模型家族,並在發布後的數週內達到超過 6,000 萬次下載量。

我要分享

按個讚!警政時報粉絲團!讓您立馬觀看獨家影片!也可向我們投訴爆料哦    點這裡