外稿_產經, 新聞來源:商傳媒, 綜合

阿里巴巴Metis AI代理突破冗餘呼叫從98%降至2%準確度大增

2026-05-01

我要分享

瀏覽數: 1,048

商傳媒｜葉安庭／綜合外電報導

阿里巴巴（Alibaba）的研究人員日前開發出名為Metis的AI代理，透過引入創新的Hierarchical Decoupled Policy Optimization（HDPO）框架，成功將其AI工具的冗餘呼叫從98%大幅降低至2%，同時在多項關鍵產業基準測試中，顯著提升了推理的準確度。

大型語言模型（LLMs）經常會盲目地呼叫外部工具，即便用戶的提示中已包含足夠完成任務的資訊，這種「過度啟用」的行為不僅導致延遲瓶頸、不必要的API成本，更會因環境雜訊而降低模型的推理能力。對於實際應用而言，這種頻繁且過多的工具呼叫，為系統帶來了嚴重的營運障礙。

為了解決此問題，阿里巴巴的研究人員推出了HDPO，這是一個強化學習框架，旨在訓練代理平衡執行效率與任務準確性。傳統的訓練演算法常將準確度與效率合併為單一獎勵訊號，形成難以最佳化的困境。HDPO則將準確度與效率拆分為兩個獨立的優化通道，其中準確度通道專注於最大化任務的正確性，效率通道則側重於優化執行經濟性。HDPO獨立計算這兩個通道的訓練訊號，僅在最終的損失計算階段進行結合，並確保錯誤的回應不會僅因速度快或使用較少工具而獲得獎勵。

研究團隊在嚴謹的多階段數據策劃下，透過篩選高品質的工具增強多模態數據，並使用Google的Gemini 3.1 Pro作為自動評審，確保訓練樣本能展現策略性的工具使用。Metis基於Qwen3-VL-8B-Instruct視覺語言模型開發，在兩階段訓練後，展現了卓越的效能。Metis在測試中超越了包括LLaVA-OneVision、DeepEyes V2及300億參數的Skywork-R1V4等現有AI代理模型，無論在視覺感知或推理任務上，都取得了最先進或極具競爭力的表現。例如，Metis能自動識別圖像中清晰可讀的文字，進而完全跳過工具使用，直接進行推理。

研究人員總結：「我們的結果表明，策略性的工具使用與強大的推理效能並非權衡取捨；相反，消除雜訊、冗餘的工具呼叫直接有助於提升卓越的準確性。」他們認為，這項工作預示著工具增強學習的範式轉變，從僅教導模型如何執行工具，轉向培養何時避免使用工具的「元認知智慧」。阿里巴巴已將Metis及其HDPO框架的程式碼依據Apache 2.0許可證開源。