警政時報

阿里巴巴Metis AI代理突破 冗餘呼叫從98%降至2%準確度大增

我要分享
圖/本報資料庫

商傳媒|葉安庭/綜合外電報導

阿里巴巴(Alibaba)的研究人員日前開發出名為Metis的AI代理,透過引入創新的Hierarchical Decoupled Policy Optimization(HDPO)框架,成功將其AI工具的冗餘呼叫從98%大幅降低至2%,同時在多項關鍵產業基準測試中,顯著提升了推理的準確度。

大型語言模型(LLMs)經常會盲目地呼叫外部工具,即便用戶的提示中已包含足夠完成任務的資訊,這種「過度啟用」的行為不僅導致延遲瓶頸、不必要的API成本,更會因環境雜訊而降低模型的推理能力。對於實際應用而言,這種頻繁且過多的工具呼叫,為系統帶來了嚴重的營運障礙。

為了解決此問題,阿里巴巴的研究人員推出了HDPO,這是一個強化學習框架,旨在訓練代理平衡執行效率與任務準確性。傳統的訓練演算法常將準確度與效率合併為單一獎勵訊號,形成難以最佳化的困境。HDPO則將準確度與效率拆分為兩個獨立的優化通道,其中準確度通道專注於最大化任務的正確性,效率通道則側重於優化執行經濟性。HDPO獨立計算這兩個通道的訓練訊號,僅在最終的損失計算階段進行結合,並確保錯誤的回應不會僅因速度快或使用較少工具而獲得獎勵。

研究團隊在嚴謹的多階段數據策劃下,透過篩選高品質的工具增強多模態數據,並使用Google的Gemini 3.1 Pro作為自動評審,確保訓練樣本能展現策略性的工具使用。Metis基於Qwen3-VL-8B-Instruct視覺語言模型開發,在兩階段訓練後,展現了卓越的效能。Metis在測試中超越了包括LLaVA-OneVision、DeepEyes V2及300億參數的Skywork-R1V4等現有AI代理模型,無論在視覺感知或推理任務上,都取得了最先進或極具競爭力的表現。例如,Metis能自動識別圖像中清晰可讀的文字,進而完全跳過工具使用,直接進行推理。

研究人員總結:「我們的結果表明,策略性的工具使用與強大的推理效能並非權衡取捨;相反,消除雜訊、冗餘的工具呼叫直接有助於提升卓越的準確性。」他們認為,這項工作預示著工具增強學習的範式轉變,從僅教導模型如何執行工具,轉向培養何時避免使用工具的「元認知智慧」。阿里巴巴已將Metis及其HDPO框架的程式碼依據Apache 2.0許可證開源。

我要分享

按個讚!警政時報粉絲團!讓您立馬觀看獨家影片!也可向我們投訴爆料哦    點這裡