
商傳媒|記者責任編輯/綜合外電報導
儘管微軟執行長納德拉(Satya Nadella)兩年前曾預言「AI將取代知識型工作者」,但時至2026年,辦公室裡的律師、投資銀行家、會計師與顧問們依然安坐崗位。科技媒體《TechCrunch》報導指出,儘管大型語言模型(LLM)持續進化,具備研究分析與任務規劃能力,但AI實際執行白領專業工作時的表現,依然令人失望。
根據訓練數據平台Mercor釋出的最新研究,AI在現實專業場景中的表現仍未及格。該研究推出名為「APEX-Agents」的新測試標準,模擬顧問、律師與投銀分析師的日常任務,結果顯示:無論是OpenAI、Google或Anthropic的先進模型,在這套測試中答對率皆不到25%。
APEX-Agents揭露關鍵弱點:跨領域推理能力嚴重不足
Mercor執行長傅迪(Brendan Foody)表示,AI模型的最大困難在於「跨平台、跨資料源的整合與推理」,不過這卻正是大多數知識型工作的核心。現實工作中資訊分散於Slack、Google Drive、Email、報告與法規文件之間,AI無法在這樣的環境下整合背景資訊並作出專業判斷,成為重大障礙。
研究團隊邀請Mercor平台上的專業人士實際提供真實工作任務,再由同業訂定評分標準。這與OpenAI先前推出的GDPval基準不同,後者主要測試通才知識,而APEX-Agents則深入少數高價值職業的「實作能力」,難度更高,也更貼近職業取代性問題的核心。
舉例而言,法律測驗中一題提問如下:
「在歐盟資料庫中斷前48分鐘,Northstar工程團隊向美國分析商匯出1-2份事件記錄檔,其中包含個資,根據Article 49條款與該公司的政策,這樣的匯出行為是否合規?」
正確答案是「是」,但過程需結合歐盟GDPR條文與Northstar內部政策才能推論,對AI而言難度極高。若模型能正確回答此類問題,才有資格談論取代法律顧問的可能。
在最新版本測試中,表現最佳的為Gemini 3 Flash(24%)與GPT-5.2(23%),其次為Opus 4.5、Gemini 3 Pro與GPT-5,皆僅約18%。換句話說,目前AI充其量只是「偶爾答對的實習生」,離可靠的職場夥伴仍有明顯距離;但傅迪指出,去年模型答對率僅約5%至10%,一年內已躍升至20%以上,若這種成長速度持續,數年內可能翻盤。
AI白領革命為時未晚 技術突破需環境建構與任務管理同步
Mercor的研究提醒AI業界,光是提升模型參數與記憶力仍不足以勝任複雜知識工作,必須同步建構出能模擬現實工作環境的任務管理機制。例如,自動在多平台之間切換、整合文件與訊息脈絡、以及長時段多階段任務追蹤能力,才是關鍵突破點。
正因如此,APEX-Agents被視為未來幾年判斷「白領職務自動化可能性」的關鍵測試標準。目前已於Hugging Face開放,對全球AI研究團隊釋出挑戰。










