外稿_產經, 新聞來源:商傳媒, 綜合

Thinking Machines揭即時AI語音視訊對話革新人機互動體驗

2026-05-12

我要分享

瀏覽數: 225

商傳媒｜葉安庭／綜合外電報導

由OpenAI前技術長米拉·穆拉提（Mira Murati）創辦的Thinking Machines Lab，近期發表其「互動模型」的研究預覽，聲稱實現了近乎即時的AI語音與視訊對話能力，有望革新人工智慧（AI）與人類的互動方式。

根據Thinking Machines Lab的說明，這類新型「互動模型」將互動性視為模型架構的核心元素，而非外部軟體輔助。此模型採用獨特的「全雙工」（full-duplex）架構，能同時處理200毫秒的音訊與視訊輸入及輸出片段。這使得AI模型在用戶說話時能即時給予回饋，或在觀察到視覺提示時主動介入，大幅提升對話的流暢度與自然感。

此次預覽展示了2,760億參數的混合專家模型（MoE）TML-Interaction-Small，其活躍參數達120億。測試數據顯示，TML-Interaction-Small的回合轉換延遲僅為0.40秒，優於Google的Gemini-3.1-flash-live（0.57秒）與GPT-realtime-2.0（1.18秒）。在多項互動品質評測中，TML-Interaction-Small也展現出顯著優勢，例如在FD-bench V1.5互動品質測試中獲得77.8分，高於GPT-realtime-2.0的46.8分和Gemini-3.1-flash-live的54.3分。

Thinking Machines Lab指出，若這項「互動模型」技術能廣泛應用於企業，將能根本性改變AI整合至營運流程的方式。它具備原生的時間感知能力，可管理如「每四分鐘提醒我檢查溫度」或「若此過程比上次耗時更久，則發出警報」等時間敏感的任務，這些是傳統多模態模型難以實現的功能。

Thinking Machines Lab自2025年初成立，同年7月宣布完成約20億美元融資，公司估值達到120億美元，主要投資方包括安德森·霍羅威茨（Andreessen Horowitz）、輝達（Nvidia）、阿克塞爾合夥公司（Accel）、ServiceNow、思科（Cisco）、超微半導體（AMD）及簡街資本（Jane Street）。公司在2025年10月推出了用於微調語言模型的受管API服務Tinker。此後，科技界對其高度關注，據《華爾街日報》2025年8月報導，Meta執行長祖克柏曾嘗試收購Thinking Machines Lab未果。隨後，Meta從Thinking Machines Lab挖角了Mark Jen、Yinghai Lu、Tianyi Zhang、Joshua Gross等數名創始成員與研究人員，Joshua Gross更加入了Meta Superintelligence Labs。儘管人才流失，Thinking Machines Lab仍持續擴張，員工數已達約130人，並延攬PyTorch的創建者Soumith Chintala擔任技術長（CTO），以及Weiyao Wang和Neal Wu等技術人才。

在算力佈局方面，Thinking Machines Lab於2026年3月至4月期間，宣布與輝達（Nvidia）合作，計畫部署至少1吉瓦（gigawatt）的次世代Vera Rubin系統，並擴大與Google Cloud的合作關係，利用Google的AI超級電腦基礎設施，結合輝達GB300系統，進行模型研究、強化學習與Tinker平台的開發。Thinking Machines Lab承諾將在其發布的產品中納入大量開源組件，以期回饋研究社群。

這項即時AI語音與視訊對話技術的突破，預期將對全球影音、通訊及互動娛樂產業帶來深遠變革。台灣相關業者亦將面臨新的發展機遇與挑戰，例如在智慧客服、虛擬實境應用及次世代內容創作方面，未來人機互動體驗有望更趨自然與流暢。