警政時報

Thinking Machines揭即時AI語音視訊對話 革新人機互動體驗

我要分享

商傳媒|葉安庭/綜合外電報導

由OpenAI前技術長米拉·穆拉提(Mira Murati)創辦的Thinking Machines Lab,近期發表其「互動模型」的研究預覽,聲稱實現了近乎即時的AI語音與視訊對話能力,有望革新人工智慧(AI)與人類的互動方式。

根據Thinking Machines Lab的說明,這類新型「互動模型」將互動性視為模型架構的核心元素,而非外部軟體輔助。此模型採用獨特的「全雙工」(full-duplex)架構,能同時處理200毫秒的音訊與視訊輸入及輸出片段。這使得AI模型在用戶說話時能即時給予回饋,或在觀察到視覺提示時主動介入,大幅提升對話的流暢度與自然感。

此次預覽展示了2,760億參數的混合專家模型(MoE)TML-Interaction-Small,其活躍參數達120億。測試數據顯示,TML-Interaction-Small的回合轉換延遲僅為0.40秒,優於Google的Gemini-3.1-flash-live(0.57秒)與GPT-realtime-2.0(1.18秒)。在多項互動品質評測中,TML-Interaction-Small也展現出顯著優勢,例如在FD-bench V1.5互動品質測試中獲得77.8分,高於GPT-realtime-2.0的46.8分和Gemini-3.1-flash-live的54.3分。

Thinking Machines Lab指出,若這項「互動模型」技術能廣泛應用於企業,將能根本性改變AI整合至營運流程的方式。它具備原生的時間感知能力,可管理如「每四分鐘提醒我檢查溫度」或「若此過程比上次耗時更久,則發出警報」等時間敏感的任務,這些是傳統多模態模型難以實現的功能。

Thinking Machines Lab自2025年初成立,同年7月宣布完成約20億美元融資,公司估值達到120億美元,主要投資方包括安德森·霍羅威茨(Andreessen Horowitz)、輝達(Nvidia)、阿克塞爾合夥公司(Accel)、ServiceNow、思科(Cisco)、超微半導體(AMD)及簡街資本(Jane Street)。公司在2025年10月推出了用於微調語言模型的受管API服務Tinker。此後,科技界對其高度關注,據《華爾街日報》2025年8月報導,Meta執行長祖克柏曾嘗試收購Thinking Machines Lab未果。隨後,Meta從Thinking Machines Lab挖角了Mark Jen、Yinghai Lu、Tianyi Zhang、Joshua Gross等數名創始成員與研究人員,Joshua Gross更加入了Meta Superintelligence Labs。儘管人才流失,Thinking Machines Lab仍持續擴張,員工數已達約130人,並延攬PyTorch的創建者Soumith Chintala擔任技術長(CTO),以及Weiyao Wang和Neal Wu等技術人才。

在算力佈局方面,Thinking Machines Lab於2026年3月至4月期間,宣布與輝達(Nvidia)合作,計畫部署至少1吉瓦(gigawatt)的次世代Vera Rubin系統,並擴大與Google Cloud的合作關係,利用Google的AI超級電腦基礎設施,結合輝達GB300系統,進行模型研究、強化學習與Tinker平台的開發。Thinking Machines Lab承諾將在其發布的產品中納入大量開源組件,以期回饋研究社群。

這項即時AI語音與視訊對話技術的突破,預期將對全球影音、通訊及互動娛樂產業帶來深遠變革。台灣相關業者亦將面臨新的發展機遇與挑戰,例如在智慧客服、虛擬實境應用及次世代內容創作方面,未來人機互動體驗有望更趨自然與流暢。

我要分享

按個讚!警政時報粉絲團!讓您立馬觀看獨家影片!也可向我們投訴爆料哦    點這裡