Liabooks Home|PRISM News
AI開口打斷你的那天,還有多遠?
科技AI分析

AI開口打斷你的那天,還有多遠?

4分钟阅读Source

Mira Murati創辦的Thinking Machines Lab發表互動模型TML-Interaction-Small,主張以0.40秒回應速度實現全雙工對話。這不只是速度競賽,而是人機互動模式的根本轉變。

你有沒有注意到,每次跟AI說話,都像在傳訊息——說完,等待,收到回覆,再說。沒有打斷,沒有「等等,你的意思是……」,沒有真正的來回。這不是對話,這是排隊。

Mira Murati的新創公司Thinking Machines Lab,想改變這件事。

一個技術名詞背後的大野心

2026年5月11日,Thinking Machines Lab發布了名為TML-Interaction-Small的模型,並為它取了一個新類別的名字:「互動模型(Interaction Models)」。

這個模型的核心技術叫做全雙工(Full Duplex)通訊。現有的所有AI語音系統都是「半雙工」——你說完,它才開始處理,處理完才回覆。就像對講機:一次只能一個人說話。Thinking Machines Lab要做的,是讓AI在你說話的同時就開始生成回應,像電話一樣雙向即時流動。

公司公布的數據是:回應延遲0.40秒,接近人類自然對話的反應速度,並聲稱顯著快於OpenAIGoogle的同類模型。

不過,這目前仍是「研究預覽」階段,尚未對外開放。公司表示將在未來數月內推出「限定研究預覽」,年內進行更廣泛的發布。

Mira Murati選擇了什麼樣的第一步

Mira Murati的背景讓這次發布格外值得關注。她是OpenAI前技術長,ChatGPT問世期間的核心人物之一。2025年她離開OpenAI創辦Thinking Machines Lab,外界一直好奇她的技術路線會走向何方。

她的答案是:讓AI學會打斷你。

這個選擇有其邏輯。當前AI語音介面最根本的問題不是「不夠聰明」,而是「不像在說話」。SiriGoogle AssistantChatGPT語音模式——它們本質上都是「用聲音操作的文字聊天」,缺乏真實對話中那種流動感、節奏感,以及關鍵的:打斷與被打斷

PRISM

廣告合作

[email protected]

人類對話充滿了這些「不完美」——插嘴、重疊發言、未說完就被接話。正是這些讓對話感覺真實。全雙工技術,理論上可以讓AI加入這個節奏。

亞洲市場怎麼看這件事

對華人世界的科技觀察者來說,這次發布有幾個值得思考的層面。

首先是市場競爭格局。在語音AI領域,中國大陸已有科大訊飛百度等公司深耕多年,語音辨識技術在中文環境下相當成熟。但「全雙工對話AI」作為一個新的技術方向,目前尚無主流產品真正實現。若Thinking Machines Lab的技術主張成立,這將是一個中國科技公司同樣需要快速跟進的賽道。

其次是應用場景的想像。台灣、香港、東南亞華人社群中,遠距醫療諮詢、客服自動化、語言學習工具都是AI語音介面的潛力市場。能夠自然打斷、即時回應的AI,在這些場景中的實用價值遠高於現有的「問答機器」。

然而,文化因素同樣不可忽視。在許多東亞文化脈絡中,打斷對方說話是失禮的行為。一個積極「插嘴」的AI,是否符合用戶的心理預期?這個問題的答案,可能因地區、年齡、使用情境而大相逕庭。

數字與體驗之間,永遠有一道鴻溝

0.40秒是一個好看的數字,但語音AI的「自然感」從來不只是速度問題。語調、停頓、上下文理解、知道什麼時候該閉嘴——這些加在一起,才構成「感覺像在說話」的體驗。

Thinking Machines Lab自己也謹慎地使用了「研究預覽」的措辭,沒有宣稱這是成熟產品。基準測試的表現能否轉化為真實用戶的滿意體驗,要等到一般人能夠實際使用之後才能判斷。

這個謹慎值得肯定,也值得記住——在AI領域,從「令人印象深刻的演示」到「改變日常使用習慣的產品」,這段距離歷來比預期更長。

競爭者的下一步

OpenAIGoogleApple在語音AI的投入規模遠超任何新創。若全雙工對話真的是下一個關鍵技術節點,這些公司的反應速度將決定Thinking Machines Lab的先發優勢能維持多久。

另一個變數是開源社群。若全雙工技術的核心架構被開源或被學術界快速複製,整個競爭格局可能在幾個月內重組。這在AI領域並非罕見。

本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。

观点

相关文章

PRISM

廣告合作

[email protected]
PRISM

廣告合作

[email protected]