當AI開口說話，誰在聽？

OpenAI發布三項即時語音API功能，涵蓋推理對話、70語言翻譯與即時轉錄。這不只是技術更新，而是語音介面正式成為AI競爭主戰場的訊號。

你打電話給客服，對方回答流暢、語氣自然，全程沒有停頓——直到掛斷後你才想到：那真的是人嗎？

這個問題，在2026年5月8日之後，將變得更難回答。

OpenAI 宣布在其開發者API中加入一系列全新語音智慧功能，涵蓋具備推理能力的對話模型、即時多語言翻譯，以及同步語音轉文字。這三項功能合在一起，代表語音AI正式從「問答工具」升級為「能做事的對話介面」。

三項功能，一個方向

OpenAI 這次推出的核心是三個模型。

GPT‑Realtime‑2 是前代 GPT-Realtime-1.5 的升級版，最關鍵的差異在於：它搭載了 GPT-5 等級的推理能力。這意味著它不只能「聽懂」你說什麼，還能在對話中處理複雜請求、做出判斷，而不是僅僅給出預設回應。

GPT‑Realtime‑Translate 提供即時口譯功能，支援超過70種輸入語言與13種輸出語言。OpenAI 強調其設計目標是「跟上使用者的對話節奏」，而非像傳統翻譯軟體那樣逐句延遲處理。

GPT‑Realtime‑Whisper 則是即時語音轉文字功能，在對話進行的同時同步生成文字記錄，適用於會議記錄、字幕生成、客服通話存檔等場景。

在商業模式上，翻譯與轉錄功能按分鐘計費，GPT-Realtime-2 則按token用量計費。這種差異化定價，反映了不同功能的運算成本結構，也讓企業可以依需求靈活選擇。

廣告合作

[email protected]

為什麼現在？

語音AI的競爭早已展開。Google 的 Gemini Live、Amazon Alexa 的企業版，乃至各類新創公司，都在搶占語音介面的市場。OpenAI 這次選擇以API形式發布，而非推出自家終端產品，是一種刻意的策略：讓開發者成為擴散的媒介，讓 OpenAI 的技術成為無數應用背後的引擎。

這個時間點也有其背景。OpenAI 剛完成 GPT-5 的發布，正處於市場聲量的高峰期。將語音功能與 GPT-5 等級推理綁定，是一種技術敘事上的強化：不只是「更快的語音AI」，而是「會思考的語音AI」。

對華語市場而言，這個發展有幾個值得關注的面向。

客服與電商是最直接的應用場景。台灣、香港、東南亞的華語電商平台，長期面臨多語言客服的人力成本壓力。若語音AI能流暢處理粵語、閩南語、普通話之間的切換，將對這些市場的客服運營產生實質影響。然而，13種輸出語言的名單中是否涵蓋繁體中文、廣東話，目前尚未明確，這是華語開發者需要確認的關鍵細節。

教育科技同樣是重要賽道。線上語言學習平台、企業英語培訓、跨境商務溝通工具，都可能因即時翻譯與轉錄功能而重新設計產品邏輯。

地緣政治的隱形邊界也不容忽視。中國大陸市場對 OpenAI 的服務存在明確的使用限制，這意味著相同的技術能力，在兩岸三地的可及性存在結構性差異。當全球企業加速採用 OpenAI 語音API時，中國大陸的企業與開發者將依賴本土替代方案——百度、科大訊飛、阿里巴巴 等公司的語音技術競爭，將因此獲得更清晰的對照參考。

便利之外的疑慮

OpenAI 坦承這些功能存在被濫用的風險，並表示已內建防護機制：當系統偵測到對話違反有害內容準則時，將自動中止通話。

但技術防護與現實濫用之間，從來都有落差。語音詐騙在亞洲已是嚴重的社會問題——從台灣的假冒政府機關電話，到香港的投資詐騙語音，再到東南亞的電信詐騙集團。當語音AI的擬真度進一步提升，現有的辨識方法將面臨更大的挑戰。

另一個值得思考的問題是透明度。當消費者與AI語音互動時，他們是否知情？是否有知情同意的機制？不同國家對此的法規要求不同，企業在導入這類技術時，合規成本將是不可忽視的變數。

三項功能，一個方向

為什麼現在？

便利之外的疑慮

观点

相关文章