不翻譯就能「看懂」圖像的AI,商湯科技在打什麼算盤?
商湯科技發布開源模型SenseNova U1,採用全新NEO-Unify架構,可直接以圖像進行推理而無需轉換為文字。速度領先、支援國產晶片,這對中美AI競賽意味著什麼?
一家曾被美國制裁、在中國AI賽道上掉隊的企業,用一個開源模型宣告自己還在局裡。
2026年4月22日,商湯科技(SenseTime)在Hugging Face與GitHub上免費發布了新模型「SenseNova U1」。這家以人臉辨識技術聞名的中國AI企業,試圖用一項技術架構創新,在生成式AI的戰場上重新站穩腳跟。
核心技術:省掉那個「翻譯」步驟
現有的多模態AI模型在處理圖像時,通常先將圖像轉換成文字描述,再以文字進行推理。這個轉換步驟既消耗算力,也拖慢速度。
SenseNova U1採用的「NEO-Unify」架構,直接跳過這個環節。模型能以圖像本身作為推理輸入,讓視覺與語言在同一個推理流程中並行運作。商湯共同創辦人兼首席科學家、同時也是香港中文大學資訊工程學系教授的林達華表示:「模型的整個推理過程不再侷限於文字,它也能用圖像進行推理。」
根據商湯發布的技術報告,U1的圖像生成品質在現有開源模型中達到最高水準,與阿里巴巴的Qwen和字節跳動的Seedream等中國主要閉源模型相當,但仍落後於一週前才發布的OpenAI GPT-Image-2.0。U1真正的賣點不是品質,而是速度——生成速度快於上述所有模型,且模型體積小到可在個人電腦與手機上運行。
另一個不容忽視的細節:發布當天,包括寒武紀和壁仞科技在內的10家中國晶片廠商同步宣布其硬體支援U1。這與DeepSeek最新旗艦模型的策略如出一轍——在美國出口管制持續收緊的背景下,主動構建以國產晶片為基礎的AI生態。林達華坦言,商湯「可能仍需使用最先進的晶片來確保迭代速度」,但同時強調會持續推動在更多不同晶片上的訓練。
商湯為何掉隊,又如何試圖追回來
商湯科技成立於2014年,在電腦視覺領域曾是全球頂尖玩家,技術廣泛應用於人臉辨識、自動駕駛等場景,一度被視為亞洲最具代表性的AI獨角獸。
然而2022年底ChatGPT的出現改變了賽局規則。以自然語言處理為核心的大型語言模型成為產業主角,專注電腦視覺的商湯陷入轉型困境,在盈利能力和技術聲量上都被DeepSeek、MiniMax等新創公司超越。
轉向開源,是商湯去年做出的戰略決定。林達華的邏輯直接:「在這個時代,開源或閉源不是決勝因素,迭代速度才是。」透過研究社群的反饋縮短開發周期,是追趕領先者的現實路徑。
開源策略還有另一層考量——繞過地緣政治障礙。商湯因被指控其人臉辨識技術協助中國在新疆對維吾爾族等少數民族實施監控,多次遭到美國政府制裁。美國企業對其投資及特定技術出口均受限制(商湯否認相關指控)。開源模型可以在不涉及直接商業交易的情況下,讓國際研究人員繼續使用和改進其技術,有效維持全球學術連結。
機器人熱潮與更大的地緣科技圖景
林達華對U1最看好的應用場景是機器人。「機器人要處理視覺世界,必須整理龐大的資訊——這個房間裡的雜亂如何應對?面前的複雜機器應該按哪個按鈕?這些都是資訊,需要整合進模型的內部判斷。」直接以圖像推理,能讓機器人在複雜環境中反應更快、出錯更少。
這一判斷與中國當前的產業趨勢高度契合。中國正處於人形機器人的發展熱潮之中,商湯雖未自行研發機器人,但已與另一位商湯共同創辦人主導的機器人新創ACE Robotics密切合作,並開發專注於地理空間理解與真實世界模擬的專用模型。
對台灣、香港及東南亞的科技產業觀察者而言,這場競賽的走向值得持續關注。台灣在半導體製造上的關鍵地位,使其成為中美AI軍備競賽中的核心節點——當中國加速構建國產晶片生態,台灣晶片廠商面對的市場格局也在悄然位移。Hugging Face的AI研究員Adina Yakefu對U1的評價是:「這是一個更具野心的方向,實際挑戰仍然很大。開源讓社群能夠廣泛探索和測試,這是好事。」技術是否成熟,市場會給出答案。
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
馬斯克在OpenAI訴訟中宣誓作證,揭露與賴利·佩吉因AI安全觀分歧而決裂的始末。這不只是矽谷恩怨,更是AI發展路線的根本之爭。
馬斯克對奧特曼的世紀AI訴訟正式開庭。第一位出庭作證的,是原告馬斯克本人。然而他的表現令人意外——他花了大量時間談論自己,而非OpenAI的背叛。
瑞士EPFL開發的「運動智能」框架,讓機器人技能可跨機型移植。這項技術對亞洲製造業、中美科技競爭與供應鏈格局意味著什麼?
川普政府解散國家科學委員會(NSB),NSF資金已降至歷史低點。從MRI到智慧型手機,這些改變世界的技術背後的守門人消失了,對全球科技競爭意味著什麼?
观点
分享你对这篇文章的看法
登录加入讨论