Liabooks Home|PRISM News
AI下一波突破的燃料,藏在你的手機裡
经济AI分析

AI下一波突破的燃料,藏在你的手機裡

5分钟阅读Source

網路爬蟲時代終結,AI企業正競相爭奪個人數據、無人機地圖與企業檔案三大新型訓練資料來源。這場數據淘金熱將如何重塑AI產業格局與個人數據權利?

你昨晚在Spotify聽的歌、你在Google文件裡寫下的隻字片語、你向ChatGPT傾訴的煩惱——這些都已成為科技巨頭眼中的下一座金礦。

一場安靜卻深遠的轉變正在AI產業內部發生。過去十年,大型語言模型的崛起依賴一個近乎無限的資源:公開網路上的文字與圖像。然而這條路正在關閉。Reddit對API存取收取數百萬美元費用,The New York Times提起訴訟,出版商紛紛封鎖爬蟲程式。即便法律障礙不存在,更根本的問題已然浮現:下一代AI需要的,是網路上從未存在過的數據。

三個新興市場正在嘗試打開這扇門。

你的「數位廢氣」,正在被人定價

大多數人對個人數據的想像停留在身份證號碼或病歷。但事實上,你在網路上的每一個行為都在產生數據——音樂品味、郵件習慣、文件寫作模式、與AI對話的內容。當你下載Instagram的個人數據時,你會發現平台不只存了你的照片,還有它根據你的瀏覽行為推斷出的數百個標籤:從「對自然感興趣」這類無害標記,到是否有憂鬱傾向的心理評估。這些數據無法被公開爬取,但在法律上,它們屬於你。

Vana的執行長安娜·卡茲勞斯卡斯(Anna Kazlauskas)打了一個比方:「你把車停在停車場,停車場並不擁有你的車。」數據也是同樣道理——即使存放在別人的伺服器上,它仍然是你的財產。這家公司正在建設基礎設施,讓個人能夠將自己的平台數據貢獻給AI訓練,並獲得相應報酬。

規模之大令人咋舌。訓練MetaLlama 3所用的公開數據集約含15兆個詞。若1億人各自貢獻五個平台的數據,將產生450兆個token——是現有最大數據集的30倍

卡茲勞斯卡斯進一步指出:「人們對AI的恐懼,很大程度來自缺乏適當的歸屬與經濟回報。如果你教會AI做你的工作,你理應擁有那個AI模型的一部分。」這句話在創作者、知識工作者密集的台灣與香港市場,或許尤其值得深思。

無人機正在繪製一張AI看得懂的世界地圖

文字模型可以靠爬取網頁來學習。但機器人、自駕車、擴增實境需要的是對物理世界的精確理解——而這種數據,目前幾乎不存在。

PRISM

廣告合作

[email protected]

現有的航空測量數據來自不同承包商、不同感測器,精度參差不齊,根本無法用來訓練可靠的地理空間模型。衛星影像雖覆蓋全球,解析度卻不夠用。Spexi試圖用零工經濟模式填補這個空缺:招募超過1萬名無人機飛手,按標準化任務在80公尺高度飛行拍攝。過去18個月內,他們已覆蓋北美300座城市、超過600萬英畝的土地,解析度超越衛星與傳統航拍。

Spexi正與開發寶可夢GO的Niantic合作,為擴增實境與機器人技術訓練大型地理空間模型。與語言模型不同,這類模型需要隨著建築興建、道路改變而持續更新——「何時、何地需要更新」的預測演算法,目前仍是未解的研究難題。

對亞洲市場而言,這個模式尤具潛力。東南亞城市化速度快、基礎設施變化劇烈,台灣的半導體廠房擴建、越南的工業園區增長,都是地理空間數據更新的密集需求場景。

「ChatGPT詛咒」:企業數據的真實困境

全球一家頂尖PC製造商,花了7年收集設備遙測數據。沒有人看過它。當The Modern Data Company的薩欽·達爾馬普里卡爾(Sachin Dharmapurikar)的團隊終於分析這批數據時,發現70個欄位中有2個從一開始就收集錯了。

這不是個案,而是整個企業界的縮影。十年前,「收集一切數據」成為企業共識,雲端儲存費用節節攀升,卻形成一座座數據孤島。ChatGPT爆紅後,許多高管以為找到了出路:把積累的數據全部餵給大型語言模型,坐等奇蹟發生。達爾馬普里卡爾稱之為「ChatGPT詛咒」。

現實遠比想像複雜。他指出,企業要讓AI真正發揮作用,需要四個條件:大規模的數據品質保障、可追溯的數據血緣管理、防止AI幻覺的治理機制,以及能讓模型理解業務語境的語義元數據。舉例來說,「客戶終身價值」在零售業與企業服務業的定義截然不同——缺乏語境,模型就會得出錯誤結論。

更棘手的是部門壁壘。銷售、製造、網路團隊各自收集數據,跨部門共享需要繁瑣的行政程序。「業界終於開始務實了,」達爾馬普里卡爾說,「沒有簡單解決方案這個現實,正在強力回擊所有人。」

這一點對許多亞洲大型企業集團尤其切身。台灣的電子製造業、香港的金融機構、東南亞的跨國企業,普遍面臨同樣的數據孤島問題。數據存在,但無法被有效使用——這才是AI落地的真正瓶頸。

數據主權的地緣政治面向

值得注意的是,這場數據爭奪戰並非在真空中發生。中國大陸已通過《數據安全法》與《個人信息保護法》,對數據跨境流動設有嚴格限制。這意味著在大陸收集的數據,難以被整合進全球AI訓練管道;反之,境外AI模型也難以取得大陸用戶的個人數據。

對台灣與香港而言,這創造了一個微妙的位置:既有接觸全球AI生態系的能力,又面臨來自北京的數據治理壓力。個人數據變現的商業模式,在不同法律框架下將呈現截然不同的面貌。

另一個值得關注的面向是:誰掌握數據,誰就掌握AI能力。當個人數據成為訓練下一代AI的關鍵資源,數據的地理分布與法律歸屬,將直接影響各國在AI競賽中的位置。

本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。

观点

相关文章

PRISM

廣告合作

[email protected]
PRISM

廣告合作

[email protected]