AI下一波突破的燃料，藏在你的手機裡

網路爬蟲時代終結，AI企業正競相爭奪個人數據、無人機地圖與企業檔案三大新型訓練資料來源。這場數據淘金熱將如何重塑AI產業格局與個人數據權利？

你昨晚在Spotify聽的歌、你在Google文件裡寫下的隻字片語、你向ChatGPT傾訴的煩惱——這些都已成為科技巨頭眼中的下一座金礦。

一場安靜卻深遠的轉變正在AI產業內部發生。過去十年，大型語言模型的崛起依賴一個近乎無限的資源：公開網路上的文字與圖像。然而這條路正在關閉。Reddit對API存取收取數百萬美元費用，The New York Times提起訴訟，出版商紛紛封鎖爬蟲程式。即便法律障礙不存在，更根本的問題已然浮現：下一代AI需要的，是網路上從未存在過的數據。

三個新興市場正在嘗試打開這扇門。

你的「數位廢氣」，正在被人定價

大多數人對個人數據的想像停留在身份證號碼或病歷。但事實上，你在網路上的每一個行為都在產生數據——音樂品味、郵件習慣、文件寫作模式、與AI對話的內容。當你下載Instagram的個人數據時，你會發現平台不只存了你的照片，還有它根據你的瀏覽行為推斷出的數百個標籤：從「對自然感興趣」這類無害標記，到是否有憂鬱傾向的心理評估。這些數據無法被公開爬取，但在法律上，它們屬於你。

Vana的執行長安娜·卡茲勞斯卡斯（Anna Kazlauskas）打了一個比方：「你把車停在停車場，停車場並不擁有你的車。」數據也是同樣道理——即使存放在別人的伺服器上，它仍然是你的財產。這家公司正在建設基礎設施，讓個人能夠將自己的平台數據貢獻給AI訓練，並獲得相應報酬。

規模之大令人咋舌。訓練MetaLlama 3所用的公開數據集約含15兆個詞。若1億人各自貢獻五個平台的數據，將產生450兆個token——是現有最大數據集的30倍。

卡茲勞斯卡斯進一步指出：「人們對AI的恐懼，很大程度來自缺乏適當的歸屬與經濟回報。如果你教會AI做你的工作，你理應擁有那個AI模型的一部分。」這句話在創作者、知識工作者密集的台灣與香港市場，或許尤其值得深思。

無人機正在繪製一張AI看得懂的世界地圖

文字模型可以靠爬取網頁來學習。但機器人、自駕車、擴增實境需要的是對物理世界的精確理解——而這種數據，目前幾乎不存在。

廣告合作

[email protected]

現有的航空測量數據來自不同承包商、不同感測器，精度參差不齊，根本無法用來訓練可靠的地理空間模型。衛星影像雖覆蓋全球，解析度卻不夠用。Spexi試圖用零工經濟模式填補這個空缺：招募超過1萬名無人機飛手，按標準化任務在80公尺高度飛行拍攝。過去18個月內，他們已覆蓋北美300座城市、超過600萬英畝的土地，解析度超越衛星與傳統航拍。

Spexi正與開發寶可夢GO的Niantic合作，為擴增實境與機器人技術訓練大型地理空間模型。與語言模型不同，這類模型需要隨著建築興建、道路改變而持續更新——「何時、何地需要更新」的預測演算法，目前仍是未解的研究難題。

對亞洲市場而言，這個模式尤具潛力。東南亞城市化速度快、基礎設施變化劇烈，台灣的半導體廠房擴建、越南的工業園區增長，都是地理空間數據更新的密集需求場景。

「ChatGPT詛咒」：企業數據的真實困境

全球一家頂尖PC製造商，花了7年收集設備遙測數據。沒有人看過它。當The Modern Data Company的薩欽·達爾馬普里卡爾（Sachin Dharmapurikar）的團隊終於分析這批數據時，發現70個欄位中有2個從一開始就收集錯了。

這不是個案，而是整個企業界的縮影。十年前，「收集一切數據」成為企業共識，雲端儲存費用節節攀升，卻形成一座座數據孤島。ChatGPT爆紅後，許多高管以為找到了出路：把積累的數據全部餵給大型語言模型，坐等奇蹟發生。達爾馬普里卡爾稱之為「ChatGPT詛咒」。

現實遠比想像複雜。他指出，企業要讓AI真正發揮作用，需要四個條件：大規模的數據品質保障、可追溯的數據血緣管理、防止AI幻覺的治理機制，以及能讓模型理解業務語境的語義元數據。舉例來說，「客戶終身價值」在零售業與企業服務業的定義截然不同——缺乏語境，模型就會得出錯誤結論。

更棘手的是部門壁壘。銷售、製造、網路團隊各自收集數據，跨部門共享需要繁瑣的行政程序。「業界終於開始務實了，」達爾馬普里卡爾說，「沒有簡單解決方案這個現實，正在強力回擊所有人。」

這一點對許多亞洲大型企業集團尤其切身。台灣的電子製造業、香港的金融機構、東南亞的跨國企業，普遍面臨同樣的數據孤島問題。數據存在，但無法被有效使用——這才是AI落地的真正瓶頸。

數據主權的地緣政治面向

值得注意的是，這場數據爭奪戰並非在真空中發生。中國大陸已通過《數據安全法》與《個人信息保護法》，對數據跨境流動設有嚴格限制。這意味著在大陸收集的數據，難以被整合進全球AI訓練管道；反之，境外AI模型也難以取得大陸用戶的個人數據。

對台灣與香港而言，這創造了一個微妙的位置：既有接觸全球AI生態系的能力，又面臨來自北京的數據治理壓力。個人數據變現的商業模式，在不同法律框架下將呈現截然不同的面貌。

另一個值得關注的面向是：誰掌握數據，誰就掌握AI能力。當個人數據成為訓練下一代AI的關鍵資源，數據的地理分布與法律歸屬，將直接影響各國在AI競賽中的位置。

你的「數位廢氣」，正在被人定價

無人機正在繪製一張AI看得懂的世界地圖

「ChatGPT詛咒」：企業數據的真實困境

數據主權的地緣政治面向

观点

記者

相关文章