AIの「次の燃料」は、あなたのデータかもしれない

ウェブスクレイピングの時代が終わり、AI企業は個人データ・ドローン地図・企業アーカイブという新たなデータ源を求めて競争を始めた。次のAIブレークスルーを左右する「データの黄金争奪戦」を解説する。

あなたが昨夜Spotifyで聴いた曲、Googleドキュメントでしたためたメモのクセ、ChatGPTに打ち明けた悩み——それらすべてが、次世代AIの「燃料」として狙われている。

AI開発の世界で、静かだが重大な転換が起きている。これまでのAIモデルは、インターネット上に公開されたテキストや画像を大量に「スクレイピング（自動収集）」することで学習してきた。しかし今、その手法は壁にぶつかっている。RedditはAPI利用に数百万ドルを請求し、The New York Timesは訴訟を起こし、多くの出版社がスクレイパーをブロックしている。公開ウェブのデータは、法的にも量的にも限界に近づいているのだ。

より根本的な問題もある。チャットボットを超えた次世代AI——ロボット、自動運転車、拡張現実——が必要とするのは、そもそもウェブ上に存在しないデータだ。鍵のかかった金庫の中にあるデータ、あるいはまだ存在すらしていないデータである。

「あなたのデジタルな排気ガス」が資産になる

個人データといえば、マイナンバーや医療記録を思い浮かべる人が多いだろう。だが実際には、オンラインで行うほぼすべての行動がデータを生み出している。音楽の聴取履歴、メールの文体、作成した文書のパターン、プラットフォーム上での会話——これらはすべて企業のサーバーに蓄積されている。

たとえばInstagramのデータをダウンロードすると、写真だけでなく、同社があなたの閲覧行動から推測した数百項目の情報が含まれている。「自然に興味がある」といった無害なラベルから、うつ傾向があるかどうかという心理的評価まで。これらのデータは公開スクレイピングでは入手できないが、法律上はあなた自身のものだ。

VanaのCEO、アンナ・カズラウスカス氏はこう説明する。「駐車場に車を停めても、駐車場が車を所有するわけではありません。データも同じです。他者のサーバーにあっても、あなたのものです。」同社は、個人が自分のプラットフォームデータをAIトレーニングに提供するためのインフラを構築している。

その規模は想像を超える。MetaのLlama 3を学習させた公開データセット「Common Crawl」は約15兆語を含む。しかし1億人がそれぞれ5つのプラットフォームからデータを提供すれば、450兆トークン——既存の最大データセットの30倍——に達するという試算がある。

カズラウスカス氏はさらに踏み込む。「AIへの恐怖の多くは、適切な帰属と経済的対価がないことから来ています。AIにあなたの仕事を教えたなら、そのAIモデルを実際に所有すべきです。」

ドローンが描く「物理世界の地図」

テキストはウェブから集められた。では、ロボットや自動運転車が必要とする「物理世界の情報」はどこから来るのか。

広告掲載について

[email protected]

現在の航空測量データは断片的だ。異なるセンサーを使う複数の業者が、異なる精度で収集したデータが混在しており、信頼性の高い地理空間モデルの学習には使えない。衛星画像は地球をほぼカバーするが、解像度が足りない。AI企業が必要とするデータ層は、まだ存在しないのだ。

Spexiはギグワーカーとドローンでその空白を埋めようとしている。同社は1万人以上のパイロットに標準化されたミッション（高度80メートルでの飛行）を依頼。過去18ヶ月で北米300都市、600万エーカー以上を、衛星や従来の航空写真を上回る解像度でカバーした。

Niantic（ポケモンGOの開発元）などと連携し、拡張現実やロボティクス向けの大規模地理空間モデルの学習に活用している。ただし言語モデルと異なり、建物が建ち、道路が変わるたびに更新が必要だ。「いつ、どこを更新すべきか」を予測するアルゴリズムは、まだ未解決の研究課題として残っている。

「ChatGPTの呪い」——眠れる企業データの現実

世界有数のPCメーカーが7年間にわたって収集してきたテレメトリーデータがある。誰も見ていなかった。The Modern Data Companyのサチン・ダルマプリカール氏のチームが分析したところ、70項目のうち2項目が最初から誤った方法で収集されていたことが判明した。

これは特殊な例ではない。10年前、企業は「データをすべて集めれば、いつかインサイトが得られる」と考え、クラウドに膨大なデータを蓄積し始めた。ChatGPTが普及すると、多くの経営幹部は「蓄積したデータをLLMに投入すれば解決する」と考えた。ダルマプリカール氏はこれを「ChatGPTの呪い」と呼ぶ。

現実はより複雑だ。AIが企業データを有効活用するには四つの条件が必要だという。①大規模なデータ品質の確保、②結論の根拠を説明できるデータの系譜管理、③AIの幻覚（ハルシネーション）を防ぐガバナンス、④ビジネス文脈を理解するセマンティックなメタデータ。たとえば「顧客生涯価値」の定義は小売業と企業向けビジネスで異なる。文脈なしにモデルが推論すれば、誤った結論を導く。

さらに、データは部門ごとのサイロに閉じ込められている。営業、製造、ウェブチームがそれぞれ別々にデータを収集し、部門間の共有には官僚的な手続きが必要だ。「業界はようやく現実的になってきた」とダルマプリカール氏は言う。「簡単な解決策などないという現実が、強烈に押し寄せてきている。」

日本企業にとっての意味

この「データ争奪戦」は、日本企業にとって他人事ではない。

トヨタやホンダは自動運転開発のために膨大な走行データを保有しているが、それが国際的なAI学習市場でどう評価されるかはまだ不透明だ。ソニーのゲームや音楽データ、医療機器メーカーが蓄積した臨床データも同様だ。7年間誰も見ていなかったPCメーカーのテレメトリーデータの話は、日本の製造業にも重なる。

個人データの観点では、日本はGDPRに相当する個人情報保護法を持ち、2022年に改正された。しかし「自分のデータを積極的にAI学習に提供し、対価を得る」という発想は、日本社会ではまだ馴染みが薄い。高齢化社会において、医療・介護分野の個人データが持つ潜在的価値は特に大きいが、プライバシーへの慎重な姿勢との緊張関係は続く。

労働力不足という文脈でも、ドローンを使ったギグワーカーによる地図作成モデルは興味深い。日本の地方都市や農村部における地理空間データの整備は遅れており、新たなビジネス機会になりうる。