AI音声アシスタントが「今度こそ本当に」使えるようになる？

GoogleとSamsungが発表した新しいGemini音声アシスタント機能。10年前の約束がついに実現するのか、それとも再び期待外れに終わるのか。

Sameer Samat氏がスマートフォンに向かって「空港までUberを呼んで」と話しかけると、画面上でGeminiが実際にUberアプリを開き、目的地を設定し、車種を選択していく。まるで人間の手が見えない形で操作しているかのように。

この光景は、10年前にAppleやGoogleが約束していた未来そのものだ。当時、SiriはUberを呼べると言われていたが、実際にはアプリを開くだけだった。Google Assistantでスターバックスの「いつもの注文」ができると宣伝されたが、体験は不完全で、最終的に機能は削除された。

今度は本当に違うのか

SamsungのGalaxy Unpackedイベントで、GoogleとSamsungは新しいGemini音声アシスタントを披露した。3月11日に発売予定のGalaxy S26から利用可能で、後にGoogle Pixel 10シリーズにもソフトウェア更新で提供される。

従来の音声アシスタントとの決定的な違いは、Geminiが実際にアプリの画面を「見て」操作することだ。事前にプログラムされた「地図」に従うのではなく、人間と同じように画面上のボタンやメニューを認識し、リアルタイムで判断を下す。

Googleの Android Ecosystem担当プレジデントであるSamat氏は、これを「デジタルな洗濯物」と表現する。「やらなければならないとわかっているが、特に楽しくない作業」を自動化することが目標だという。

広告掲載について

実際のデモでは、友人たちとのグループチャットでピザの注文について話し合った内容を、Geminiが読み取って整理する様子が示された。「注文をまとめて」という一言で、Geminiは会話の文脈を理解し、各人の希望を整理してGrubhubで実際に注文プロセスを進めた。

もし情報が不足していれば、Geminiは質問を返す。ニューヨーク近郊で「空港まで」と言った場合、3つの主要空港のうちどれかを確認する。レストランが大きなピザの注文数を制限している場合は、代替案を提案する。

重要なのは、最終的な決定は必ず人間が行うことだ。Geminiは選択肢を整理し、カートに商品を入れるところまでは進めるが、実際の購入ボタンを押すのはユーザー自身だ。

この技術が普及すれば、日本のアプリ開発企業やサービス業界にも大きな変化をもたらす可能性がある。楽天やメルカリのようなプラットフォーム企業は、音声による操作に対応したUI設計を考える必要が出てくるだろう。

また、日本の高齢化社会において、複雑なスマートフォン操作に困難を感じる高齢者にとって、音声による簡単な操作は大きなメリットとなる可能性がある。「孫の写真を家族LINEに送って」「明日の天気に合わせて洋服を注文して」といった使い方が現実的になるかもしれない。

一方で、プライバシーに関する懸念は避けられない。Geminiがアプリの画面を「見る」ということは、ユーザーの行動や嗜好を詳細に把握することを意味する。Googleは広告目的でのデータ使用を否定し、ユーザーがデータを削除できる仕組みを提供するとしているが、信頼の構築は継続的な課題となるだろう。

現在は米国と韓国でのみ提供開始予定で、日本での展開時期は明らかにされていない。日本の個人情報保護法や消費者保護の観点から、追加的な配慮が必要になる可能性もある。