ByteDance、AIビデオ生成の新次元へ

ByteDanceの新AIビデオモデルSeedance 2.0が、テキスト・画像・音声を組み合わせた複合プロンプトに対応。クリエイティブ産業の未来を変える可能性とは？

TikTokを運営する中国のByteDanceが、AIビデオ生成の新たな地平を切り開こうとしている。同社が発表したSeedance 2.0は、テキスト、画像、ビデオ、音声を組み合わせた複合プロンプトに対応する次世代モデルだ。

複合メディアプロンプトの実現

従来のAIビデオ生成ツールは主にテキストプロンプトに依存していたが、Seedance 2.0は画像9枚、ビデオクリップ3本、音声クリップ3本まで同時に処理できる。ユーザーは言葉では表現しにくい細かなニュアンスや雰囲気を、既存のメディア素材を使って指定できるようになった。

ByteDanceは「生成品質において大幅な向上を実現した」と主張し、複数の被写体を含む複雑なシーンの生成能力と指示への従順性が改善されたとしている。生成可能な動画の長さは15秒で、音声も同時に生成される。

日本のアニメーション業界や広告制作現場では、すでに人手不足が深刻な問題となっている。Seedance 2.0のような技術は、制作工程の一部を自動化する可能性を秘めているが、同時に新たな課題も浮上している。

ソニーや任天堂といった日本の大手エンターテインメント企業は、自社のIPを保護しながらAI技術をどう活用するかという難しいバランスを迫られている。特に、学習データの著作権問題は日本の厳格な知的財産保護の文脈で重要な論点だ。

一方で、中小のクリエイティブスタジオにとっては、限られた予算でも高品質なコンテンツを制作できる機会となる可能性がある。

ByteDanceの動きは、OpenAIのSoraやMeta、Googleといった米国勢との激しい競争を反映している。中国企業による技術革新は、地政学的な緊張が高まる中で、技術覇権をめぐる新たな局面を示している。

日本企業は、米中どちらの技術エコシステムに依存するかという選択を迫られる可能性がある。技術的な優秀性と政治的な安定性、どちらを重視するかは企業戦略の根幹に関わる問題だ。