Lumiereとは?なぜ注目の動画生成AI?仕組み・競合との違い徹底解説
最終更新日:2024年09月23日
今、革新的な技術で話題を集めている動画生成AI「Lumiere」をご存知でしょうか?Lumiereはその革新的な技術により
生成AI(ジェネレーティブAI)とは?どのように活用できるか?こちらの記事で詳しく説明していますので併せてご覧ください。
そこで、この記事では、
Lumiereについて興味がある、動画生成AIの最新情報を知りたいという方は是非最後までご覧ください。
AI Marketでは
目次
Lumiereとは
Lumiereとは、Googleが発表したテキストプロンプトから動画を生成できる最新の動画生成AI技術です。他にも画像から動画を生成できる機能やテキストだけで動画を編集する機能もあります。
Lumiereの最大の特徴は、生成した動画が自然でリアリティであるということです。自然な動画を制作・編集するには一定の技術力が必要になりますが、Lumiereでは、特別な技術がなくとも、テキストプロンプトで指示するだけで自然でリアリティのある様々な動画を簡単に生成することができます。
Lumiereはいつから使える?
Lumiereは、2024年1月23日(現地時間)にGoogle Researchから発表されました。Lumiereは、まだ一般公開されておらず、一般公開するかどうか自体を明らかにしていません。
現在は、論文を発表した段階であり、個人情報や著作権、使用コストなどの多くの問題を考慮する必要があります。生成AIは発表から一般公開まで時間を要することも多く、Lumiereも同様に一般公開までにはしばらく時間がかかることが考えられます。
Lumiereはこれまでの動画生成AIとはどう違う?
Lumiere以外にも動画生成AIがあり、その中で有名なものに「Runway Gen-2」「Sora」「HeyGen」があります。
Runway Gen-2
Runway Gen-2もLumiereと同様、テキストから動画を生成することができます。Googleは、Runwayに投資をしているという関係もあります。同じGoogleが投資し、テキストから動画を生成できるRunwayとLumiereでの違いとは何でしょうか?それは、精確な物理シミュレーションの反映によって生成する動画の「一貫性」です。
Runwayで生成した動画では、ややボケていることや、1つの動画としての統一感・一貫性が保たれていないことが多くあります。生成された動画の精度が高くない場合があるのです。
それに対して、Lumiereは動画に一貫性があるということを重視したモデルとなっています。Lumiereで生成した動画は、表情や動き、テイストなどが途中で不自然になってしまうことがなく、あたかも最初からそのような動画であったと錯覚してしまうほどの動画であるというのが最大の特徴です。
Sora
Lumiereとしては、最大のライバルと言えるOpenAIが2024年2月に発表した動画生成AI Soraと同様に、単なる動画生成AIではなく、実世界の3DシミュレーションプラットフォームとしてLumiereを育てていくのかもしれません。
HeyGen
HeyGenは、AI生成のアバターや合成音声を使用して、プロフェッショナルなビデオを迅速に制作できる動画生成AIです。テキスト、画像、オーディオの追加による高度なパーソナライゼーションが可能で、ビジネス用途だけでなく、マーケティングやeラーニングなど、様々な業界ですでに活用されています。
ユーザーは特に編集スキルがなくても、テキストから動画を数分で作成することが可能です。また、様々なテンプレートを提供し、ユーザーのニーズに合わせた動画制作をサポートしています。これには、アニメーションの自動化やビデオ編集の作業時間短縮などが含まれます。
何ができる?Lumiereの機能
Lumiereの機能について紹介します。
テキストから動画を生成する
Lumiereは、シンプルなテキストプロンプトからリアルな動画を生成することができます。人物が動く動画や動物、風景の動画など、あたかも人が撮影したかのような自然な動画が生成できます。
例えば、公式サイトで紹介されている上記画像左上の動画は、以下の簡潔なテキスト指示だけで生成されています。
Confident teddy bear surfer rides the wave in the tropics(編集部訳:自信に満ちたテディベアのサーファーが南の島で波に乗る)
また、実在しない風景やアニメーションも生成AIが作ったとは思えないリアルでクオリティの高い動画をテキストから生成することが可能となっています。
画像から動画を生成する
Lumiereの「Image to Video」という機能では、画像から動画を生成することができます。例えば、「アップロードした顔写真の表情を変化させる」とプロンプトで指示すると、画像の表情を自然な形で動かすことができます。
公式サイトのサンプル(上記画像)では、フェルメールの名画「真珠の耳飾りの少女」をウインクして、笑わせる指示に全くの違和感ない動画を出力しています。元の画像をどのように動かしたいのか?をプロンプトで指示することで、画像から動画を生成することが可能です。
また、「Cinemagraphs」という機能では、画像の中で動かしたい範囲を指定しプロンプトで指示することで、静止画の一部分のみを好きなように動かすことができる動画を生成できます。
テイストを指定して一貫した動画を生成する
Lumiereには「Stylized Generation」という機能があります。この機能は、アップロードした画像のテイストを参照して、異なる素材を使った全く別の動画を生成する機能です。
例えば、上記画像の左端のような3Dテイストの家の画像を参照元として、さまざまな動物の動画を生成すると、元の画像と同じテイストの動物の動画を一貫して生成できます。他にもアニメ調、水墨画のようなテイスト、ステッカーのような質感など、参照元の様々なテイストの画像と同じテイストで動画を作成することができます。
一つの画像で世界観や雰囲気を統一した動画素材をいくつも作成することができるようになります。
動画のテイストの変更や補完ができる
Lumiereには以下のような動画を編集する機能があります。
- テイストを変更する(Video Stylization)
- 指定した範囲を変更する
「Video Stylization」機能は、アップロードした動画を、「木製のブロック風に」「ペーパーアート風に」「レゴ風に」など様々なテイストに編集できます。実際にはあり得ないようなインパクトのあるテイストの動画を生成できます。
Lumiereは、指定した範囲を自由に変更することができます。例えば動画に映っている人の服装を別の服装に変更できます。元々なかったものを動画に追加することも可能です。この変更機能もかなり自然なもので、初めからそうであったと思うような仕上がりになります。
動画を補完する
動画に欠損部分がある場合、Lumiereが自動で補完してくれます。一つの自然な動画として欠損している部分を違和感なく補完できます。
AI Marketでは
自然な動画を生成するLumiereの技術とは?
Lumiereが他の動画生成AIに比べて自然な動画を生成できる技術について紹介します。
Space-Time U-Netアーキテクチャ
Lumiereで自然な動きの動画を生成できるのは、「時空U-Netアーキテクチャ」(Space-Time U-Net、STUnet)という拡散モデル(Diffusionモデル)を採用しているからです。STUnetは、空間的・時間的なダウンサンプリングを行うことで、一度にすべてのフレームを処理できます。
ビデオは基本的に多数の連続する画像(フレーム)で構成されていますが、各フレーム間での動きが滑らかであればあるほど、視聴体験はよりリアルで魅力的になります。既存の動画生成モデルは、離れたキーフレームを合成し、その後に時間的超解像を行う手法が一般的でした。
つまり、動画各フレームの物理的シミュレーションと時間経過の処理にラグがありました。それで、動画の時間的一貫性を達成することが難しく、不自然な動きになることが課題でした。
Lumiereでは、この課題を解決するために、STUnetを採用しました。STUnetは、空間的・時間的なダウンサンプリングで一度にすべてのフレームを処理します。そのため、動画全体で一貫した動きを実現することができ、自然な動きの動画を生成することができるようになったのです。
Multidiffusion for Spatial-Super Resolution(超解像のための多重拡散)
Lumiereが自然でリアリティのある動画を生成できるのは、高解像度であるというのも大きな要因となっています。Lumiereでは、高解像度の動画を生成するために、「Multidiffusion for Spatial-Super Resolution」技術を用いています。日本語に(無理に訳すなら)「超解像のための多重拡散」です。
この技術は、動画内の低解像度フレームを取り除くことができ、ビデオの時間的な流れも考慮に入れて、自然な高解像度化を行うことができるようになります。複数の画像処理のステップを経て、元のビデオよりも高い解像度のビデオを生成します。
この技術により、画像のピクセルがより細かくなり、よりリアルで鮮明なビデオを作ることができます。特に、動きの速いシーンや詳細が重要なシーンでは、この技術が真価を発揮します。
LumiereでGoogleの動画戦略どう変わる?
Lumiereは、まだ研究段階の技術で、正式に公開されるかどうかは、2024年4月時点でまだ不明となっています。今のところ生成される動画時間が短いこともあり、Lumiere自体が技術を実用化できるかの試験的なプロジェクトであることも考えられます。
Lumiereの研究の主な目的は、初心者でも創造的かつ柔軟な方法でビジュアルコンテンツを生成できるようにすることだと言われています。技術がなくとも動画コンテンツを作成する上では、「不自然でない」というのは重要です。Lumiereは従来の動画生成AIで生じる画像間での曖昧さや不自然さを解決するための技術アプローチを行い、人が作成したかのような動画を生成することに成功しました。
このことから、GoogleはLumiereの技術成果をもとに、誰でも自然でリアリティがあり、実用的な動画コンテンツを生成できるサービスを将来的にリリースするのではないかと考えることができます。映画やゲームのプリビジュアライゼーションにおいて、具体的なシナリオやアイディアを試すためのツールとしても有効でしょう。
そして、この技術は、ただの動画生成を超え、より複雑な実世界シミュレーションへの応用が考えられます。特定の映像をリアルタイムでシミュレートする用途にも応用可能で、たとえばより現実世界に近いデジタルツインでの医療訓練、都市計画、災害シミュレーションなど、実際の環境や状況を模倣するトレーニングツールとして使用できます。
Lumiereについてよくある質問まとめ
- Lumiereとは?
Lumiereとは、Googleが発表したテキストプロンプトや静止画像から動画を生成できる最新の動画生成AI技術です。テキストだけで動画を編集する機能もあります。
- Lumiereといつから使える?
Lumiereは2024年1月23日(現地時間)にGoogle Researchから発表されました。Lumiereは、まだ一般公開されておらず、一般公開するかどうか自体を明らかにしていません。
- Lumiereの最大の特徴は?
Lumiereの最大の特徴は、生成した動画が自然でリアリティであるということです。非常にリアルな動きと継続性を持つ動画を生成できることが特徴です。ただの動画生成を超え、より複雑な実世界シミュレーションへの応用が考えられます。
動画生成技術の新たな可能性を開き、より高度なシミュレーションと予測が求められる多くの分野での応用が期待されています。
まとめ
Lumiereは、自然でリアリティのある動画を生成するというこれまでの生成AIとは違う革新的な技術で注目を集めています。
テキストや画像から動画を作成するだけでなく、プロンプトの指示により簡単に動画を編集することもできます。そしてこれらを不自然ではなく、初めからそうであったように思わせるほどのクオリティで行うことが可能です。
Lumiereが実用化されれば、
一般公開が未定であるLumiereが今後どのように展開するのか、今後のGoogleの動画戦略がどういったものになるのかを注目したいところです。
AI Marketでは
AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp