OpenAI社、テキストの自然言語を理解して動画を生成できるAIモデル「Sora」発表
最終更新日:2024年04月19日
米OpenAI社は、2024年2月15日(現地時間)、テキストから動画を生成できるAIモデル「Sora」を発表した。
OpenAI社は、対話型生成AI「ChatGPT」の開発/提供で広く知られる企業だ。「Sora」は、人物/背景などを指示したテキストプロンプトから最長1分の動画を生成するAIモデルであり、今回の発表では「Sora」による生成動画も多数公開。同社は今後、一般向けの提供を控えた状態で悪用リスクの検証などを進める。
<本ニュースの10秒要約>
- テキストの指示内容を理解し、最長1分の動画を生成できるAIモデル「Sora」
- 「DALL・E 3」の再キャプション技術を活用、既存の静止画/動画からも動画を生成
- 一般向けの提供を控えてリスクを検証中、専門家などにのみアクセスを許可
「ChatGPT」「DALL・E」の成果から生まれた「Sora」
OpenAI社は、人類全体に利益をもたらす汎用人工知能の普及/発展を目標に掲げてAI研究を進めており、2022年11月にはGPT(Generative Pre-trained Transformer)に基づく対話型生成AIとして「ChatGPT」を発表した。この「ChatGPT」発表によりAIの社会的認知および浸透は一気に加速し、社会現象とさえ言い得るリアクションを今なお生み出し続けている。
「ChatGPT」のバージョンアップに取り組むと同時にOpenAI社は、画像生成AI「DALL・E」の開発と改良も推進。この「DALL・E」は、テキストプロンプトからデジタル画像を生成するAIモデルであり、2022年9月に公開した「DALL・E 2」から一般利用も可能となっている。
こうした成果に基づく形で同社は、言語を理解して動画を生成するAIモデルの開発を推進。画像に対して説明的なキャプションを生成する「DALL・E 3」の再キャプション技術を活用し、「Sora」を開発するに至った。
自然言語の内容を理解し、現実的かつ想像力豊かな動画を作成
「Sora」は、テキストの自然言語が指示する内容を理解した上で、現実的かつ想像力豊かな動画を作成できるAIモデルだ。物理世界の理解を踏まえた上で動くキャラクターや物体をシミュレーションできるようトレーニングされており、プロンプトに対応した高いクオリティの動画を最長で1分生成する。
OpenAI社による今回の発表では、「Sora」の活用例として「暖かく輝くネオンとアニメーションの看板で満たされた東京の通りを、スタイリッシュな女性が歩いている」という指示に基づく生成動画を公開。プロンプトでは、「彼女は黒い革のジャケット、赤い長いドレス、黒いブーツを着ており、黒い財布を持っている」「通りは湿っていて反射しており、色とりどりの光の鏡効果を生み出している」といった詳細な指示も行われ、実際の動画はある程度までこうした指示を反映している。
現在、「Sora」がもたらす可能性がある危害/リスクを検証中
「Sora」はまた、既存の静止画像から動画を生成し、画像の内容を細部まで正確にアニメーション化することも可能だ。さらに、既存の動画を拡張したり、欠落したフレームを埋めたりすることもできる。
OpenAI社は現在、「Sora」がもたらす可能性がある危害/リスクについて検証を進めている。この検証のために同社は、ビジュアルアーティストやデザイナー、また映画製作者といった専門家にも「Sora」へのアクセスを許可。一般向けサービスとしての提供開始時期については、特に言及していない。
参照元:OpenAI社
生成AI(ジェネレーティブAI)について詳しく知りたい方はこちらの記事もご参考ください。
AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp