最終更新日:2024-08-07
Google、長文理解の性能が大きく進歩した新AIモデル「Gemini 1.5」発表
米Google社は、2024年2月15日、新たなAIモデル「Gemini 1.5」を発表した。
「Gemini 1.5」は、同社が2023年12月に発表した「Gemini」のバージョンアップ版であり、前バージョンよりも処理できる情報量も大幅に増加し、長文理解の性能も大きく進歩。「Gemini 1.5 Pro」は、より少ない計算量でありながら以前の最上位バージョン「Gemini 1.0 Ultra」と同レベルの性能を実現している。
<本ニュースの10秒要約>
- 処理できる情報量が大幅に増加し、長文理解性能も進歩した「Gemini 1.5」
- 高効率なアーキテクチャとして構築、「Gemini 1.0 Ultra」と同性能を実現
- 「Gemini 1.5 Pro」では、1時間の動画や11時間の音声を一度に処理可能
「Gemini」の新世代モデルとして発表
Google社は、AIの新たな進歩はさらに多くの人々に役立つ可能性があると考え、「Gemini」の研究開発に取り組んでいる。「Gemini」は、2023年2月に「Bard」として発表された会話型人工知能の名でもあり、発表当時の「Bard」は同社のLLM(大規模言語モデル)「LaMDA」をエンジンとして搭載。以後、「PaLM」「PaLM2」「Gemini Pro」へとエンジンを切り替えながらバージョンアップを続け、2024年2月8日には名称が「Bard」から「Gemini」へ変更された。
「Gemini」への名称変更時には、高性能AIモデルである「Gemini 1.0 Ultra」を搭載した有料版サービス「Gemini Advanced」と、「Gemini」をスマートフォンでも利用できるモバイルアプリも、併せて発表している。そして、この発表からわずか1週間で同社は「Gemini」の新世代モデルとして「Gemini 1.5」を発表するに至った。
最大で100万のトークンを継続的に処理可能
「Gemini 1.5」は、TransformerおよびMoEアーキテクチャに関するGoogle社の研究に基づき、高効率なアーキテクチャとして構築された。複雑なタスクをより迅速に学習して高い品質を維持でき、トレーニングとサービスの効率を大幅に向上している。
Google社によると、新世代モデル「Gemini 1.5」は長文の文脈理解においても画期的な進歩を遂げ、最大で100万のトークンを継続的に処理することが可能となった。扱える情報量が大幅に増加し、従来の大規模基盤モデルの中では最長となるコンテキストウィンドウも実現。より有用なモデル/アプリケーションの構築を可能にしている。
「Gemini 1.5」の初期バージョンとして同社は、「Gemini 1.5 Pro」を用意。この「Gemini 1.5 Pro」は中規模のマルチモーダルモデルであり、「Gemini 1.0 Ultra」と同様レベルのパフォーマンスを実現した。標準で付属するのは128,000トークンのコンテキストウィンドウだが、デベロッパー/企業向けの限定プレビュー版では最大100万トークンのコンテキストウィンドウを試用することもできる。
AI活用の新たな可能性を開く
「Gemini 1.5 Pro」では、1時間の動画や11時間の音声、また30,000行以上におよぶコードや700,000 字以上のコードベースなどを、一度に処理することが可能だ。さらにGoogles社は、「Gemini 1.5 Pro」が最大1,000万個のトークンのテストに成功したことも、研究において確認したという。
同社は今後、レイテンシー改善などの最適化を「Gemini 1.5」において進めると共に、広範な倫理および安全性テストの実施も推進。今後も、次世代モデルの継続的な進歩により、人々/デベロッパー/企業によるAI活用の新たな可能性を開くとしている。
NotebookLM、Google SGE(現AI Overview)など、Googleの各サービスのバックで稼働するAIモデルもGeminiに統一されていくでしょう。
参照元:Google
AI開発会社をお探しの方はこちらのプロ厳選会社紹介記事もご参考ください。
AI Market ニュース配信チームでは、AI Market がピックアップする厳選ニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひTwitterもフォローしてみてください!また、AI Market でニュースを配信したいという方はこちらよりお問い合わせください。