最終更新日:2024-04-19
Geminiとは?GoogleがAIで狙うのは?使い方・API・ChatGPTとの違いを徹底解説!
Geminiとは、ITの巨人Googleが満を持して公開した生成AIモデルです。ChatGPT以降、大手IT企業が生成AIに着目し、さまざまなサービスやアプリケーションを発表しています。
生成AIとはなにか?種類や今後などはこちらの記事で詳しく説明していますので併せてご覧ください。
数多く出てきた生成AIの中でGeminiはマルチモーダルで対話ができることや、プログラミングにおいて高品質なコード生成とコード理解することが可能であり注目を集めています。
OpenAI、Microsoft、そしてGoogleと生成AIでも役者がそろってきた感のある今、
今回は
ぜひ今回の記事を参考にGeminiに詳しくなり、企業のAI導入に対する理解を深めていきましょう。
AI Marketでは
目次
Geminiとは?
Geminiとは、Googleが開発した生成AIモデルです。マルチモーダルなLLM(大規模言語モデル)であり、テキストだけでなく、音声や画像のやり取りもできることが特徴です。
LLMとは?どのように活用されているか?こちらの記事で詳しく説明していますので併せてご覧ください。
Geminiは、そもそもの設計がマルチモーダルであるため、テキスト、画像、オーディオ、ビデオ、コードなど様々な種類の情報を扱うことができ、人間の学習や相互作用に近いものです。
Google I/O 2023で発表され、2024年に本格導入される予定です。
開発にはAlpha Goを開発したDeep Mind社が関わっており、GeminiにはAlpha Goの技術が備わっていることが発表されています。Alpha Goは、機械学習で囲碁の世界チャンピオンに勝ったことで知られる囲碁プログラムのAIであり、AIブームを起こした存在として知られています。
機械学習を駆使したAlphaGoは、自ら戦略を練る「思考」能力で人間を超えました。Geminiはそこに、言語処理能力を加えることで、単なる問答サービスを超え、より高度なサポートが可能になると期待されます。
将来的には新しい計画の立案などOpenAIのGPT-4にはない能力ができることを目指しています。
関連記事:AI Marketニュース「Google社、マルチモーダルで高い推論能力を持つ生成AIモデル「Gemini」を新たに公開」
GeminiとPaLMの関係
Googleは、もともとGoogleのBardやGmail、Google Docsなどに統合されていたLLMであるPaLMをGeminiに置き換えたいと考えているようです。PaLM、及びその後継であるPaLM2は、論理的推理、常識的推理、数学、およびコーディングに焦点を当てて設計されており、特にPythonやJavaScriptでの強みがあるLLMです。
PaLM 2は医療分野においても応用されており、Med-PaLM 2として米国医療ライセンス試験での習熟度や医療文献とスキャンの分析能力が認められています。
一方、Geminiは多様性において際立っています。テキスト、画像、オーディオ、ビデオ、コードなど様々な種類の情報を扱うことができ、人間の学習や相互作用に近いものです。スマートフォン搭載用のエッジAIタイプの軽量モデルから、対話AIに特化したモデルまで、多様な用途に応じた形式で提供されている点も注目に値します。
Googleの新しい検索体験であるSGEも、PaLM2を搭載していると公表されていますが、これからGeminiに統合されていくかもしれません。
Googleは、他にも画像生成に特化したImagenも併せて生成AIの覇権を握ろうと狙っています。
※最新の動き:2024年2月にGoogleは対話型AIであるBard名称をGeminiに刷新し、Duet AI for Google WorkspaceもGemini for Workspaceに変更することを発表しました。
Geminiへの統合により、企業は市場分析、顧客対応、製品開発など、さまざまな業務にAIをより深く組み込むことができるようになります。Googleはこの名称変更を、高性能なAIであるGeminiのテクノロジーが反映されたことを伝えるために変更したと報告しました。ビジネスユーザーと個人ユーザーの生産性と創造性を向上させることを目指しています。
Geminiは用途別に3モデル
モデル名 | 特徴 |
---|---|
Gemini Nano | Pixel 8を代表としたスマホ上での実行を想定した効率的なモデル 外部サーバーとは接続しないため、スマホ本体だけで完結 |
Gemini Pro | Googleのデータセンターで実行され、対話型AIでの使用を想定され設計されたモデル 質問された内容の理解とその回答や応答時間をより早く正確に出すことができます |
Gemini Ultra | Geminiの中で最も高性能なモデル |
Geminiは場所にとらわれずどこでも実行できることが想定されており、その柔軟性を実現するために上記3種類のモデルが用意されています。
Gemini Ultraは最も高性能なモデルで、ほとんどのタスクでGPT-4よりも優れていることが発表されました。
AI Marketでは
Geminiの4つの強みとは?
Geminiの強みは高度なプログラミング能力やマルチモーダルネイティブな設計をされているなどの特徴があります。
ここではGeminiの特徴を詳しく解説していきます。
高度なプログラミング能力
Geminiはプログラミング言語の理解やコードの説明、高品質なコードの生成など高度なプログラミング能力を持っています。
チャット形式でコードの生成を指示したり、目的だけ記載するだけでコードの草案が作成されたり、抽象度の高い内容にも答えてくれます。実際の能力として、Geminiをベースに競技プログラミングに特化させたAIのAlpha Code 2は上位15%に入るほどの能力を示しました。
コード生成に関しては、GeminiはHumanEvalやNatural2CodeといったベンチマークでGPT-4を上回っています。これは、Geminiがプログラミング言語の構文をより正確に理解し、より効率的なコードを生成できることを意味します。
もちろん、テキストエディタに組み込みのGitHub Copilotのように文脈に応じてコードを補完してくれるわけではありませんが、日常的にちょっとコードが分からないシーンでは十分でしょう。
マルチモーダルネイティブな設計
Geminiはマルチモーダルネイティブな設計がされています。マルチモーダルとは、テキスト、動画、音声、画像などのさまざまなデータ形式を入出力で扱えることを意味します。
マルチモーダルとは?何がすごい?こちらの記事で詳しく説明していますので併せてご覧ください。
Geminiはマルチモーダルネイティブなので、入力にさまざまなデータ形式の情報を受け取ることができ、その情報をシームレスに自然な処理を行うことができます。
たとえば、ビデオの音声と映像の内容を同時に分析し、その情報を統合して理解可能し、画像や音声を含む複合的な応答を生成する能力も持っています。また、動画を入力として利用する際、Geminiはその動画の前後の文脈を理解し、より精度の高い解析を行うことができます。
OpenAIのGPT-4もテキスト以外のデータ形式を扱うことは可能ですが、主にテキストと画像の組み合わせに焦点を当てています。たとえば、ユーザーが画像をアップロードし、その画像に関するテキストの説明や質問をすることができます。その応答は基本的にテキスト形式に限定されています。
Googleサービスとの連携
GeminiはGoogleが開発しているため、ほかのGoogleサービスとの連携も可能です。
以下のようなさまざまなGoogle製品におけるAI機能の基盤となっていきます。
- Google Bard(Geminiに名称変更):より高度な多様なデータタイプを理解し、処理できるようになります。より包括的で高度な回答生成が可能になると予想されます。
- Google Cloudサービス:より高度なデータ分析や機械学習タスクを可能にします。
- Gmail:より効率的なメール管理、スマートな返信提案、またはメールコンテンツのより深い理解を可能にするでしょう。
- Google Workspace:ドキュメントの自動生成、スプレッドシートのデータ解析、プレゼンテーションの質の向上などが期待されます。
- Pixelスマートフォン:より賢いカメラ機能や、リアルタイムでの言語翻訳などが可能になるでしょう。
- Nestサーモスタット:より正確な温度管理やユーザーの習慣を学習して最適化することができるようになります。
- 検索広告:広告のターゲティングがより精度が高くなり、ユーザーの検索意図や興味に合わせた広告表示が可能になります。
- Chrome:ウェブページの内容をより深く理解し、ユーザーエクスペリエンスを向上させることができます。
対話型生成AIであるGoogle Bard(Geminiに名称変更)はGmailやGoogle ドキュメントなどのサービスから情報を取得して回答を導き出すことができ、Geminiの搭載によりさらにマルチモーダルな入力も期待されています。
2024年の早期には、Duet AI for Google WorkspaceでGemini Proが利用できることが発表されました。
※最新の動き:2024年2月にGoogleは対話型AIであるBard名称をGeminiに刷新し、Duet AI for Google WorkspaceもGemini for Workspaceに変更することを発表しました。
安全性が高い
Google Gemini AIは、Googleが開発した最新のAIモデルで、その安全性は特に重視されています。Geminiはサイバー攻撃や自律性のリスクへの対策を含む、包括的な安全性評価を受けています。
さらに、危険なコンテンツの含まれる入力の分類やフィルタリングにも注力しており、外部の専門家やパートナーと協力して、網羅的なモデルのテストを行っています。これらの措置により、Geminiの安全性に対する十分な注意が払われていることがわかります。
GeminiはChat GPTとどう違う?
Geminiが2023年12月時点で一部搭載されている対話型AIであるGeminiとOpenAI社のGPT-4を搭載しているChatGPTは具体的にどう違うのかここで見ていきます。両者の違いを理解しておくことで、実際にどちらを導入した方がいいのか検討することができます。
※最新の動き:2024年2月にGoogleは対話型AIであるBard名称をGeminiに刷新し、Duet AI for Google WorkspaceもGemini for Workspaceに変更することを発表しました。
ベンチマークテストスコアで上回る
Gemini Ultraでは大規模言語モデルの研究開発で使用されているいくつかの重要なベンチマークテストでGPT-4以上の性能を発揮しています。
これらのテストは、モデルの認識、知識、推論の能力を測定するために設計されており、Gemini Ultraは特に数学、物理、医学、法律など57科目を組み合わせた知識のテストで高いパフォーマンスを発揮しています。
例えば、MMLU(Massive Multitask Language Understanding)ベンチマークで、Gemini Ultraは90%のスコアを獲得し、GPT-4の86.4%を上回りました。このスコアは、Geminiがより広範囲の理解と優れた推論スキルを持つことを示しています。
また、Big-Bench HardやDROPといった推論タスクのベンチマークでも、GeminiはGPT-4を上回るパフォーマンスを示しました。これは、Geminiが複雑な問題を解決する能力に長けていることを裏付けています。
複雑で高度な質問やより高い精度の回答を期待する場合はGPT-4よりGemini Ultraの利用が最適になる可能性が高いでしょう。ただし、Gemini Ultraは現在一般公開されておらず、Google Bardなどを通じて一部の機能を利用できるに留まります。
パラメータ数で上回る
Geminiのパラメータ数はnanoのみ公表されており、32.5億と報告されています。Gemini Ultraのパラメータ数については、現在のところ公表されていませんが、その性能から、GPT-4の推定される5,000億以上のパラメータ数を上回っていると予想されています。
Geminiの小型バージョンであるGemini Nanoは、32.5億のパラメータを持っており、これはGPT-4のパラメータ数よりも少ないとされています。
総合的に見ると、Gemini Ultraは、特にマルチモーダルタスクや複雑な問題解決の能力でGPT-4を上回る可能性が高いです。しかし、GPT-4もその成熟度、広範囲の応用可能性、テキスト生成における高い精度で優れたパフォーマンスを持っています。どちらのモデルが適切かは、使用するタスクやニーズによって異なるでしょう。
情報の鮮度で上回る
Gemini はGoogle検索と連携してデータを取得しているため、リアルタイムな情報を回答に反映してくれます。
GPT-4は2021年9月までの情報しか反映しておらず、GPT-4 Turboでも2023年4月が最新であるため、情報の鮮度という観点ではGeminiが上回っています。
最新の情報を聞きたい場合はGeminiの利用が有効です。
Geminiを使う方法
Geminiを利用したい場合にはいくつか方法があります。ここでは具体的なGeminiの利用方法を解説します。
Gemini(旧Bard)
Googleの対話型生成AI Gemini(旧 Bard)からGemini ProをGoogle Chrome上で利用できます。GeminiはGoogleアカウントがあればだれでも無料で利用可能な対話型AIです。(但し、2023年12月時点ではGeminiの部分的機能のみが搭載されており、画像生成などはまだできません。)
Chrome上では英語版ですが、Geminiに回答を送信する言語は日本語にも対応しています。
Google Bardの使い方をこちらの記事で詳しく説明していますので併せてご覧ください。
API
GoogleはGeminiのAPIを公開しているため、APIからGemini Pro、Gemini Pro visionの利用が可能です。Google CloudのサービスであるVertex AIを通して、APIを利用することが可能です。対話型インターフェースのGeminiを経由せず自身のPC上でGeminiを利用したい場合はAPIの利用がおすすめです。
現在は無料で利用できますが2024年以降の一般公開時には有料となるため、注意しましょう。
Pixel Pro 8
Google Pixel Pro 8はGemini Nanoを標準で搭載しているため、デバイスから無料でいつでも利用できます。レコーダーアプリのSummarize、Gboardのスマートリプライで利用可能です。
また、スマホから機密情報の漏洩を防ぎ、オフラインでもGemini nanoを利用できるため他の生成AIにはない強みを発揮します。
Geminiの将来性は?
Geminiは現在、コンシューマー向けに公開されており、今後エンタープライズ向けプラットフォームでの利用が可能になると予想されています。これにより、AIを使用したより高度なアプリケーション開発が可能となり、企業の生産性向上が期待されます。
また、Geminiはロボット工学との連携も検討しており、将来的に触覚の領域を利用してより汎用的なマルチモーダルAIを実現する計画があります。
Googleの既存のAI強化製品への統合は、より直感的なGoogleアシスタント、より賢い対話型AI、そして前例のないコンテキストとニュアンスを理解する検索エンジン(SGE)をもたらすことが期待されています。これはAI開発における包括的なアプローチを示し、一つのエリアでの進歩が製品エコシステム全体に波及することを意味します。
Geminiについてよくある質問まとめ
- Geminiとは?
Geminiとは、Googleが開発した生成AIモデルです。そもそもの設計がマルチモーダルであるため、テキスト、画像、オーディオ、ビデオ、コードなど様々な種類の情報を扱うことができ、人間の学習や相互作用に近いものです。
- GeminiとGPTの違いは?
ベンチマークテストスコアで上回る:Gemini Ultraでは大規模言語モデルの研究開発で使用されているいくつかの重要なベンチマークテストでGPT-4以上の性能を発揮しています。
パラメータ数で上回る:Geminiのパラメータ数はnanoのみ公表されており、32.5億と報告されています。Gemini Ultraのパラメータ数については、現在のところ公表されていませんが、その性能から、GPT-4の推定される5,000億以上のパラメータ数を上回っていると予想されています。
情報の鮮度で上回る:Gemini はGoogle検索と連携してデータを取得しているため、リアルタイムな情報を回答に反映してくれます。GPT-4は2021年9月までの情報しか反映しておらず、GPT-4 Turboでも2023年4月が最新であるため、情報の鮮度という観点ではGeminiが上回っています。
まとめ
今回はGeminiに関して概要から使い方、ChatGPTとはどう違うのか、将来性や安全性は大丈夫なのかなど徹底解説しました。
GeminiはGoogleの生成AIモデルで、対話型プラットフォームGemini、Pixel Pro 8などから利用できます。マルチモーダルネイティブのため、画像や動画などもシームレスに入力することができ、その動画の文脈なども読み取れることが特徴です。
Gemini UltraはGPT-4の性能をベンチマークテストで大きく上回ることが報告され、情報に関しても高いリアルタイム性を実現しています。Geminiはさまざまな面で安全性のテストをされているため、ユーザーは安心してGeminiを利用できます。
ぜひ今回の内容を参考に、AI導入の検討をして生産性向上につなげていきましょう。
AI Marketでは
AI Market 運営、BizTech株式会社の代表取締役です。2021年にサービス提供を開始したAI Marketのコンサルタントとしても、お客様に寄り添いながら、お客様の課題ヒアリングや企業のご紹介を実施しています。AI Marketの記事では、AIに関する情報をわかりやすくお伝えしています!