DataGemmaとは?ハルシネーションを防ぐ仕組み・メリット・デメリット・活用分野を徹底紹介!
最終更新日:2024年10月11日
LLM(大規模言語モデル)、及び生成AIを企業導入するにあたって、間違った情報を真実のように出力する「ハルシネーション(幻覚)」が導入障壁となっているケースが少なくありません。
そこで登場したのが、Google社のLLM「DataGemma」です。DataGemmaは、回答に必要なデータを信頼性のあるデータセットから参照して生成するため、ハルシネーションのリスクを軽減できます。
本記事では、
AI Marketでは
ChatGPT/LLM導入・カスタマイズに強いAI開発会社を自力で選びたい方はこちらで特集していますので併せてご覧ください。
目次
DataGemmaとは?
DataGemmaとは、Googleが2024年2月に発表した研究用のLLMです。GoogleのオープンソースLLM「Gemma 2 27B」をベースに開発されました。LLM(大規模言語モデル)の精度向上と「ハルシネーションの軽減を目的としています。
関連記事:「Gemma 2とは?特徴・メリット・デメリット・活用分野を徹底紹介!」
Google が公開しているナレッジ グラフ「Data Commons」と呼ばれる2,400億以上の膨大な統計データポイントがある知識グラフを参照し、信頼性の高いデータに基づいた数値情報や統計情報の回答を生成できる点が大きな特徴です。
Data Commonsでは国連や世界保健機関などのデータソースが含まれるため、特に経済や健康、人口統計分野で高精度な回答を生成できます。そのため、企業においてはコンテンツマーケティングやデータドリブンな分析での活用が期待されています。
DataGemmaの仕組み
DataGemmaは、RIG(Retrieval-Interleaved Generation)とRAG(Retrieval-Augmented Generation)の2つの仕組みから構成され、それぞれの役割は以下のとおりです。
- RIG(事実の確認)
- RAG(質問の拡張)
RIGは、LLMが回答を生成する過程で、Data Commonsから関連する統計データをリアルタイムで取得し、生成中の回答と照合する仕組みです。
回答生成中にデータを取得して、LLMが生成した回答と突き合わせるのがポイントです。比較的高速で、即座に情報を検証できます。
一方、RAGは、ユーザーの質問に基づいて、質問を受け取った時点で関連するデータをData Commonsから取得し、そのデータを基にLLMが回答を生成します。
回答生成前にデータを取得するのがポイントです。より詳細で包括的な回答が可能ですが、処理時間がかかる場合があります。
商用利用について
2024年10月時点では、DataGemmaは商用利用が認められておらず、主に学術および研究目的の信頼できるテスター向けに提供されています。現在のバージョンは、限られたデータで学習されているからです。
ただし、DataGemmaはオープンソースで提供されており、閲覧することは可能です。そのため、商用利用の準備段階として、テスト環境でDataGemmaの性能を評価する場合や、学術研究での利用を通じて今後の商用展開に向けた知見を得る場合に役立てられます。
AI Marketでは
DataGemmaのメリット
DataGemmaには、さまざまな業務における効率化や信頼性向上など多くのメリットがあります。以下では、DataGemmaの主要なメリットを紹介します。
統計情報の確実性が増す
DataGemmaは、信頼性の高いデータベースの「Data Commons」を参照して情報を生成します。これにより、誤った数値情報を出力する可能性が極めて低くなり、企業が作成するレポートや資料の信頼性を確保することが可能です。
また、Data Commonsから最新のデータを取得することで、常に最新の情報に基づいた回答を生成できます2。
一般的なLLMではハルシネーションが発生し、数値情報が誤って出力されるリスクもあります。特に、経済データや人口統計などの正確さが求められる分野では、このリスクが利用上で大きな障害になります。
関連記事:「生成AI、LLMのハルシネーションとは?原因は?リスクを抑える方法を徹底解説!」
そのため、ビジネスで重要な意思決定において、正確なデータを基にした判断が求められる場面でDataGemmaは強力なツールとなります。
簡単なプロンプトでも包括的な回答を得られる
DataGemmaは、RAGの拡張機能を活用して、シンプルな質問に表面的な回答を返すだけでなく包括的な回答を生成可能です。
例えば、「東京の人口は?」といった短い質問でも、Data Commonsから信頼性の高いデータを参照し、「東京の人口は〇〇人です。ここ数年で〇%増加しています」といったように、追加情報も含んだ詳細な回答を得られます。
これにより、ユーザーは詳細な質問や複雑なプロンプトを作成する手間が省けます。
広範囲にわたる比較クエリでも対応できる
DataGemmaは、Gemmaの基盤技術となったGemini 1.5 Proの長いコンテキストウィンドウを活用することで、広範囲な比較クエリにも対応可能なため、複数年のデータにまたがる多数のテーブル情報をもとに回答できます。
例えば、「東京の人口は最も多いか?」という質問では、質問中に比較都市や地域の指定がないため、日本国内や世界の各都市の人口と東京の人口を比較する必要があります。膨大なデータを参照する必要があり、一般的なLLMでは処理できるコンテキストが限定的なため回答が不十分になる傾向にあります。
しかし、DataGemmaは複数年の日本全体の人口データを比較し、信頼性のある回答を提供することが可能です。
これにより、膨大なデータセットから質問に関連する情報を漏れなく抽出でき、ユーザーの情報収集の効率向上に貢献します。
オープンソース化による貢献
GoogleはDataGemmaをオープンソースとして公開し、研究者や開発者が自由に利用できるようにすることで、LLMの信頼性向上に貢献しています。
ただし、現時点では、研究者向けに限定的なアクセスのみが提供されています。一般公開や商用利用のための準備はまだ整っていません。
DataGemmaのデメリット
DataGemmaには多くのメリットがある一方で、いくつか利用上のデメリットがあります。以下では、DataGemmaの主なデメリットについて紹介します。
データが保持されない
DataGemmaは、質問に対してリアルタイムにData Commonsを参照して回答を生成しますが、そのデータは保持されません。つまり、過去の回答や質問を基にした連続的な質問には対応できません。
例えば、「日本の人口の増減を教えて」と質問した後に続けて「なぜそのような増減が起こったのか?」と尋ねても、DataGemmaは前の質問の結果を保持していないため、「日本の人口の増減割合と原因を教えて」といった入力が再度必要になります。
専門家との会話にあるような質問を連続させることでできる深堀りや考察ができないうえに、疑問が網羅された長文の質問を入力し直す必要があります。
対応できるトピックが限定的
DataGemmaはData Commonsが保有するデータに依存し、すべてのトピックや地域のデータに対応できるわけではありません。
例えば、国内総生産や労働力率、時価総額など日本に関する主要な統計データは豊富に存在しますが、OECD諸国以外の国や州レベル、地区レベルの詳細なデータはまだ不十分です。そのため特定の地域や業界に特化した回答を必要とする場合には、生成精度が下がります。
また、現時点でDataGemmaに用いている学習データは最大で600データの比較的小規模なもので、Data Commons内の一部しか使用されていません。
そのため広範囲な回答が必要な場合には、より大規模なデータセットの追加やファインチューニングが必要です。
DataGemmaの始め方
2024年10月時点でDataGemmaは一般利用が可能なサービスとして提供されていませんが、内部で採用されるRIGとRAGの2つのモデルを別々に試すことは可能です。
Google ColabやHugging Face、Kaggleといった無料の開発環境で、簡単にモデルの性能を確認できます。これらのプラットフォームを利用すれば、特別なハードウェアを用意する必要がなく、初心者でも手軽にDataGemmaを体験できます。
DataGemmaの今後の展望
現在、DataGemmaは初期バージョンであり、主に研究や学術向けに提供されており、一般公開や商用利用には至っていません。
今後のアップデートでさまざまな課題が解消され、さらなる発展が期待されています。Googleは将来的な商用利用を視野に入れて開発を進めており、精度向上や機能拡張が進めば、様々な産業での活用が期待されます。
具体的には、ユーザーからのフィードバックを活かしながらLLMのインターフェース開発が進められ、より広範なビジネス用途や多様なデータセットに対応できるようになり、生成AIをビジネスに導入するための強力なツールとしての地位を確立するでしょう。
DataGemmaの発展により、企業における生成AIの活用領域が広がると期待されています。ビジネスにおける生成データの信頼性を高め、精度の高い意思決定をサポートするツールとして、今後のアップデートに注目です。
DataGemmaについてよくある質問まとめ
- DataGemmaは商用利用できますか?
現時点では、DataGemmaは商用利用が認められておらず、主に学術研究やテスト目的のために提供されています。今後のバージョンアップで商用利用が可能になることが期待されています。
- DataGemmaを利用するために必要な環境は何ですか?
DataGemmaは、Google Colab・Hugging Face・Kaggleといったクラウドベースの開発環境で利用可能です。特別なハードウェアは不要で、これらの無料プラットフォームで手軽に試すことができます。
まとめ
DataGemmaは、企業の業務効率化や意思決定を支援する強力なAIツールです。
一方で、研究用モデルのステージですから、データの保持ができないことや、対応できるトピックの範囲が限定されているといった課題もあります。
今後これらの課題が解決され、正式にリリースされたDataGemmaを導入することで、生成AIを活用した業務の自動化や効率化が実現でき、企業の競争力を高めることが期待されます。
今後のアップデートにより、さらに広範な分野での活用が可能となるため、内部モデルを試しながらこれからの発展に期待しましょう。
AI Marketでは
AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp