【AI用語解説】データセット
最終更新日:2025年01月27日

データセット
AIにおけるデータセットとは、一般的に、AIモデルを学習するために利用する、学習済教師データのまとまり、または検証用データのまとまりを指します。データセットには、画像や動画、音声、自然言語(テキスト)などがあります。
データセットは、アノテーション作業を通してタグ付けされた画像や映像が一般的ですが、アノテーション前のそのままの画像が提供されているケースもあります。
また、データセットには、大学や研究機関が提供する無料のデータセットから、企業が提供する有料のデータセットまであります。
自社でAIモデルを構築する際には、この無料のデータセットを活用できるかどうかの調査から行うことも多いですが、自社特有の教師データが必要な場合は、データ収集からアノテーションまで、アノテーション代行会社に依頼することなども多くなっています。
有名なデータセットとしては、MicrosoftのMicrosoft Research Open Dataや,
COCOコンソーシアムが提供するCOCO Dataset、GoogleのOpen Images Datasetなどがあります。
また、Googleは、データセット検索サイトを2019年に立ち上げています。

AI Market 運営、BizTech株式会社 代表取締役|2021年にサービス提供を開始したAI Marketのコンサルタントとしても、お客様に寄り添いながら、お客様の課題ヒアリングや企業のご紹介を実施しています。これまでにLLM・RAGを始め、画像認識、データ分析等、1,000件を超える様々なAI導入相談に対応。AI Marketの記事では、AIに関する情報をわかりやすくお伝えしています。
AI Market 公式𝕏:@AIMarket_jp
Youtubeチャンネル:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp
