【AI用語解説】データセット
最終更新日:2025年01月27日

データセット
AIにおけるデータセットとは、一般的に、AIモデルを学習するために利用する、学習済教師データのまとまり、または検証用データのまとまりを指します。データセットには、画像や動画、音声、自然言語(テキスト)などがあります。
データセットは、アノテーション作業を通してタグ付けされた画像や映像が一般的ですが、アノテーション前のそのままの画像が提供されているケースもあります。
また、データセットには、大学や研究機関が提供する無料のデータセットから、企業が提供する有料のデータセットまであります。
自社でAIモデルを構築する際には、この無料のデータセットを活用できるかどうかの調査から行うことも多いですが、自社特有の教師データが必要な場合は、データ収集からアノテーションまで、アノテーション代行会社に依頼することなども多くなっています。
有名なデータセットとしては、MicrosoftのMicrosoft Research Open Dataや,
COCOコンソーシアムが提供するCOCO Dataset、GoogleのOpen Images Datasetなどがあります。
また、Googleは、データセット検索サイトを2019年に立ち上げています。

AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
弊社代表 森下𝕏:@ymorishita
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp
