最終更新日:2021-04-11
【AI用語解説】データセット

データセット
AIにおけるデータセットとは、一般的に、AIモデルを学習するために利用する、学習済教師データのまとまり、または検証用データのまとまりを指します。データセットには、画像や動画、音声、自然言語(テキスト)などがあります。
データセットは、アノテーション作業を通してタグ付けされた画像や映像が一般的ですが、アノテーション前のそのままの画像が提供されているケースもあります。
また、データセットには、大学や研究機関が提供する無料のデータセットから、企業が提供する有料のデータセットまであります。
自社でAIモデルを構築する際には、この無料のデータセットを活用できるかどうかの調査から行うことも多いですが、自社特有の教師データが必要な場合は、データ収集からアノテーションまで、アノテーション代行会社に依頼することなども多くなっています。
有名なデータセットとしては、MicrosoftのMicrosoft Research Open Dataや,
COCOコンソーシアムが提供するCOCO Dataset、GoogleのOpen Images Datasetなどがあります。
また、Googleは、データセット検索サイトを2019年に立ち上げています。
