AI画像認識で使用するデータセットとは?教師データとの違い・機械学習を解説
最終更新日:2024年09月23日
AI(人工知能)が読み込んだ画像を認識して処理を行うためには、その読み込んだ画像が何であるのかをAIが理解する必要があります。この画像認識を行うために、AIにとって学習のモデルとなるデータベースが必要となります。
この画像の情報を蓄積した「教科書」となる画像データベースをデータセットや教師データと呼びます。AIの認識精度はデータセットに含まれる画像の質と量によって大きく左右されますので、求められる目的に応じて最適のデータセットを選ばなければなりません。
この記事では画像認識のためのデータセットの特徴と代表的なデータセットを紹介します。
こちらで画像解析とは何か、どんな種類があるかを詳しく説明しています。
また、AI Marketでは、AI開発会社の選定サポートや適切な会社の紹介も行っています。AI開発会社の選定に迷ったり、依頼方法がわからなかったら、AI Marketの専門のコンサルタントが適切な会社選定を無料でサポートしますので、いつでもお気軽にご相談ください。記事には書けない費用感なども含めてご案内致します。
もし、データセットの作成やデータセットの元となるデータの収集に課題がある場合でも、AI Marketがアノテーション会社やデータ収集代行会社も紹介可能ですので、いつでもご相談ください。
また、無料公開されていないような、ビジネスで活用可能なアノテーション済みデータセットを提供している会社も紹介可能です。
目次
画像認識に使うデータセットとは?
データセットとは、機械学習をするためにプログラムで処理されるデータの集合体です。教師データとは、データセットのうち、AIの機械学習に用いる「例題」と「正解」の形式で整理されたデータを指します。
読み込ませた画像に写っている物体が何かを判断する技術が画像認識です。人間は写真に写る人や車を見てそれが何であるかを判断することができます。これは人間が実世界で人や車を見て、事物を学習しているからです。AIに同様の判断をさせるためには、人と同様にAIに学習をさせる必要があります。
典型的な画像認識としてはOCR(光学文字読取)が挙げられます。スキャナーで読んだ文字を電子上のテキストデータに変換するこの機能は、タイプされた明瞭な文字を読み込むものから、やがて手書きの文字を扱うレベルに成長しました。このような手書き文字読み取りには文字データのサンプルを蓄積したデータセットによる機械学習が利用されています。
「【10製品比較】AI-OCRを徹底理解!AI-OCR活用のメリットとは?」の記事では、OCR製品の比較も行っていますので、ご参考ください。
機械学習とデータセット
AIによる画像認識は読み込まれたピクセルデータから画像の構成を特徴量として取り出し、数学的な演算によってモデルデータと比較して判定します。この作業を繰り返すことでAIは画像を学習し、正答率を高めていくのです。
AIに学習させたいデータに意味付け(タグ付け)を行って、教師データを作成していく作業をアノテーションといいます。AI開発における非常に重要な役割をもっており、アノテーションによってAIの精度が変わるといっても過言ではありません。
アノテーションの代表的な手法、実施方法、注意点についてはこちらの記事で分かりやすく解説しています。
大量の画像を読み込み、学習を重ねることでAIは画像の差異を理解していきます。Facebookが2012年に開発した顔認証AIは、深層学習を使って画像に写った顔が同一人物であることを人間とほぼ同精度で判定しました。また、Googleの開発した画像認識AIは人間の手を借りずに自ら「猫」の画像を判別する能力を身に付けています。
深層学習が可能なAIは画像判定に当たり、人によるサポートが不要です。類別された多量の画像データを読み込むことで、AIは自らその対象物の見分け方を学ぶことができます。この時に学習の基礎になるラベル付けされたデータの集合体としてデータセットが必要になるのです。
教師データを収集する際の重要ポイント
アノテーションの品質を左右する教師データ(データセット)を集めるうえでは、以下のようなポイントがあります。
- データの種類
- データの量
- データの質
それぞれについて説明します。
データ収集の代表的手法、コツをこちらの記事で詳しく説明していますので併せてご覧ください。
データの種類を決める
構築したいAI(人工知能)モデルによって、必要となるデータセットの種類が変わります。
- 画像認識モデルを構築するのであれば、識別対象となる画像
- 自然言語解析モデルを構築したいのであれば、その対象となる文章
- 音声認識モデルを構築するのなら、その対象となる音声データ
- 予測モデルを構築するのであれば、関連する数値データ
当然ですが、これらのデータを大量に収集する必要があります。もう少し具体的に見ていきましょう。
- 自動運転(画像認識)のモデルであれば、車から撮影した映像ファイル
- 顔認識のモデルであれば、顔写真の入った画像ファイル
- 建造物の劣化具合を識別するモデルであれば、サビや傷の入った建造物の画像ファイル
- チャットボット用の言語認識モデルであれば、チャットコミュニケーションで発生する口語文章
このように、構築したいモデルに合わせてインプット対象となる元データを集めていきます。
プロ厳選!AI学習用データ収集に強い会社の記事では、AI学習に必要なデータ収集についてやおすすめの会社を紹介しております。あわせて、ご覧ください。
膨大なデータ量が必要
AIの精度向上のためには膨大なデータ量を集めなければなりません。少ないデータでは学習量が足りず、精度の高いAIを実現することはできません。そのため、AIを導入したとしても精度が悪く意味のないものになってしまいます。
無償のデータセットは活用できる?
近年AI(人工知能)の活用が盛んになってきており、大学や研究機関などが、アノテーション済みのデータセットを無償公開するケースも増えています。これらのデータセットを活用すること自体はもちろん可能ですし、自社が構築したいAIモデルに合致した適切なデータであれば、ぜひ活用しましょう。
公開されているデータの多くは、訓練用、検証用、テストデータ用に既にアノテーション済みになっており、活用できる形式になっています。
ただし、自社で構築したいモデルは、多くの場合において、自社専用の固有モデルであり、これらのデータセットが活用できるかどうかはしっかりと見極める必要があります。
例えば、自社工場で製造した部品の不良品を識別する画像認識モデルを構築するためには、その自社工場で製造した部品の画像が必要になりますが、このデータは当然ながら自社でしか手に入りません。
顔認識のモデルのように、汎用的なモデルであれば、活用できるデータセットは多くありますので、探してみるとよいでしょう。
顔認識では、ランドマークアノテーションという手法を用いて、顔のパーツを点で指定することが多いです。
尚、公開されているデータセットのなかには、商用利用ができないデータセットもありますので、その観点でデータセットを確認することも必要です。
有償データセット提供サービスも
データセットと聞くと、上述のような無償データセットを思い浮かべる方が多いかもしれませんが、実は民間の会社が提供しているデータセットも多くあります。
このデータセットでは、無償で提供されているデータセットには含まれていないようなニッチなデータ(マスク付きの顔写真画像やキーポイントアノテーション済みの顔画像データ、赤ちゃんの泣き声など)を提供している場合もありますので、データセットの購入を検討してみるのも良いかもしれません。
AI Marketでは、データセットを提供している会社の紹介も可能ですので、よろしければぜひご相談ください。
また、データセットを提供している会社を厳選して紹介するAI学習用データ収集が可能なプロ厳選の会社紹介記事もぜひご参考ください。
データの質が重要
アノテーションでは、データの質も非常に重要です。データの扱い方や教師データに間違いがあった場合、AIが思うように学習できず間違った判断をしてしまうなど、品質低下につながりかねません。
品質管理を行う上で、アノテーション作業者の習熟度も重要な要素ですが、最も重要になるのは、アノテーション作業要件と言えるでしょう。アノテーション作業要件とは、対象となるデータに対して、「どのような判断ロジック」で「どのように」アノテーションを行うのか、を明示化することを指します。
この要件がブレると、どれだけ作業者が正確にアノテーション作業を行おうとしても、品質はほとんどの確率でバラつきます。
これを防ぐためにも、アノテーション作業を行う前に、可能な限りアノテーション要件を明確に定め、また、アノテーション作業を行う方と認識を統一できるように進めていきましょう。
ただし、判断ロジックに人の判断が入ってしまう場合などもどうしても出てきます。その場合は、極力作業者とその理解を統一し、その判断ブレの許容範囲を決めておくと、作業品質として明確化ができてよいでしょう。
また、画像のアノテーション作業などにおいて、どのように、を細部まで決めすぎてしまうと、作業者の作業負荷が大きく上がってしまいますので、ここも作業者と話しながら、バランスを取って決めていきましょう。
データセットの種類
データセットには処理するべき画像の種類によっていくつかの種類があります。
画像データセット
画像データセットは、一般の写真などの画像データの集合体です。スマートフォンやセキュリティシステムで用いられる顔認証用のデータセットや手書きの数字、カメラに写った動物や服装を分類判別するためのものなど、様々な分野が用意されています。分類クラスの情報が整理されたアノテーション付きのデータセットが利用可能です。
動画データセット
動画データセットは、YouTubeなどの動画や独自に撮影したビデオデータから抽出した画像にその動きを判別するための情報を添付したデータセットです。主に人の動きを対象として、動画画像の人物が何をしているのかを判別するための学習素材になっています。
データセットの入手方法
AIで画像認識を行うためにはAIが学習するためのデータセットが必要です。ではそのための画像データをどうやって準備すればよいでしょうか。下記よりデータセットの入手方法を解説します。
データセットを自作する
一つの方法は自作することです。必要なだけの画像データを集めてラベルを付け、オリジナルのデータセットを作成します。特に自社仕様の画像認識AIを開発する場合には、その目的に沿ったデータセットを生成することが重要です。
ただし、画像の入手やラベル付けにはかなりの手間とコストがかかります。
手間をかけず、効率よく画像データセットを作成するなら、アノテーションツールの利用を検討しましょう。代表的なソフトとしてMicrosoftのVoTTがあります。画像認識に用いるYOLOやTensorFlowのアルゴリズムにはそのままの形式で出力。動画にもタグ付け可能です。
YOLOの仕組み、メリット、デメリットをこちらの記事で詳しく説明していますので併せてご覧ください。
「AI開発におすすめのアノテーションツール」では、プロ厳選のアノテーションツールを紹介しています。併せてご覧ください。
また、アノテーション作業を委託したい場合は「アノテーション代行でおすすめのプロ厳選会社」でアノテーションが得意な会社、アノテーションに必要な元データを収集したい場合は「データ収集代行でおすすめのプロ厳選会社」でデータ収集代行会社を紹介していますので、こちらもぜひご参考ください。
公開データセットの利用
データセットを自作する場合、機械学習の精度を高めるためには数万枚の画像データを作成する必要があります。自作する時間、コストがかけられない場合は公開されているデータセットを使うことも効率的な方法の一つです。
こういったオープンデータは多数の研究機関や機械学習サイトで手に入れることができます。さまざまなクラス情報が付与された数千万枚の画像データが利用可能です。必要なクラスのデータセットを選択することで、AIの学習効率を高め、高精度の画像認識を実現できます。
ImageNet
代表的な画像データセットとして挙げられるImageNet。スタンフォード大学の研究室が中心となって管理されるデータセットです。画像認識の進歩に深層学習を利用することに大きな貢献をしました。自然物を中心に1,400万枚、22,000カテゴリの画像がラベル付けされ、無償で公開されています。
2万種類以上のクラスが登録されているため、自分の目的とするデータセットを文字で検索して抽出できる使い勝手の良さも魅力。標準的なデータセットとして、各種モデル間での学習パフォーマンスを比較するためのベンチマークツールとしても利用されています。
また、ImageNetは、ディープラーニングが注目されるきっかけとなった、ILSVRC(The ImageNet Large Scale Visual Recognition Challenge)と呼ばれる、画像認識の世界大会を開催していることでも知られています。
機械学習のためのデータセット
機械学習に便利な公開データセットのうち、いくつか代表的なものを紹介します。それぞれに適用しやすい用途や特徴がありますので、自分の課題である画像認識に合ったものを選んで使用を検討してみても良いかもしれません。
MNIST
MNISTは手書き数字の画像データセット。0~9までの数字の手書き画像データ7万件が集められています。AIの学習プロセスについて学びたい初心者向けのデータセットで、現実のデータを使ってAIのパターン認識について理解するための入門用として作られています。
アメリカ国立標準技術研究所(NIST: National Institute of Standards and Technology)によるデータベースから抽出された画像データをもとに修正されたもので、データセットとしてはサイズが小さく、実験用データとして扱いやすいのが長所です。
MNISTは、主にCNN(畳み込みニューラルネットワーク)の画像認識用の基本的なデータセットとして利用されています。TensorFlowなどの深層学習の汎用的なライブラリでは、自分でダウンロードしなくても予めMNISTのローディングが用意されているものが少なくありません。
TensorFlow
TensorFlowはGoogleが開発しているAI学習用のオープンソースライブラリ。ネット業界から医療業界まで様々な企業が導入しており、Pythonを使用したネットワークライブラリKerasと合わせて使いやすいインターフェースが特長です。
深層学習用のPythonライブラリであるTensorFlow 2.0以降では、TensorFlow Datasetというデータセットライブラリが提供されています。テキスト、画像、動画の他、音声や物体検知、質疑データなど20のカテゴリに分類されており、全体では200を超えるデータセットがロード可能です。
関連記事:「TensorFlowとは?特徴・使い方・Pytorchとの違いを徹底解説!」
CIFAR-10
AlexNetの創設者Alex Krizhevsky氏により生成されたデータセット。10クラス各6000画像のCIFAR-10と、100クラス各600画像のCIFAR-100が提供されています。CIFAR-100ではクラス構造が二段になって20のスーパークラスに分類されており、より詳細な画像データを選択できます。
ネット上で検索された8千万の画像データから抽出してラベリングしたデータセットで、機械学習の研究において最も広く使われているデータセットの一つです。TensorFlowなどのライブラリからもロードできます。
Open Image
Googleによって公開されている900万画像のデータセット。6000のカテゴリーに分類された画像にはラベルだけでなく物体の境界区画(バウンディングボックス)とアノテーションが付けられており、深層学習による画像認識に最適なデータセットになっています。
広い範囲の画像が集められていますので様々な用途の画像認識に適用でき、一つの画像に複数の物体が写っているような写真にもラベルが付けられています。ImageNetと同様の汎用画像データセットとして、深層学習の訓練データに好適です。
データセット使用にあたっての注意
データセットは画像の集合ですから、使用にあたってオリジナル画像の著作権が問題となる可能性があります。一般にネットにアップロードされた写真や画像を私的利用の目的としてダウンロードすることは違法ではありません。ただし、その画像を加工したり修正したりする行為は著作物の改変にあたるため、著作権の侵害となります。
著作権法上、著作物の利用に関して「情報解析」を目的とする場合は著作権の侵害とならないと定められています。ここでいう「情報解析」とは、「多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うこと」とされており、AIの開発はこの「情報解析」にあたるものです。
したがってAIの開発を目的として他社の著作物を使用することは著作権の侵害にはあたりません。ただし、これは日本の著作権法上の規定ですので、他国でも同様に保護されるとは限りません。開発が日本国外で行われる場合には画像データの使用が制限される可能性があります。ご注意ください。
なお、インターネットを使った開発の場合、例えばWEBサービスを使ってデータセットを生成するケースでは著作物の「利用行為地」を特定する必要があります。通常はサーバの所在地を「利用行為地」と考えるのが一般的ですので、サーバのリージョンが日本国外になっていると上記の著作権法上の保護が受けられない可能性があります。
上記については、顧問弁護士などと相談するなどして、合法な形でデータを活用するように注意しましょう。
また、無料で公開されているデータセットは、利用規約で利用範囲を制限されている場合もありますので、こちらも注意が必要です。
例えば、学術研究目的でのみの利用を許諾し、商用利用が禁止されていたりするケースがあります。この場合、企業としてそのデータセットを活用できない場合などもありますので、無料公開されているデータセットを利用する際は、必ず利用規約を確認するようにしましょう。
AI画像認識についてよくある質問まとめ
- AI画像認識のためのデータセット作成時に注意すべき重要なポイントは何ですか?
AI画像認識のためのデータセット作成時に注意すべき重要なポイントは以下の通りです。
- 目的に適したデータの種類を選択する
- 膨大なデータ量を収集する
- データの質を確保する(正確なアノテーション、バイアスの排除など)
- アノテーション作業の要件を明確に定義する
- 著作権や利用規約に注意する
- AI画像認識で使用される代表的な公開データセットにはどのようなものがありますか?
AI画像認識で使用される代表的な公開データセットには以下のようなものがあります。
- ImageNet: 1,400万枚、22,000カテゴリの自然物中心の画像データセット
- MNIST: 手書き数字の画像データセット(7万件)
- CIFAR-10/CIFAR-100: 10クラス各6000画像/100クラス各600画像のデータセット
- Open Image: Googleが公開した900万画像、6000カテゴリのデータセット
- AI画像認識のためのデータセット使用時の法的な注意点は何ですか?
AI画像認識のためのデータセット使用時の主な法的注意点は以下の通りです。
- 日本の著作権法では、AIの開発目的での著作物使用は「情報解析」として認められている
- ただし、海外での開発の場合は各国の法律に注意が必要
- WEBサービスを使用する場合、サーバーの所在地が「利用行為地」となる可能性がある
- 公開データセットの利用規約を確認し、商用利用が許可されているか確認する
- 必要に応じて顧問弁護士に相談し、合法的な利用方法を確認する
画像認識を活用したAI開発は代行会社へ
今回の記事ではAIによる画像認識とデータセットについて説明しました。
AIが画像認識を行う場合、機械学習の訓練プロセスにおいて教師データとなるデータセットは重要な要素となります。学習データを自前で作成する場合には大量のデータを入手し整理することが必要となります。また、公開データセットについても、日々、新しいデータセットが生成されて続けられている状態です。
AIによる画像認識システムを構築するにあたっては、データセットの準備や入手、学習モデルの選定や学習の進め方など、検討するべき多くの条件があります。
導入を検討している案件があれば、最適なAI開発会社の紹介を行っているAI Marketをぜひご活用ください。開発コストなどの情報を含めて、専門コンサルタントが画像認識に強い開発会社の選定を無償でサポートいたします。
また、データセットの作成やデータセットの元となるデータの収集に課題がある場合は、AI Marketがアノテーション会社やデータ収集代行会社も紹介可能ですので、いつでもご相談ください。
他にも、無料で公開されていないような、ビジネスで活用可能なアノテーション済みデータセットを提供している会社も紹介可能です。
AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp