セマンティックセグメンテーションとは?深層学習による画像認識の仕組み・インスタンス手法との違い・実用例徹底解説
最終更新日:2024年11月12日
ディープラーニング(深層学習)の発展によって、機械学習に基づいた画像認識技術の一つ「セグメンテーション」の技術は飛躍的に進歩を遂げています。セグメンテーションとは、日本語で「分割」という意味です。機械学習においては、画像を複数オブジェクトに分割するタスクを指します。
画像のセグメンテーションには大きく分けて3つの種類があり、セマンティック・セグメンテーションが広く使われている手法です。「AIを活用した画像のセグメンテーションとは?」「セマンティック・セグメンテーションを活用してできることは?」といった疑問をお持ちの方も多いでしょう。
本記事では、セグメンテーションの代表格であるセマンティック・セグメンテーションとは何か?を解説し、インスタンス手法との違い、仕組み、実用例を紹介します。
AI Marketでは、
「画像認識・画像解析のAI開発に強い、プロ厳選の開発会社」も併せてご覧ください。
目次
セマンティック・セグメンテーションとは?
セマンティック・セグメンテーション(領域分類)は、画像全体や画像の一部の検出ではなく、ピクセル(画素)一つひとつに対して示す意味をラベル付けしていく手法です。画像のピクセルがどのカテゴリに属するかで分類し、何が写っているかのラベル付けやカテゴリ関連付けを行います。コンピュータビジョンのなかでも最も重要視されている手法の一つです。
関連記事:「コンピュータビジョンとは?仕組み・活用メリット・活用分野・注意点を徹底紹介!」
物体の種類ごとに領域分割し、物体が重なっているときにはそれぞれの区別ができませんが、空、道路、標識など不定形の領域を検出することが可能です。
例えば、2人が写った写真で、2人をまとめて領域設定するのがセマンティックセグメンテーションです。
セマンティック・セグメンテーションは、細かな領域の抽出が必要となる建物の劣化(錆びている箇所やヒビが入っている箇所)具合を特定するモデルなどで活用されています。
セグメンテーションをはじめとした画像認識の技術は近年急速に発展しており、車の自動運転から医療画像解析まで応用の幅も広いため、巨大IT企業も注目し多額の投資をしています。
画像認識はセグメンテーションを含む3種類
画像認識はコンピューターにより自動で画像からさまざまな情報を抽出することを目的としています。画像認識技術を細分化すると以下に分けられます。
- 画像セグメンテーション(画像分割)
- 画像分類(クラシフィケーション)
- 物体検出(ディテクション)
「画像分類(クラシフィケーション)」は、画像に対してクラス分類することです。その画像が何なのかをカテゴリ、クラス分類していきます。
例えば、いろいろな動物が書かれた画像を次々と、これはイヌ、これはネコなどと一枚ずつ分類していくことです。「画像認識とは?なぜAIを使う?種類・導入ステップ・注意点を徹底解説!」では、画像認識における分類型の説明をしておりますので、あわせてご覧ください。
「物体検出(ディテクション)」は、画像のどこに何があるのかを分析することです。物体の位置や種類、個数の特定が可能です。特に物体の個数を数えるのに活用される個数カウントについては、こちらの記事で詳しく説明します。
物体検出(ディテクション)では、物体の位置をバウンディングボックス(四角いボックス)で囲んで指し示します。それで、境界ボックス内に対象物が収まらなければなりません。
セマンティック・セグメンテーションは、対象物の画像内を画素レベルで複数領域に分けるので不規則な形状の対象物でも明瞭に検出できます。その点で物体検出よりも便利と言えます。
セグメンテーションはさまざまな技術の組み合わせで成り立っているため、物体認識や物体検出などの画像認識技術の組み合わせによってできることの幅が広がるのが特徴です。
インスタンス・セグメンテーション、パノプティック・セグメンテーションとの違いは?
画像セグメンテーションには、セマンティック・セグメンテーションのほかに以下の2種類の手法があります。
- インスタンス・セグメンテーション
- パノプティック・セグメンテーション
それぞれの手法について説明します。
インスタンス・セグメンテーション
「インスタンス・セグメンテーション」は、画像の中にある物体の領域を特定し、個体ごとに領域分割して物体の種類を認識できる手法です。
不定形の領域は扱えませんが、隣接した同種類の物体は区別できます。例えば、3台の車と2人の人が重なって写っている画像でも、それぞれ個体ごとに5つの領域として抽出します。
2人が写った写真で、2人をまとめて領域設定するのがセマンティックセグメンテーションで、1人1人を個別で領域設定するのがインスタンスセグメンテーションです。
パノプティック・セグメンテーション
パノプティック・セグメンテーションは、セマンティック・セグメンテーション、インスタンス・セグメンテーションを組み合わせた方法です。
すべてのピクセルにラベルがふられて、数えられる物体に関して個別で認識した結果が出てきます。セマンティック・セグメンテーション、インスタンス・セグメンテーションの長所を取り出してつなぎ合わせた手法と言えるでしょう。
既存の手法では、それぞれ別に処理して一つのパイプラインとするものが多く、つなぐことで望ましくない相互作用が生じて精度の低下が起こっていました。まだまだ研究途上でこれからの進展が期待される手法です。
セマンティック・セグメンテーションの手法と仕組み
画像認識分野によく利用されている手法がCNN(Convolutional Neural Network)、日本語では畳み込みニューラルネットワークです。そして、CNNを応用したFCN(Fully Convolutional Network)がセグメンテーションではよく使われます。
セマンティック・セグメンテーションの代表的な手法は以下です。
- CNN(畳み込みニューラルネットワーク)
- FCN(全層畳み込みネットワーク)
- SegNet
- FPN(特徴ピラミッドネットワーク)
- R-CNN
- RNN(再帰型ニューラルネットワーク)
それぞれの手法について説明します。
CNN(畳み込みニューラルネットワーク)
CNNは、ニューラルネットワークに畳み込み操作を導入し、全結合層、畳み込み層、プーリング層などのいくつかの特徴的な機能を持つ層で構成される順伝播型ニューラルネットワークのことです。
FCN(全層畳み込みネットワーク)
FCN(Fully Convolutional Network)とは、日本語で全層畳み込みネットワークと呼ばれ、セマンティックセグメンテーションに使われる手法です。多くの層を持つニューラルネットワークの「CNN(畳み込みニューラルネットワーク)」の1つに分類されます。
CNNは、特徴的な機能を持つ層で構成される順伝播型ニューラルネットワークが直接データを学習できる仕組みです。人の手による抽出が不要で、特に画像認識分野における深層学習において注目を集めています。
FCNは、全結合層を領域全体をカバーする畳み込み層で置き換えたものです。画像の中の物体や顔、背景を認識し、パターンを見つける用途に有効で、自動運転車や顔認識アプリなどに使用されています。
SegNet
SegNetは、入力画像から畳み込み層によって特徴を抽出するEncoder(エンコーダ)と、抽出した特徴を元画像のピクセル位置との対応関係としてマッピングするDecoder(デコーダ)で構成されています。イギリスのケンブリッジ大学が提唱したセマンティックセグメンテーション手法です。
エンコーダ・デコーダ構造のモデルの確率マップでは、どのクラスに属しているかという確率をピクセル単位で表現します。エンコーダ抽出によって抽象的になってしまった部分を、デコーダが高解像度な画像を再構築する仕組みです。
エンコーダ・デコーダ構造は、SegNetのほかにU-NetやHRNetがあります。道路画像の画素単位の画像分割などに利用されています。
FPN(特徴ピラミッドネットワーク)
FPN(Feature Pyramid Networks)とは、画像データから抽出された特徴をピラミッド型に伝播させる手法です。日本語では、特徴ピラミッドネットワークと呼ばれます。
従来は、画像の倍率を変えて複数回推論し、結果を統合するマルチスケール分析と呼ばれる手法が用いられていました。このアプローチは、深層学習では計算量やメモリ消費の問題がありました。
FPNを使うと、従来のように異なる画像倍率での分析や結合が省けるため、画像認識の効率化や検出精度の向上に役立ちます。同様のアプローチをしているものに、PSPNetがあります。
R-CNN
R-CNN(Region-Convolutional Neural Network)は、インスタンスセグメンテーションなどに応用されている物体検出用に考案されたモデルです。画像から物体が存在する領域の候補を抽出し、物体を囲む長方形の枠(バウンディングボックス)とクラスを予測します。
代表的なモデルである「Mask R-CNN」では、バウンディングボックスにおけるピクセルごとのクラスまで予測可能です。
RNN(再帰型ニューラルネットワーク)
RNN(Recurrent Neural Network)は、時系列や文章などの連続的な情報を持つデータに適した手法です。日本語では、再帰(回帰)型ニューラルネットワークと呼ばれます。画像データでは、画像の垂直方向や水平方向の連続性をモデル化することが可能です。
RNNの「Reccurent」は、「回帰」や「再帰」という意味を持ちます。RNNは、過去に計算された情報を覚える記憶力が備わっており、直前の情報に影響されず特定の言葉を覚えながら作業することが可能です。
AI Marketでは、
セマンティック・セグメンテーションの実用化事例6選
AIセグメンテーションの活用でできるようになる応用例を紹介します。
自動運転
最も注目されているテクノロジーは車の自動運転です。自動運転車の最も基本的なタスクは周囲の物体を瞬時に認識することで、そこにはAI技術が活用されています。
どのような気象状況においても、信号機、歩行者、車線などを正確に検知する必要があり、セグメンテーションを活用してビデオ画像をピクセルごとに分割し瞬時に正確な処理を行います。
周りの物体や道路標識を処理できるようにするため、画像には意味付けがされ、車線の境界を識別して多様な走行ルールが判断可能となります。
画像解析のほかに自動運転に用いられるAI技術、課題、問題点についてはこちらの記事で解説しています。
医療画像診断
CTやMRIを使った画像診断で疾患を発見しやすくするため、意味のある領域に画像を分けるセグメンテーションが活用されています。これを医療画像に用いると、細胞の領域と細胞がない部分の背景領域に分割可能です。
なお、医療用画像セグメンテーションモデル「3D U-Net」が使われます。U-Netは医療画像のセグメンテーションモデルとして提案されたもので、CNNで分類した物を実画像上の位置に反映させます。CT解析の自動化で精度が高いリアルタイムでの診断が可能です。
また、定期検診や人間ドックなどにおいては大量の画像を見る必要があり、医師の不足による負担が大きいことが課題でしたが、異常箇所の可能性をAIが指し示すことで見落としのリスクを減らせるでしょう。
顔認証
顔認証は、顔のわずかな違いを認識する必要があり、精度の向上が求められています。瞬時に判断しながらも正確でなくてはなりません。
スマートフォンのロック解除や、企業の入館に際して顔認証を取り入れるなど身近なものになりつつあります。防犯や警備の観点から私たちの関心は高まっているため、さらなる精度向上と正確性、スピードが求められるでしょう。
セグメンテーションを含め、ディープラーニング技術を用いた手法の顔認証の研究が進められています。
ドローン
自動運転と同様に、ドローンの自動操縦にも周囲の物体を瞬時に認識することが求められています。
また、ドローンに搭載したカメラの映像から、これまで撮影できなかった箇所の動画を解析することで新たな学習データが得られます。組み合わせ方によっては新たなビジネスチャンスが生まれる可能性もあるでしょう。
AI搭載ドローンの活用例、課題についてはこちらの記事で特集していますので併せてご覧ください。
外観検査
AIを活用した画像認識による外観検査はさまざまな分野で利用されています。特に製造業などの工業用検査として異常検知は重要な役割を果たします。
関連記事:「外観検査とは?効率を上げるには?人気の手法・手順・流れなど製造業担当者完全ガイド」
生産現場で製品群の中から不良品を発見したり、設備の故障を予見したりなどの利用法が考えられるでしょう。従来は人が目視することで行われていた外観検査や異常検知の作業は、高い集中力と長い時間を要し、熟練作業者でないとできない作業も数多くありました。
このような検査をAIの導入により、作業の効率化が図られ、安定した検察品質の維持が可能となります。
外観検査については「AIによる外観検査導入完全ガイド!プロ厳選システム開発会社」の記事で詳しく紹介していますので、より理解を深めたい方はあわせてご覧ください。
衛星画像の解析
衛星データをはじめとした地理空間情報を画像セグメンテーションで分析して、さまざまなソリューションやアプリケーションを提供するビジネスが展開されています。
例えば、小型衛星が宇宙から撮影された世界中の石油タンクの映像を解析して、石油タンクの蓋に映し出された影から世界中の石油備蓄量を推計するビジネスが実用化されています。この推計結果はエネルギー関連企業や投資家にとって有用な情報です。
また、衛星が撮影したショッピングセンターの映像をもとに駐車台数を集計して、需要や売上を予測したり、顧客の行動パターンを分析したりするサービスも提供されています。
セマンティックセグメンテーションについてよくある質問まとめ
- セマンティック・セグメンテーションとは何ですか?
セマンティック・セグメンテーションとは以下の通りです。
- 画像のピクセル一つひとつに対して意味をラベル付けする手法
- 物体の種類ごとに領域分割を行う
- セマンティック・セグメンテーションの主な手法にはどのようなものがありますか?
セマンティック・セグメンテーションの主な手法は以下の通りです。
- CNN (畳み込みニューラルネットワーク)
- FCN (全層畳み込みネットワーク)
- SegNet
- FPN (特徴ピラミッドネットワーク)
- R-CNN
- RNN (再帰型ニューラルネットワーク)
- セマンティック・セグメンテーションの実用化事例にはどのようなものがありますか?
セマンティック・セグメンテーションの主な実用化事例は以下の通りです。
- 自動運転:周囲の物体や道路標識の認識
- 医療画像診断:CTやMRI画像の分析
- 顔認証:顔の特徴抽出
- ドローン:自動操縦や映像解析
- 外観検査:製造業での不良品検出
- 衛星画像の解析:地理空間情報の分析
セグメンテーション技術を活用したAI開発やアノテーションは代行会社へ
AIセグメンテーション技術の活用によってさまざまな応用が期待できることがお分かりいただけたと思います。
セグメンテーションの高い予測精度を実現するためには、正確にアノテーションされた学習データが必要です。アノテーションとは、特定の情報にメタデータと呼ばれる情報タグを付加することです。
精度の高いセグメンテーションに欠かせないアノテーション作業の手法、作業方法についてはこちらの記事で分かりやすく解説しています。
セグメンテーションは難易度が高い作業なので、専門の企業への依頼がおすすめです。難易度の高いアノテーションでも、専門の企業には独自のプロセスやリソースを保有しており、リーズナブル且つ高品質に作業を実施可能なところも多くあります。
アノテーションサービスの会社の詳細が知りたい方は、プロ厳選のアノテーションサービス会社の記事をご参考ください。
ただし、セグメンテーション技術を活用したAI開発やアノテーションを依頼する際は、コストや実績など、検討する部分が多く存在します。
AI Marketでは、
AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp