YOLOとは?なぜ早い?物体検出の従来手法との違い・メリット・デメリット、特徴を詳しく解説
最終更新日:2024年11月27日
YOLOは「You Only Look Once」の略で、AIを活用した画像および映像分析で広く使われている代表的な物体検出手法の一つです。物体検出の領域ではおそらく最も多く活用されているAIモデルです。
AIによる自動解析や自動処理がビジネスにおいて必要とされているなか、特にAIを活用した画像・映像解析の役割は大きくなっており、生産性の向上に不可欠な存在となっています。その中でもYOLOは、
本記事では、
画像解析技術の導入を検討している経営者の方、より迅速かつ正確な解析手法を求めている方にとって有益な情報源となるでしょう。
物体検出の基本情報はこちらの記事で詳しく説明していますので併せてご覧ください。
AI Marketでは
目次
YOLOとは?
「YOLO」とは、リアルタイム物体検出において最も多く用いられている画像認識アルゴリズムの一つであり、オープンソースで公開されています。この技術は、
YOLOは「You Only Look Once」の略で、「一度見るだけ」という意味を持ちます。画像認識のなかで最も幅広く用いられている物体検出分野では定番のアルゴリズムです。
関連記事:「画像認識とは?種類・業種別活用方法・導入ステップ・注意点を徹底解説!」
2016年にv1が登場してから、ほぼ毎年のように新しいバージョンが登場しており、2023年にUltralytics社開発の正統進化版YOLOv8、2024年に全く新しい独立進化系のYOLOv9が登場しましたが精度・速度ともに進化を遂げています。
YOLOは、その名が示す通り、一度の視認だけで物体を検出するのが特徴です。畳み込みニューラルネットワーク(CNN)を活用し、一回の画像走査で画像のなかにある複数の物体を同時に検出して、識別します。
この効率的な処理が、YOLOが「一回で物体を検出する」という特性を持つ理由です。
YOLO以前の物体検出手法との違いは?
YOLO以前に物体検出で使用されていた主な手法は以下です。
- スライディングウィンドウ法:画像の左上から右下へとウィンドウ(検出フレーム)をスライドさせながら、画像の全領域で物体を検出しようとします。ウィンドウ内で物体が見つかった場合、その物体を識別し、その物体が対象物かどうかを判断します。
- 領域提案法: まず、画像のなかに物体が存在する可能性のある領域を見つけ出します。その後、可能性のある領域をディープラーニングモデル(例えばディープニューラルネットワーク)で分析して物体の識別を行います。
上記の従来手法では、まず画像のなかで物体を検出し、次に物体を個々に識別し詳細を確認するプロセスでした。一つひとつの領域に対して物体検出と識別を繰り返すため、以下のデメリットがありました。
- 計算処理が重い
- 時間がかかる
一方でYOLOは全く異なるアプローチを採用しています。画像を一度走査するだけで、画像上の全ての物体を同時に検出し、識別できます。そのため、計算処理の負担が大幅に軽減され、処理時間も短縮されます。
YOLOは多様なビジネスで応用
YOLOは以下のようにさまざまなビジネスにおける多様な応用が可能です。
- 小売業界:商品の監視や在庫管理
- 交通システム:車両や歩行者の検出
- ヘルスケア分野:医療画像の解析
- 農業:作物の健康状態の監視
このように、YOLOは幅広い産業での応用が期待されており、特にビジネスの効率化や新たなサービスの創出に貢献する可能性があります。物体検出技術を使って事業を効率化、強化したい経営者にとって、YOLOはまさに理想的な選択肢と言えるでしょう。
詳しくはこの記事内の見出し「YOLOを活用した画像認識・物体検出の具体例」をご覧ください。
YOLOの開発史と主要系統
YOLOは統一した組織や企業のもとで開発されてきたわけではありません。それぞれ、独立した組織や研究者が独自の開発思想のもとで各バージョンを開発してきました。
シリーズの主要な系統を以下にまとめます。
オリジナルYOLO系統
Joseph Redmonによって確立された基本的なアーキテクチャと概念を提供しました。
- YOLOv1(2016年):Joseph Redmonによる原型
- YOLOv2(2017年):アンカーボックスの導入
- YOLOv3(2018年):マルチスケール検出の導入
Alexey Bochkovskiy系統
Alexey Bochkovskiy系統は、性能向上に重点を置き、BoF手法やモデルスケーリングの最適化など、精度と速度のバランスを追求しています。
- YOLOv4(2020年):BoF手法の導入
- Scaled-YOLOv4(2020年):モデルスケーリングの最適化
- YOLOv7(2022年):再パラメータ化と補助Headの導入
Ultralytics系統
Ultralytics系統は実用性と使いやすさに焦点を当て、PyTorch実装や簡単な学習・推論インターフェースを提供しています。
- YOLOv5(2020年):PyTorch実装、使いやすさの向上
- YOLOv8(2023年):コマンドラインツールの導入、多タスク対応
その他の派生系統
- YOLOR(2021年):暗黙知の導入
- YOLOX(2021年):アンカーフリー手法の採用
- YOLOv6(2022年):Meituan Vision研究チームによる開発
- YOLOv9(2024年):精度とパラメータ数をトレードオフしないアーキテクチャ
YOLOはなぜ速い?
YOLOが従来の物体検出の手法より速いのは、画像の全体を一度で処理し、物体を識別するからです。YOLOは以下の4つのステップで構成されています。
1.画像の分割
YOLOはまず、入力された画像を正方形に変形します。その後「グリッドセル」と呼ばれる小さな正方形にさらに分割されます。
この正方形の形状がニューラルネットワークによる画像解析を容易にします。
2.バウンディングボックスと信頼度の推定
各グリッドセル内で物体を囲む枠(バウンディングボックス)が設定されます。同時に、バウンディングボックス内に実際に物体が存在する確率(信頼度)が計算されます。
値が1に近いほど物体の存在可能性が高いことを意味します。0なら物体は存在しないとされます。
3.クラスの予測確率の計算
各グリッドセルに存在する物体が特定のクラス(種類)に属している確率、すなわち「クラスの予測確率」が計算されます。
4.信頼度スコアの計算
バウンディングボックスの信頼度とクラスの予測確率を掛け合わせて、「信頼度スコア(Confidence Score)」を算出されます。このスコアは、どのバウンディングボックスが正確に物体を検出しているかを示します。
信頼度スコアを基に、どのバウンディングボックスが正確に物体を検出しているかを判断します。これにより、画像全体に存在する物体の種類と位置が明らかになります。
YOLOとCNNの違い
物体検出の分野では、主にCNN(畳み込みニューラルネットワーク)が利用されています。CNNは、ディープラーニングで用いられる最も有名なネットワークの一つであり、画像処理に非常に効果的です。しかし、物体検出には様々な手法があり、その中でもYOLO(You Only Look Once)は、CNNベースの手法とは異なるアプローチを取っています。
CNNベースの物体検出手法の代表例であるR-CNNは、画像内から物体が写っている可能性のある領域(Region Proposal)を約2000個抽出し、それぞれの領域についてCNNを用いて特徴量を計算し、物体を分類します。このアプローチにより、従来の手法よりも高精度な物体検出が可能になりました。
しかし、R-CNNは学習に時間がかかり、メモリ消費量も大きいという課題がありました。これらの課題を解決するために、Fast R-CNNやFaster R-CNNが開発されました。
一方、YOLOでは、画像全体を予めグリッド状に分割し、各領域ごとに物体の種類と位置を直接予測します。この手法により、リアルタイムでの物体検出が可能になります。
ただし、識別精度はFaster R-CNNと比べると若干劣ります。特に、画像内に多数の物体が存在する場合、精度が低下する傾向があります。
しかし、YOLOは画像全体を使って学習するため、背景の誤検出は抑えられます。
YOLOは現在もバージョンアップが続いており、最新版のYOLOv5ではPythonで動作し、自作のデータセットを簡単に学習できるようになっています。
このように、YOLOとCNNベースの手法では、アプローチの違いによって得意とする領域が異なります。処理速度を重視するか、識別精度を重視するかによって、適切な手法を選択する必要があります。
YOLOの4つのメリットとは?
YOLOによる物体検出には以下のようなメリットがあります。
- 全体像に基づく予測
- ほぼリアルタイムでの検出が可能
- 推測の精度が高い
- 導入ハードルが高くない
全体像に基づく予測
YOLOでは画像をグリッドセルに分割し、それぞれのセルで同時に物体を検出することで、全体の画像に含まれる物体を迅速に理解できます。まるで衛星写真や鳥観図で一度に地球全体を見渡すようなアプローチと言えるでしょう。
従来使われていた手法では、一枚の画像をジグソーパズルのように分析し、一つひとつのピースを慎重に調べるような手法でした。
ほぼリアルタイムでの検出が可能
YOLOはリアルタイムで物体を検出できます。大量の計算を一瞬で処理する効率的なやり方だからです。
YOLO以前の手法が画像の各領域を一つずつ処理し、時間を要する作業でした。しかし、YOLOはニューラルネットワークで処理しやすいように正方形にリサイズ・セル分割するプロセスを踏みます。YOLOは全ての処理を一度に行い、画像1枚あたりの処理時間を劇的に短縮しました。
交通監視や緊急対応など、リアルタイムでの迅速な反応が求められる分野で大きなメリットをもたらしています。
推測の精度が高い
YOLOは画像全体を包括的に分析するため、背景の誤検出を減らし、物体識別の精度を大幅に向上させています。信頼度スコアを算出することで、物体が存在するか否か、またその物体がどのクラスに属する可能性、物体の種類や位置を判断します。
例えば医療画像分析のような高い精度が求められる分野において、画期的な貢献をしています。
導入しやすい
YOLOはライセンスフリーで商用利用が可能であり、導入のハードルが低い点も大きな利点です。Pythonで動作するYOLOのライブラリを容易にインストールでき、即座に物体検出を開始できます。
また、独自のデータセットを用いたカスタマイズも可能で、特定のニーズに合わせた物体検出システムの構築が可能です。
AI Marketでは
YOLOの3つのデメリット
YOLOにも、その革新的な手法ゆえに特有のデメリットや苦手分野があるので説明します。
複数物体の識別精度が低下する
YOLOの最大の強みはリアルタイムでの高精度な物体検出ですが、画像のなかに存在する物体が多い場合、精度が低下することがあります。
YOLOは画像をグリッドセルに分割し、各セルで物体を識別しますが、各グリッドセル内で識別できる物体のクラスは1つ、検出できる物体の数は最大2つまでという制約があります。この制約により、1つのグリッドセル内に多数の物体が存在する場合、精度に悪影響を及ぼすことがあります。
この問題に対処するために、以下のようにして小さな物体を検出するアプローチが有効です。
- 画像の前処理として物体の密度を分散
- 複数の異なるスケールで画像を解析
小さい物体の検出が困難
YOLOは大きな物体の検出には非常に効果的ですが、小さい物体や密集している物体の検出は苦手です。特に、画像に小さな物体が多数存在する場合、YOLOはそれらを個別に正確に識別できないことがあります。
小さい物体の検出を改善するには、以下の手法が効果的です。
- 高解像度の画像を使用
- 物体検出前に画像のスケールを変更して物体を大きくする
背景の誤検出
YOLOは時に背景の一部を誤って物体として検出することがあります。これは、背景に物体と似たパターンや形状が含まれている場合に顕著に現れることがあります。
特定の環境やシナリオに合わせて再学習させることで、背景の誤検出を減らす対策が使われます。また、物体と背景の区別をより明確にするために、画像のコントラストや明るさを調整することも有効です。
YOLOを活用した画像認識・物体検出の具体例5選
YOLOを以下のような分野で活用されています。
- 自動運転
- 製造業の異常検知
- 医療画像診断
- 小売店での顧客行動計測
- セキュリティ対策
自動運転
YOLOは高速かつ高精度な物体検出能力により、自動運転車にとって重要な技術です。物体検出技術の代表例と言えば、自動運転技術と思われる方も多いのではないでしょうか。
自動運転技術においては、YOLOの最大の特徴である周囲の環境をリアルタイムでかつ正確に解析する能力が不可欠です。道路上の歩行者、交通信号、標識など、カメラに映るさまざまな要素を瞬時に識別し、適切なアクションに導く必要があります。
YOLOは複数の物体を一度に検出し、それらに対して迅速な反応を可能にするため、自動運転の安全性と効率性を大幅に向上させます。
関連記事:「自動運転にAIが欠かせない理由とは?仕組みとメリット・デメリット徹底解説!」
製造業の異常検知
YOLOの物体検出の技術を使って、製造現場や工場ラインでの異常検知を行うことができます。製造業界においては、製造ラインの品質管理と効率化が重要です。
人手不足や一定レベルの品質維持のため、異常検知を自動化するシステムの必要性が増しています。近年ではAIを活用した異常検知システムのニーズが高まっており、これにYOLOを活用されています。
YOLOは製品の正常な状態を学習し、製造プロセス中に生じる異常をリアルタイムで検知することができます。異常が発生した際に即座に反応し、品質保持を図ることが可能です。YOLOの応用は、生産ラインの中断を避けつつ、品質を維持し続けるための重要な手段となります。
関連記事:「異常検知とは?メリットや学習方法、ディープラーニング活用を完全解説!」
医療画像診断
AI物体検出は、医療現場での画像診断に活用されています。医療現場では、CTや内視鏡、MRIのスキャン画像、エコー写真など様々な画像に物体検出の技術を使用することで、医師の知見に頼ってきた判断を代替でき、医療品質の向上や医師不足の解消につながります。
YOLOを活用することで、医療画像における物体検出の自動化が可能となり、医師の判断を効果的にサポートします。診断の精度向上に寄与し、医師不足による負担の軽減にも繋がります。
医療業界でのAI活用事例をこちらの記事で詳しく説明していますので併せてご覧ください。
小売店での顧客行動計測
YOLOを使った物体検出技術は行動計測を行うのにも役立ちます。YOLOを使用することで、店内のカメラ映像から消費者の行動パターンを精密に解析できます。これにより、滞在時間、購買行動、製品への関心などを正確に捉え、マーケティング施策の精度を高めることができます。
また、YOLOのリアルタイム検出能力は無人店舗での商品識別と決済プロセスの効率化にも寄与し、新しい小売りの形態を実現します。YOLOではどんな顧客層がどの商品を手に取った、戻した、かごに入れたなどの動作を正確に識別できマーケティングに活かせます。
関連記事:「人流解析とは?人流データでできること・注意点・活用事例を徹底解説!」
セキュリティ対策
YOLOは監視カメラや防犯カメラの映像を分析し、異常行動や不審者をリアルタイムで検出できます。この能力は、公共の安全を確保するための監視システムや、犯罪の防止、事件の早期発見に貢献します。
例えば見守りカメラを使用したセキュリティシステムでは、YOLOを活用して異常状態を検知し、保護者や管理者に即時に通知できます。この技術は特に、高齢者の見守りや子供の安全確保に効果的です。
また、YOLOは工場内のカメラ映像を分析することで、巨大な穴の周辺などの危険領域への立ち入りを検出したり、ヘルメットやハーネス等の装着漏れを検出するなど、労働環境における危険な状況や異常を即座に察知できます。この迅速な察知と警告システムは、労働者の安全を確保し、事故のリスクを最小限に抑えるのに役立ちます。
関連記事:「AIカメラとは?活用事例で分かるメリット・デメリット徹底解説!」
YOLOの迅速な検出能力は、セキュリティ対策において重要な役割を果たし、事故や事件、セキュリティ危機の未然防止に大きく寄与します。
他にも、製造業における物体カウント(例えば資材数や梱包数)や交通量解析(自動車数のカウント等)など、幅広い領域で活用されています。
YOLOについてよくある質問まとめ
- YOLOの物体検出技術はどのような仕組みで動作していますか?
YOLO(You Only Look Once)は、一度の画像走査で全ての物体を同時に検出し、識別する技術です。このプロセスは、畳み込みニューラルネットワーク(CNN)を利用し、入力された画像を正方形にリサイズして「グリッドセル」に分割します。各グリッドセルで物体を囲む「バウンディングボックス」を推定し、「信頼度(Confidence)」を算出します。信頼度は、バウンディングボックス内に物体が存在する確率を示します。また、各グリッドセルに存在する物体の「クラスの予測確率」を計算し、最後に、バウンディングボックスの信頼度とクラスの予測確率を掛け合わせて、「信頼度スコア(Confidence Score)」を算出します。これにより、画像全体に存在する物体の種類と位置が高精度に推測されます。
- YOLOをビジネスに応用する主なメリットは?
YOLOのビジネスへの応用は多岐にわたり、特にリアルタイムでの識別が必要な画像・映像分析において優れたメリットを提供します。小売業界では商品の監視や在庫管理、交通システムでは車両や歩行者の検出、ヘルスケア分野では医療画像の解析、農業では作物の健康状態の監視など、多様な応用が可能です。YOLOの技術はビジネスの効率化や新たなサービスの創出に貢献するため、物体検出技術を活用してビジネスを強化したい経営者にとって理想的な選択肢です。
- YOLOはなぜ早い?
YOLOは、画像全体を一度に処理し、物体の種類と位置を直接予測するため、他の手法と比べて処理速度が非常に高速です。これにより、リアルタイムでの物体検出が可能になります。
- YOLOとCNNの違いは?
YOLOとCNNベースの手法(R-CNN、Fast R-CNN、Faster R-CNNなど)の主な違いは、物体検出のアプローチです。CNNベースの手法は、画像内の領域を選択し、それぞれの領域について物体を分類するのに対し、YOLOは画像全体を一度に処理し、物体の種類と位置を直接予測します。これにより、YOLOは高速な処理が可能になりますが、識別精度はCNNベースの手法と比べると若干劣る場合があります。
まとめ
YOLOは、画像解析の分野において革命的な進歩をもたらす技術です。畳み込みニューラルネットワークを使用して、画像全体を一度に走査し、そこに含まれる物体を同時に検出・識別する能力を持っています。YOLOにより、従来の物体検出技術が抱えていた大きな計算負荷や時間のかかる問題を大幅に改善しました。
YOLOを活用すれば、画像に含まれる物体を迅速かつ正確に検出できます。特に、
もし効率的で精度の高い物体検出ソリューションを求めているのであれば、YOLOはその要求を満たす最適な選択です。今日のテクノロジーが提供する最先端の成果を活用し、ビジネスや研究に新たな価値を加える一歩を踏み出しましょう。
AI Marketでは
AI Marketの編集部です。AI Market編集部は、AI Marketへ寄せられた累計1,000件を超えるAI導入相談実績を活かし、AI(人工知能)、生成AIに関する技術や、製品・サービス、業界事例などの紹介記事を提供しています。AI開発、生成AI導入における会社選定にお困りの方は、ぜひご相談ください。ご相談はこちら
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp