Segment Anything Model 3とは?Metaの提供するオブジェクト検出モデルのできること・実画面付きの使い方まで徹底解説!
最終更新日:2025年11月30日

- SAM 3は画像・動画内の任意オブジェクトを高精度に検出・セグメント・追跡できる統合モデル。
- テキスト、例示(Exemplar)、クリックによる視覚プロンプトに対応し、複雑な対象指定にも柔軟に対応。
- Segment Anything Playgroundで誰でも無料で利用可能。
- SA-Coベンチマークで既存システム比2倍のcgF1スコアを達成するなど性能向上が顕著。
Metaは2025年11月19日、画像や動画内の任意のオブジェクトを高精度に検出・セグメント・追跡できるモデルSegment Anything Model 3(SAM 3)を発表しました。
テキスト、例示(Exemplar)、クリックによる視覚的プロンプトに対応し、従来のSAMシリーズを進化させたモデルです。Segment Anything Playgroundを通じて誰でも利用でき、創造的なメディア編集や研究、産業活用を含め幅広い領域での応用が期待されています。
本記事では、SAM 3の概要・できること・仕組み・性能・実画面付きの使い方まで徹底的に解説します。
画像認識に強いAI会社の選定・紹介を行います 今年度AI相談急増中!紹介実績1,000件超え! ・ご相談からご紹介まで完全無料 完全無料・最短1日でご紹介 画像認識に強いAI会社選定を依頼する
・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
・物体検出、異常検知、類似画像検索等
目次
Segment Anything Model 3とは?
Meet SAM 3, a unified model that enables detection, segmentation, and tracking of objects across images and videos. SAM 3 introduces some of our most highly requested features like text and exemplar prompts to segment all objects of a target category.
Learnings from SAM 3 will… pic.twitter.com/qg43OtDyeQ
— AI at Meta (@AIatMeta) November 19, 2025
Segment Anything Model 3(SAM 3)は、画像や動画におけるオブジェクトの検出・セグメント・追跡を、テキスト、例示、視覚プロンプトを基に実行できるオープンソースのAIモデルです。
例えば、「Dog」とプロンプトを入力することで、動画中の犬を検出しエフェクトをつけるといったことが可能となります。
従来の固定ラベルに依存するセグメンテーションでは対応できなかった複雑な概念を扱うことが可能であり、任意の物体を柔軟に識別できる点が特長です。
Metaは、Segment Anything Playgroundという誰でも簡単にモデルを試せる環境の他、モデルウェイトの公開、研究用データセットとファインチューニングコードの提供を通じて、開発者と研究者が活用しやすい環境も提供しています。
SAM 3の料金
SAM 3はオープンソースのモデルであるため、プレイグラウンドで使用する場合でも、モデルをダウンロードして使用する場合でも料金は一切かかりません。
同時リリースのSAM 3D
画像から3Dモデルを構成するSAM 3DはSAM 3と同時にリリースされています。こちらも、SAM 3同様Segment Anything Playgroundから利用することができます。
詳しくは、別の記事で詳しく解説する予定ですので、そちらも是非ご参照ください。
画像認識に強いAI会社の選定・紹介を行います 今年度AI相談急増中!紹介実績1,000件超え! ・ご相談からご紹介まで完全無料 完全無料・最短1日でご紹介 画像認識に強いAI会社選定を依頼する



・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
・物体検出、異常検知、類似画像検索等
SAM 3でできること
以下ではSAM 3でできることをご紹介していきます。
テキストやGUIによる対象指定
短い名詞句で対象を指定し、マッチするオブジェクトを自動検出・セグメントできます。説明語句にも対応しているため、例えば「ストライプ柄の赤い傘」など、やや複雑な対象も検出可能で、テキスト表現だけで高精度な領域抽出を実現しています。
また、対象の例を囲むだけで、同一カテゴリの他オブジェクトを抽出できます。複数登場する物体の一括処理に適しています。他にも、クリックすることで対象を指定することも可能で、直感的に使いやすい設計になっています。
動画で対象を選択した場合は、リアルタイム追跡を行ってくれます。
視覚プロンプトによるインタラクティブ操作
対象の選択が不適切だった場合はクリックで微調整が可能で、見逃しや誤りを修正できます。
例えば、上の動画のように選択されて欲しくないものまで選択されてしまったときに、対象から外したいオブジェクトをクリックすることによって選択範囲を修正することができます。
エフェクトの追加
選択された対象や背景に対してエフェクトを追加することができます。上の動画は、犬に対して色によるハイライトとモザイクをかけたものになります。使用できるエフェクトは、ボックスや絵画風・色見の変更など他にも多数あり、パラメータによる細かい調整ができるものも多くあります。
作成した動画はシェアやダウンロードすることも簡単にできます。将来的には、Instagram Edits、Meta AI Vibesなどでの実装が予定され、動画編集や生成AI映像加工に活用されると考えられます。
画像認識に強いAI会社の選定・紹介を行います 今年度AI相談急増中!紹介実績1,000件超え! ・ご相談からご紹介まで完全無料 完全無料・最短1日でご紹介 画像認識に強いAI会社選定を依頼する



・貴社に最適な会社に手間なく出会える
・AIのプロが貴社の代わりに数社選定
・お客様満足度96.8%超
・物体検出、異常検知、類似画像検索等
SAM 3の仕組みは?
SAM 3は、テキスト、例示、視覚プロンプトを統合的に扱う新しいアーキテクチャを採用し、画像と動画の両方で統一されたセグメンテーション処理を実現しています。複数のタスクを単一モデルで高精度にこなすため、学習方法とモデル設計に工夫が加えられています。
データエンジン(学習)


SAM 3の開発では、広範な概念と多様な視覚領域をカバーする高品質データを確保するために、AIと人間のアノテーターを組み合わせたスケーラブルなデータエンジンが活用されています。
SAM 3やLlamaベースのキャプショニングモデルなど複数のAIが、画像や動画から自動的にキャプション生成と初期セグメンテーションマスクの生成を行い、人間とAIのアノテーターがその精度を検証し修正するフィードバックループによってデータ品質を継続的に改善します。
この仕組みにより、約400万以上のユニーク概念を含む大規模データセットが効率的に構築され、従来の人手作業のみのアノテーションに比べて、負例では約5倍、正例では約36%の高速化を実現しています。
モデルアーキテクチャ(設計)
モデルアーキテクチャは、Meta Perception Encoderによる高精度の画像・テキスト理解、DETRベースの検出器によるオブジェクト検出、SAM 2のメモリエンコーダ構造を継承したトラッカーなど複数の技術要素により構成されています。
これにより、概念検出とインスタンス追跡といった異なる要求を、単一の統合モデルとして矛盾なく処理する設計が可能になっています。
SAM 3の性能


SAM 3は、画像と動画の概念セグメンテーション性能において高い性能を誇っています。
画像ではSA-Co Goldサブセット、動画ではSA-Co Videoを用いた評価で、既存システムと比較してcgF1スコア(概念の認識と位置特定の精度を表す指標)をおよそ2倍に向上させています。
さらに、Gemini 2.5 Proのような基盤モデルやGLEE、OWLv2、LLMDetといった強力な専門モデルと比較しても一貫して優れた結果を示しており、ユーザー調査では最強ベースラインとされるOWLv2に対してSAM 3の出力が約3対1の割合で好まれています。
SAM 3は、SAM 2で導入された視覚セグメンテーションタスク(mask-to-maskletやpoint-to-mask)においても最先端の結果を達成し、SAM 2と同等あるいはそれ以上の性能を維持しています。
この高い精度は推論速度の速さと両立しており、SAM 3はH200 GPU上で100個以上のオブジェクトを含む単一画像を約30ミリ秒で処理できます。動画においても、おおよそ5つのオブジェクトを同時に扱う場面でリアルタイムに近い応答速度を維持できる設計になっています。
SAM 3の使い方
SAM 3にはプレイグラウンドと、モデルをダウンロードしローカル環境で実行するという二つの使用方法があります。
Segment Anything Playgroundでの利用
こちらの方法はログインも必要なく、誰でも簡単にSAM 3を試してみることが可能です。


Segment Anything Playgroundにアクセスすると上のような画面になるので、画像か動画かお好きな方をご選択ください。今回は、動画を例に取り使い方を説明していきます。


やることは大まか3ステップで、「1. 動画の追加」、「2. オブジェクトの選択」、「3. エフェクトの追加」です。動画を選択し、上記のような画面になったら、まず動画の追加をしましょう。
使いたい動画がある方は、「Upload」から動画を追加、特にない方はサンプルビデオから選択しましょう。今回は、サンプルビデオから犬が走ってくる動画を使用していきます。
次に、対象の選択を行っていきます。上の動画のように、左のテキストボックスから選択したいものの名前を入れることで選択することができます。オブジェクトの選択ができたら、画面左下の「Preview frame」をクリックすることで動画の間中、追跡してくれていることが確認できます。
今回のように鼻という身体の一部分を対象とすることも可能で、精度もかなり高いことがわかります。


動画を再生しきると上記のような画面となり、オブジェクトの削除や「Add object」を押すことでポイント&クリックによるオブジェクトの追加・修正が可能となります。なお、以降の操作をわかりやすくするために、対象を犬全体に変更しています。
画面左下の「Continue to effect」をクリックすると、エフェクトの設定に進むことができます。「Update result」ボタンが表示されている場合は、一度そちらをクリックすると「Continue to effect」に変わります。
上記の動画のように、画面左の「Add effect」から好きなようにエフェクトを追加することができます。エフェクトは重ねがけができる組み合わせがあるだけでなく、オブジェクトと背景双方にかけることもできます。
できた動画は、画面左下の「Share」からダウンロードすることが可能です。
モデルをダウンロードし使用
モデルウェイトやファインチューニングコードが公開されており、研究や開発用途でローカル環境に導入して利用できます。こちらのGithubからダウンロードすることで使用することができます。詳しい手順などは、Githubをご参照ください。
注意点として、以下が前提条件として挙げられているのでご確認ください。
- Python 3.12以上
- PyTorch 2.7以上
- CUDA 12.6以降を搭載したGPU
Azure AI Foundry Modelsについてよくある質問まとめ
- SAM 3とは?
SAM 3(Segment Anything Model 3)は、Meta AIがリリースしたオープンソースの画像・動画のセグメンテーションモデルです。
テキストや視覚プロンプトを使ってオブジェクトを検出・分割・追跡することが可能です。概念的なプロンプトにも対応可能で、検出精度が高いことが特長として挙げられます。
- SAM 3が従来のSAMシリーズと違う点は?
テキストプロンプトと例示プロンプトに対応し、任意の概念や複数対象を同時にセグメント可能になった点が大きな進化です。
また、動画内の追跡精度も強化されています。
まとめ
SAM 3は、テキスト、例示、視覚プロンプトを統合したセグメンテーションモデルで、従来のモデルと比較して画像や動画におけるオブジェクト抽出と追跡の精度と柔軟性が向上しています。
Instagram EditsやMeta AIアプリなど実用領域でも活用が進み、創作や研究の可能性を広げる重要な技術基盤となることが期待されます。


AI Market 運営、BizTech株式会社 代表取締役|2021年にサービス提供を開始したAI Marketのコンサルタントとしても、お客様に寄り添いながら、お客様の課題ヒアリングや企業のご紹介を実施しています。これまでにLLM・RAGを始め、画像認識、データ分析等、1,000件を超える様々なAI導入相談に対応。AI Marketの記事では、AIに関する情報をわかりやすくお伝えしています。
AI Market 公式𝕏:@AIMarket_jp
Youtubeチャンネル:@aimarket_channel
TikTok:@aimarket_jp
運営会社:BizTech株式会社
掲載記事に関するご意見・ご相談はこちら:ai-market-contents@biz-t.jp

