マイクロソフトが次世代SLM（小型言語モデル）の「Phi-4-multimodal」と「Phi-4-mini」を発表

最終更新日：2025年02月27日

記事監修者：AI Market ニュース配信チーム

マイクロソフトが次世代SLM（小型言語モデル）の「Phi-4-multimodal」と「Phi-4-mini」を発表

マイクロソフトは2025年2月26日（現地時間）、同社のSLM（小型言語モデル）ファミリー「Phi」の最新モデルとして、音声・視覚・テキストを同時に処理できる「Phi-4-multimodal」と、テキストベースのタスクに特化した「Phi-4-mini」を発表した。

＜本ニュースの10秒要約＞

音声・視覚・テキストを同時処理する5.6Bパラメータの「Phi-4-multimodal」と、3.8Bパラメータの「Phi-4-mini」の2モデルを発表
Phi-4-multimodalは音声認識や視覚理解において既存の専用モデルを上回る性能を持ち、スマートデバイスやエッジコンピューティングに最適化
Phi-4-miniはコンパクトながら大規模モデルを上回る推論能力を持ち、128,000トークンの長文脈処理や関数呼び出しに対応

Phi-4-multimodalは、マイクロソフト初のマルチモーダル言語モデルとして、顧客フィードバックを直接反映して開発された。

5.6Bパラメータのこのモデルは、音声、視覚、テキスト処理を単一の統合アーキテクチャに組み込み、複数の入力モダリティを同時に理解・推論する自然かつコンテキストを意識した相互作用を可能にする。

高度なクロスモーダル学習技術を活用し、デバイス上での実行と計算オーバーヘッドの削減を最適化しながら、高効率で低遅延の推論を提供する。

このモデルは単一のモデルでLoRA（Low-Rank Adaptation）の混合を使用し、音声、視覚、言語を同じ表現空間内で同時に処理するため、異なるモダリティに対して複雑なパイプラインや別個のモデルを必要としない。

Phi-4-multimodalは、音声関連タスクにおいて顕著な能力を示しており、自動音声認識（ASR）と音声翻訳（ST）の両方で、WhisperV3やSeamlessM4T-v2-Largeなどの専用モデルを上回る性能を発揮している。

Phi-4-multimodal性能

2025年2月時点で、6.14%という印象的な単語誤り率でHuggingfaceのOpenASRリーダーボードでトップの座を獲得し、以前の最高性能である6.5%を上回った。

また、視覚能力においても、数学的および科学的推論で優れたパフォーマンスを達成し、ドキュメントやチャートの理解、光学文字認識（OCR）、視覚的科学推論など、一般的なマルチモーダル機能において、Gemini-2-Flash-liteプレビューやClaude-3.5-Sonnetなどの近いモデルと同等かそれ以上のパフォーマンスを維持している。

Phi-4-multimodal性能

一方、Phi-4-miniは3.8Bパラメータのモデルで、グループクエリアテンション、200,000ボキャブラリ、共有入出力埋め込みを特徴とする密度の高いデコーダーオンリートランスフォーマーだ。

コンパクトなサイズにもかかわらず、推論、数学、コーディング、指示に従う能力、関数呼び出しなどのテキストベースのタスクで大規模モデルを上回るパフォーマンスを継続して提供している。

Phi-4-mini性能

最大128,000トークンのシーケンスをサポートし、高い精度とスケーラビリティを提供するため、高度なAIアプリケーションの強力なソリューションとなっている。

これらのモデルはコンピューティング制約のある推論環境で使用でき、特にONNX Runtimeでさらに最適化した場合、クロスプラットフォームでの利用が可能だ。計算要件が低いため、コストを抑えられ、レイテンシーも大幅に向上する。

AI Market の見解

マイクロソフトが発表した「Phi-4-multimodal」と「Phi-4-mini」は、SLM（小型言語モデル）市場に新たな指標を示す注目すべき進展だ。

特に「Phi-4-multimodal」は小型モデルでありながら、単一モデルで音声・視覚・テキスト処理を統合した点が技術的に重要で、従来の複雑な多段パイプラインが不要になる効率化を実現している。

この技術的アプローチにより、エッジデバイスでの高度なAI機能の実装が現実的になり、スマートホーム、自動車、モバイルデバイスなど様々な産業でのAI活用の幅を広げるだろう。

また、小型でありながら大規模モデルを上回るベンチマーク結果は、モデルサイズと性能のトレードオフに関する従来の常識を覆す意義を持つ。

市場的には、クラウドに依存しないエッジAIの普及を加速させ、プライバシー保護やリアルタイム処理が重要な用途においてAIの実用化を促進すると予測される。特に計算リソースの制約がある環境での運用や低コストでの導入が可能になることで、幅広い業種業界での活用が想定される。

参照元： Microsoft

作成・監修者

AI Market ニュース配信チーム

AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏（旧：Twitter）やYoutubeなど、他SNSアカウントもフォローしてください！

𝕏：@AIMarket_jp
Youtube：@aimarket_channel
TikTok：@aimarket_jp
過去のニュース一覧：ニュース一覧
ニュース記事について：ニュース記事制作方針

運営会社：BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら：ai-market-press@biz-t.jp

カテゴリ