
【Meta】Omnilingual ASRとは?LLMの技術を音声認識に応用した特徴、性能、料金、利用方法まで徹底解説!
1,600以上の言語に対応し、500以上の低リソース言語に初めてAI文字起こしを実現したオープンソースASRモデル 少数の音声サンプルで新言語を追加可能なインコ...
生成AI、画像認識、AI開発企業等のAI会社マッチング支援サービス

1,600以上の言語に対応し、500以上の低リソース言語に初めてAI文字起こしを実現したオープンソースASRモデル 少数の音声サンプルで新言語を追加可能なインコ...

Metaが2025年12月に音声分離特化の統合型AIモデル「SAM Audio」を発表 テキスト・視覚・時間指定の3種類のプロンプトで目的の音を高精度分離 環境...

SAM 3Dは、単一の2D画像から人や物体、シーン全体を高精度に3D再構成できるMetaの研究モデル 物体向けの「SAM 3D Objects」と人体特化の「S...

GrokipediaはGrokモデルによる記事生成とファクトチェックを一体化し、公開初日に88万件超の記事を提供 読者による直接編集を制限し、提案型の編集ワーク...

Qwen3-VLはAlibabaのQwenチームが開発したマルチモーダル基盤モデルでテキスト・画像・動画の理解と生成を統合 Gemini 2.5 ProやGPT...

OpenAIのGPTシリーズに匹敵する性能を持つLLMでありながら、オープンソースであり、API利用料金も低く抑えられ、2025年前半の大きな話題となった「De...

Microsoft社は2024年4月23日に、小規模言語モデル(SLM)「Phi-3」シリーズのリリースを発表しました。AIの汎用化や高度なタスク処理能力が競わ...

Grok 4.1は実運用を重視した設計で、対話の安定性や共感表現、情報の信頼性が大きく向上 Thinking・Fastなど複数モデルを提供し、創作、業務、エージ...

Qwen3-LiveTranslateは18言語対応の多言語リアルタイム通訳モデルで、音声と映像を統合解析し文脈精度を向上 入力から出力まで3秒以内の低遅延を実...

Llama 4は、マルチモーダル対応と超長文処理性能を備え、幅広い業務を強力に支援。 Mixture of Expertsアーキテクチャ採用で、高精度かつ低コス...