
【Meta】Omnilingual ASRとは?LLMの技術を音声認識に応用した特徴、性能、料金、利用方法まで徹底解説!
1,600以上の言語に対応し、500以上の低リソース言語に初めてAI文字起こしを実現したオープンソースASRモデル 少数の音声サンプルで新言語を追加可能なインコ...
生成AI、画像認識、AI開発企業等のAI会社マッチング支援サービス

1,600以上の言語に対応し、500以上の低リソース言語に初めてAI文字起こしを実現したオープンソースASRモデル 少数の音声サンプルで新言語を追加可能なインコ...

Metaが2025年12月に音声分離特化の統合型AIモデル「SAM Audio」を発表 テキスト・視覚・時間指定の3種類のプロンプトで目的の音を高精度分離 環境...

Bing Image Creatorはテキストを入力するだけで、高品質な画像を無料かつ高速に生成でき、日常的な利用にも対応した柔軟な設計 生成結果はDALL·E...

QwenはAlibaba Cloudが提供する多機能AIサービスで搭載されているLLMも同名のQwenファミリー Qwen Chatを中心に、Deep Rese...

Microsoftとウィスコンシン大学マディソン校が公開したマルチモーダルAIであるLLaVA(Large Language and Vision Assist...

SAM 3Dは、単一の2D画像から人や物体、シーン全体を高精度に3D再構成できるMetaの研究モデル 物体向けの「SAM 3D Objects」と人体特化の「S...

Duet AIとは、Googleが開発している生成AI(ジェネレーティブAI)のことです。主にGoogleアプリケーションに搭載され、Google Worksp...

GrokipediaはGrokモデルによる記事生成とファクトチェックを一体化し、公開初日に88万件超の記事を提供 読者による直接編集を制限し、提案型の編集ワーク...

Qwen3-VLはAlibabaのQwenチームが開発したマルチモーダル基盤モデルでテキスト・画像・動画の理解と生成を統合 Gemini 2.5 ProやGPT...

2025年4月にAlibaba Cloudが発表した「Qwen3」は、Qwenシリーズ第三世代の大規模言語モデル群 従来比で倍増した36兆トークンの学習データと...