
LLaVAとは?アーキテクチャ・特徴・マルチモーダル競合との比較を徹底解説!
Microsoftとウィスコンシン大学マディソン校が公開したマルチモーダルAIであるLLaVA(Large Language and Vision Assist...
生成AI、画像認識、AI開発企業等のAI会社マッチング支援サービス

Microsoftとウィスコンシン大学マディソン校が公開したマルチモーダルAIであるLLaVA(Large Language and Vision Assist...

SAM 3Dは、単一の2D画像から人や物体、シーン全体を高精度に3D再構成できるMetaの研究モデル 物体向けの「SAM 3D Objects」と人体特化の「S...

Duet AIとは、Googleが開発している生成AI(ジェネレーティブAI)のことです。主にGoogleアプリケーションに搭載され、Google Worksp...

GrokipediaはGrokモデルによる記事生成とファクトチェックを一体化し、公開初日に88万件超の記事を提供 読者による直接編集を制限し、提案型の編集ワーク...

Qwen3-VLはAlibabaのQwenチームが開発したマルチモーダル基盤モデルでテキスト・画像・動画の理解と生成を統合 Gemini 2.5 ProやGPT...

2025年4月にAlibaba Cloudが発表した「Qwen3」は、Qwenシリーズ第三世代の大規模言語モデル群 従来比で倍増した36兆トークンの学習データと...

OpenAIのGPTシリーズに匹敵する性能を持つLLMでありながら、オープンソースであり、API利用料金も低く抑えられ、2025年前半の大きな話題となった「De...

Microsoft社は2024年4月23日に、小規模言語モデル(SLM)「Phi-3」シリーズのリリースを発表しました。AIの汎用化や高度なタスク処理能力が競わ...

近年、ChatGPTの登場から対話型AIをはじめとした生成AI(ジェネレーティブAI)が大手IT企業から各種登場しました。Google Bardとは満を持してG...

Grok 4.1は実運用を重視した設計で、対話の安定性や共感表現、情報の信頼性が大きく向上 Thinking・Fastなど複数モデルを提供し、創作、業務、エージ...