記事一覧

マルチモーダルAIの記事一覧

Soraはテキストや画像から高品質な動画を生成・編集できるAI 指示（プロンプト）を与えるだけで、最長20秒、1080pの高解像度な動画を作成できるだけでなく、...

2026年07月09日

Project Marinerは、自然言語の指示でChromeブラウザを直接操作するAIエージェント基盤モデルGeminiにより、Webページ上のテキストや画...

2026年07月09日

生成AI（ジェネレーティブAI）、特にChatGPTを始めとするLLM（大規模言語モデル）は、個人・企業で多く活用されています。企業においては、自社情報を参照し...

2026年07月09日

近年、ChatGPTの登場から対話型AIをはじめとした生成AI（ジェネレーティブAI）が大手IT企業から各種登場しました。Google Bardとは満を持してG...

2026年07月09日

Geminiとは、Googleが満を持して2023年12月に公開したLLMです。Geminiはマルチモーダルで対話ができ、プログラミングにおいて高品質なコード生...

2026年07月09日

Claude 3.7 Sonnetは「標準モード」と「拡張思考モード」を切り替えられるハイブリッド推論型モデルで、迅速な応答と深い論理的思考を両立できる。コー...

2026年07月09日

MCP（Model Context Protocol）は、LLMが外部ツールやデータソースと安全かつ柔軟に接続できるようにするオープンな標準プロトコルで、Cla...

2026年07月09日

ChatGPTはテキストだけでなく、画像、音声、ファイルなどを統合的に扱う「マルチモーダル機能」を備えており多様な業務を効率化画像生成、画像認識、音声・動画解...

2026年07月09日

Agnoは記憶・知識（RAG）・ツール連携機能を持つ自律的なAIエージェントをPythonで構築できるオープンソースフレームワーク単一のエージェントだけでなく...

2026年07月09日

Meta社が提供するLLM「Llama3.2」は、2024年9月にリリースされました。そのわずか2カ月前に「Llama3.1」が発表されたばかりですが、そのLl...

2026年07月09日