生成AI、画像認識、AI開発企業等のAI会社選定支援
コンシェルジュサービス

記事一覧

AI論文解説の記事一覧

【AI論文解説】LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation:LLMの力でCLIPの限界を超えるLLM2CLIP

【AI論文解説】LLM2CLIP: Powerful Language Model Unlock Richer Visual Representation:LLMの力でCLIPの限界を超えるLLM2CLIP

本論文は、画像とテキストのマルチモーダル表現学習を向上させる新しいアプローチ「LLM2CLIP」を提案しています。 従来のCLIPモデルは、画像とテキストを共有の特徴空間に整列させるために大規模な画像...

【AI論文解説】Artificial Intelligence, Scientific Discovery, and Product Innovation:AIでトップ科学者の生産性が倍増し、材料発見数44%増、特許出願39%増

【AI論文解説】Artificial Intelligence, Scientific Discovery, and Product Innovation:AIでトップ科学者の生産性が倍増し、材料発見数44%増、特許出願39%増

本論文は、AI(人工知能)が科学的発見と製品イノベーションに与える影響を調査するため、米国の大手企業の研究開発ラボに所属する1,018人の科学者に新しい材料発見のAI技術をランダムに導入しました。 結...

【AI論文解説】OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models:全てを公開したトップクラスのコード生成モデル

【AI論文解説】OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models:全てを公開したトップクラスのコード生成モデル

本論文では、コード生成に特化した高性能なLLM(大規模言語モデル)であるOpenCoderを提案しています。 現在、多くのコードLLMが商用であり、そのデータやトレーニング手法が非公開である中、Ope...

【AI論文解説】CLEAR: Character Unlearning in Textual and Visual Modalities:マルチモーダルAIにおける『忘れる技術』を評価する新たなベンチマークデータセット

【AI論文解説】CLEAR: Character Unlearning in Textual and Visual Modalities:マルチモーダルAIにおける『忘れる技術』を評価する新たなベンチマークデータセット

近年、ディープラーニングモデルの大規模化に伴い、プライバシーやセキュリティに関する懸念が高まっています。特に、テキストと画像の両方を扱う大規模マルチモーダル言語モデル(MLLM)において、特定の個人情...

【AI論文解説】Differential Transformer:重要な情報だけを引き出す新型Transformer「Diff Transformer」

【AI論文解説】Differential Transformer:重要な情報だけを引き出す新型Transformer「Diff Transformer」

Diff Transformerは、Transformerの注意メカニズムが不要な文脈に過度に集中し、重要な情報を見逃しがちな問題に対処するために開発されました。 Diff Transformerは、...

【AI論文解説】Long-CLIP: Unlocking the Long-Text Capability of CLIP

【AI論文解説】Long-CLIP: Unlocking the Long-Text Capability of CLIP

こんにちは、現役機械学習エンジニアの石川です。 本記事では、“Long-CLIP: Unlocking the Long-text Capability of CLIP”という...

【AI論文解説】Minimalist Vision with Freeform Pixels:任意形状のピクセルでプライバシーと省電力を実現する新しいAIカメラ設計

【AI論文解説】Minimalist Vision with Freeform Pixels:任意形状のピクセルでプライバシーと省電力を実現する新しいAIカメラ設計

現代のコンピュータビジョンシステムは、監視、ロボット工学、自動運転など、さまざまな応用分野で重要な役割を果たしています。しかし、従来のカメラは多数の正方形ピクセルからなるグリッドを使用しており、これら...

【AI論文解説】Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models:拡散モデルのコンセプト抑制を突破する新たな手法

【AI論文解説】Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models:拡散モデルのコンセプト抑制を突破する新たな手法

近年、テキストから画像を生成する拡散モデルは急速に発展しており、芸術やデザイン、マーケティングなど多様な分野での応用が進んでいます。一方で、その強力な生成能力の高さから、著作権で保護された作品や暴力的...

【AI論文解説】Rasterized Edge Gradients: Handling Discontinuities Differentiably:視認性の非連続性をシンプルに微分可能にするラスター化レンダリングの新手法『マイクロエッジ』の提案

【AI論文解説】Rasterized Edge Gradients: Handling Discontinuities Differentiably:視認性の非連続性をシンプルに微分可能にするラスター化レンダリングの新手法『マイクロエッジ』の提案

近年、ニューラルレンダリングや逆レンダリングの技術が進歩し、画像から3Dシーンの情報を復元・推定することが可能になってきました。しかし、その過程で不可欠なレンダリングプロセスの勾配計算は、非連続性やレ...

【AI論文解説】HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems:HTMLそのものを活用し、LLMの知識強化を革新する新手法『HtmlRAG』の提案

【AI論文解説】HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems:HTMLそのものを活用し、LLMの知識強化を革新する新手法『HtmlRAG』の提案

近年、LLM(大規模言語モデル)の性能向上とともに、外部知識を活用するRAG(検索拡張生成)システムが注目されています。 しかし、従来のRAGシステムでは、ウェブから取得したHTML文書をプレーンテキ...