MetaがLlamaの量子化モデルを公開。モバイルデバイス向けに処理速度2-4倍、メモリ使用量41%削減を実現
最終更新日:2024年10月25日
Metaは2024年10月24日(現地時間)、モバイルデバイス向けに最適化された量子化されたLlamaモデル(Llama 3.2 1Bおよび3B)の提供を開始した。
この新モデルは、Quantization-Aware TrainingとSpinQuantの2つの量子化技術を採用し、オリジナルのBF16フォーマットと比較してモデルサイズを平均56%削減、メモリ使用量を41%削減しながら、2-4倍の処理速度向上を実現した。QualcommとMediaTekのSoCに搭載されたArm CPUで利用可能となっている。
目次
<本ニュースの10秒要約>
- Metaが軽量化された量子化Llamaモデルを公開し、モバイルデバイスでの高速な処理を実現
- QLoRAとSpinQuantの2つの量子化手法により、処理速度2-4倍向上とメモリ使用量41%削減を達成
- QualcommとMediaTekのSoCで利用可能となり、オンデバイスAIの実用性が大幅に向上
量子化技術の概要と実装方法
Metaが採用した量子化スキームは、PyTorchのExecuTorchフレームワークとArm CPUバックエンドを考慮して設計されている。具体的には、3つの主要な部分から構成されている。
第一に、すべてのトランスフォーマーブロック内の線形層を、重みに対して4ビットのグループワイズスキーム(グループサイズ32)、活性化に対して8ビットのトークンごとの動的量子化を適用する。
第二に、分類層に対して重みを8ビットのチャネルごと、活性化を8ビットのトークンごとの動的量子化を適用する。
第三に、埋め込みに対して8ビットのチャネルごとの量子化を採用している。
この設計により、モデルの品質、プリフィル/デコード速度、メモリフットプリントのバランスを最適化している。
量子化手法の特徴と性能評価
Metaは2つの異なる量子化手法を採用している。1つ目は、Quantization-Aware Training with LoRA(QLoRA)で、低精度環境でのパフォーマンスを最適化するために量子化の効果をトレーニング中にシミュレートする。この手法は、BF16 Llama 3.2モデルのチェックポイントを初期値として使用し、追加のSFTトレーニングを行う。2つ目のSpinQuantは、トレーニングデータセットへのアクセスを必要としない最新の後処理量子化手法だ。
性能評価では、Android OnePlus 12デバイスでのテストで、デコードレイテンシーが平均2.5倍、プリフィルレイテンシーが4.2倍向上し、モデルサイズは56%、メモリ使用量は41%削減された。Samsung S24+やS22でも同様のパフォーマンスが確認されている。
将来展望とパートナーシップ
Metaは現在、パートナー企業と協力してNPU(Neural Processing Unit)での量子化モデルの活用を進めている。すでにExecuTorchオープンソースエコシステムにNPUを活用するための基本コンポーネントが統合され、Llama 1B/3Bモデルの NPUでの量子化対応に向けた取り組みが進行中だ。
Llamaは2024年だけで10倍の成長を達成し、責任あるイノベーションの標準となっている。オープン性、修正可能性、コスト効率の面でリードを続け、一部の分野ではクローズドモデルを上回る性能を示している。
AI Market の見解
MetaのLlama量子化モデルの公開は、モバイルAI市場に大きな影響を与える重要な進展だ。QLoRAとSpinQuantという2つの異なるアプローチを提供することで、用途に応じた柔軟な選択肢を実現している。特に、トレーニングデータへのアクセスなしで量子化が可能なSpinQuantは、プライバシーの観点から重要な意味を持つ。
さらに、処理速度の向上とメモリ使用量の削減により、より多くのデバイスでの実用的なAI実装が可能となるため、エッジAIアプリケーションの普及を加速させる可能性が高い。また、モバイルデバイスでの高度なAI機能の実装が容易になることで、新たなアプリケーション市場が創出される可能性がある。長期的には、オンデバイスAIの標準化とさらなる性能向上が期待され、プライバシーを重視したAIアプリケーションの新時代が始まるだろう。
参照元:Meta Newsroom
LLMについて詳しく知りたい方はこちらの記事もご参考ください。
AIに関するご相談はAI Marketへ
AI Marketでは
メルマガ会員登録(無料)
AI Market ニュース配信チームでは、AI Market がピックアップするAIや生成AIに関する業務提携、新技術発表など、編集部厳選のニュースコンテンツを配信しています。AIに関する最新の情報を収集したい方は、ぜひ𝕏(旧:Twitter)やYoutubeなど、他SNSアカウントもフォローしてください!
𝕏:@AIMarket_jp
Youtube:@aimarket_channel
TikTok:@aimarket_jp
過去のニュース一覧:ニュース一覧
ニュース記事について:ニュース記事制作方針
運営会社:BizTech株式会社
ニュース掲載に関するご意見・ご相談はこちら:ai-market-press@biz-t.jp