メモリー消費量最大94%削減、世界最高の精度維持率89%達成…富士通が開発したLLMの性能 日刊工業新聞 2025年09月09日
生成AI(人工知能)モデルの軽量化と高精度化を同時に実現―。富士通は8日、大規模言語モデル(LLM)の軽量・省電力を実現する生成AI再構成技術を開発し、同社のLLM「Takane(タカネ)」の強化に成功したと発表した。今回の成果をベースに金融や製造、医療、小売りなど、専門性の高い業務に特化したタカネから生まれる軽量AIエージェント群を開発・提供していく。

開発した生成AI再構成技術はAIのニューロン間の結合に割り当てられる重み(パラメーター)を極限まで圧縮・軽量化する「量子化技術」と、軽量化しながら精度を維持・向上させる「特化型AI蒸留技術」の二つのコア技術で構成する。
AI蒸留技術は汎用的なAIモデルから思考の要点だけを抽出・凝縮して、小さなAIモデルに詰め込む手法。今回は軽量化に加え、学習した元のAIモデル(教師モデル)を超える精度を実現し両立させた。
このうち、量子化技術をタカネに適用。32ビットあるいは16ビット量子で表現していた重みの値を1量子ビットに置き換えることに成功した。AIモデルを動かすために必要なメモリー消費量を最大94%削減・軽量化した上で、世界最高の精度維持率89%と、推論3倍速を達成した。量子化における従来の主流手法(GPTQ)の精度維持率は20%以下であり、それを大きく上回った。
また、蒸留技術では中国のスタートアップであるディープシークが実用化で先駆けた。富士通研究所によると今回は「数値での比較はしていないが、(成果として)ディープシークよりも大幅に軽量化したモデルを提供できた」という。
軽量化により、高性能の画像処理半導体(GPU)が4枚必要な大型の生成AIモデルを、安価なGPU1枚で高速に実行可能。スマートフォンや工場の機械といったエッジ(現場向け)デバイス上でのAIエージェントの利活用を加速する。
量子化技術を適用したタカネは2025年度下期から順次提供する。さらにタカネの共同開発パートナーであるカナダのCohere(コヒア)が研究用にAIモデル「Command A」にも適用し、オープンソース基盤「ハギング・フェイス」を通じて順次公開する。
日刊工業新聞 2025年09月09日