オープンウェイトLLMの社内運用を設計する観点 — 2026年主要モデル比較とコスト分岐点の見極め

オープンウェイトLLMの社内運用を設計する観点 — 2026年主要モデル比較とコスト分岐点の見極め

はじめに

2026年5月時点で、オープンウェイトLLMの選択肢は前例のない厚みに達しました。Llama 4・Qwen 3.5・DeepSeek V4・Mistral Large 3・gpt-ossが揃い、24Bから1.6Tパラメータまでの帯域で商用フロンティアAPIに迫る性能を示しています。本稿では2026年の動向を整理し、社内運用に組み込む際の判断軸を解説します。

研究の背景と動向

2026年4月から5月にかけ、フロンティア級のオープンウェイトLLMが相次いで揃いました。代表格はMeta Llama 4(Scout・Maverick)とAlibaba Qwen 3.5、DeepSeek V4(Pro・Flash)です。Google Gemma 4とMistral Large 3も同帯域で揃いました。

性能の到達点は商用APIに肉薄しています。Qwen3.5-27Bがベンチマーク0.80を記録し、約3か月前の最高水準商用APIモデルに匹敵する精度を中規模オープンモデルで実現しました。BenchLM.aiの2026年4月リーダーボードでは、DeepSeek V4 Proが87、Kimi K2.6が86を記録しました。GLM-5 Reasoningは83、Qwen 3.5 397Bは79で続いています。

ライセンス面ではApache 2.0が事実上の標準となりました。Qwen 3.5・Gemma 4・Mistral Large 3・gpt-oss-20bがApache 2.0で提供され、DeepSeek V4はMITで提供されています。Llama 4は700M MAU条項付きの独自ライセンスを継続している点には注意が必要です。

主要な知見

技術潮流の中心はMoE(Mixture-of-Experts)です。フラッグシップ級は軒並みスパースMoE構成をとります。DeepSeek V4-Proは1.6T総パラメータで49Bアクティブ。Llama 4 Maverickは400B/17B、Qwen 3.5は397B/17B、Mistral Large 3は675B/41Bの構成です。総パラメータと推論時計算量を分離することで、知識量を保ったままGPUコストを抑える設計が定着しました。

GPU要件の目安はFP16で1Bパラメータあたり約2GB VRAMです。Q8量子化で半分、Q4でさらに半分まで圧縮できます。7B Q4量子化なら4〜5GB、14Bで8〜10GB、30Bで16〜20GB程度です。70BモデルのQ4_K_M(約39GB)は24GBのRTX 4090には載らず、DeepSeek-R1 32B Q4_K_M(約19GB)やQwen 3.6 27B(約16GB)が現実的な単枚運用候補となります。

エンタープライズクラスではGLM-4.7が4枚H100 80GB(計320GB)で動作します。Kimi K2.5やGLM-5は4枚H200 141GB(計564GB)が前提です。一方Qwen3.5-122B-A10B(122B総/10Bアクティブ)はH100 80GB単枚に収まり、122Bの知識量を10B相当の推論コストで利用できる構造になっています。

コスト面では、H100 80GBクラウドが時間単価2〜4ドル、購入で1.5〜2.5万ドル程度です。1日200万トークン規模が自社運用と商用API課金の損益分岐点とされ、それ以上の常時推論需要があるワークロードでは2〜3か月で回収できる試算が複数の業界レポートで示されています。

モデル 総/アクティブ ライセンス GPU要件目安
Mistral Small 3.2 24B Apache 2.0 単枚A100 80GB / RTX 6000 Ada
Qwen3.5-122B-A10B 122B/10B(MoE) Apache 2.0 単枚H100 80GB
MiniMax M2.5 230B/10B(MoE) Apache 2.0 2枚H100(計160GB)
GLM-4.7 355B/32B(MoE) MIT 4枚H100(計320GB)
GLM-5 / Kimi K2.5 744B〜1T級 MIT 4枚H200(計564GB)

考察

オープンウェイトLLMの実用域到達は「大は小を兼ねる」の前提を崩します。Qwen3.5-122B-A10Bのように122B級の知識量を10B相当の計算量で扱える構造が広まり、中規模オンプレ運用でも商用フロンティア級に近いタスク品質を安定供給できるようになりました。中小企業がオンプレ・VPC運用を検討する経済合理性は、2025年と比べて明確に高まっています。

一方で、自社運用には見えにくいコストが伴います。MLOpsエンジニア時間・GPUインフラ監視・ドライバ更新・モデル差し替え検証といった運用負荷が継続的に発生します。ピーク・アイドル比率が低い使い方では、商用APIの方が依然として優位です。月次トークン使用量が読めない用途やバースト負荷中心のワークロードでは、自社運用へ切り替える判断は早すぎる可能性があります。

ライセンスも見落としやすい論点です。Apache 2.0/MITは商用利用にほぼ制約がない一方、Llama 4のような独自ライセンスは利用規模・派生モデル配布・出力データの取り扱いに条件が残ります。社内運用に組み込む際は、商用APIから乗り換える前段で法務確認を入れる前提を組んでおく必要があります。

自社の見解(Blackford Technologiesの視点)

弊社が2026年に支援した中小企業のAI基盤検討では、「商用APIで全部済ませる」「全面オンプレで内製化する」という二択ではなく、「定常タスクをオンプレ中規模OSSで処理し、難所のみ商用APIにオフロードするハイブリッド」が最も多く選ばれています。フィンテック領域で月額AI費用を$47,000から$8,000まで83%削減した事例も報告されており、ハイブリッド構成は規模を問わず再現性のある解になりつつあります。

選定の起点はモデル性能ではなく、ワークロード性質と運用体制です。日次推論量・ピーク比・レイテンシ要件・コンプライアンス要件・MLOps人員数の5点を整理する必要があります。その上で24B級(Mistral Small 3.2/Qwen3 32B)・122B級MoE(Qwen3.5-122B-A10B)・サーバー級(GLM-4.7など)の3レイヤから候補を絞り込むのが現実的な進め方です。日本語要件が強い案件では、Qwen3 32Bを起点に検証する事例が増えています。

データ主権・コンプライアンス要件が前面に立つ規制業種では、社内利用を前提とした設計のAI基盤とOSSモデルを組み合わせる構成が増えています。当社のDataRoidなどは、データの取り扱い範囲を明確にした構成として活用されます。基盤側のアクセス制御・監査ログ・統一データレイヤと、OSSモデル選定を分離して検討することで、移行リスクと運用コストの双方を読みやすくできます。

実務への示唆

オープンウェイトLLMの社内運用を検討する際に、押さえておきたい論点を整理します。

  • ワークロード特性の数値化: 日次トークン量・ピーク比・レイテンシ要件を先に把握し、損益分岐点(目安1日200万トークン)と照合する
  • ライセンスの早期確認: Apache 2.0/MITは商用利用に制約が少ないが、独自ライセンスは利用規模・派生配布の条件を法務確認する前提を組む
  • モデル規模の3レイヤ化: 24B級(単枚A100/H100)・122B級MoE(単枚H100)・サーバー級(4枚H100以上)の3層で候補を整理し、用途別に分担する
  • ハイブリッド構成を前提化: 定常タスクはオンプレOSS、難所は商用APIへオフロードする構成が現実解となる
  • 隠れコストの見積り: GPU調達費だけでなく、MLOps工数・電力・冷却・モデル差し替え検証コストを総保有コストに織り込む

まとめ

2026年5月のオープンウェイトLLMは、中規模でも商用フロンティアに迫る選択肢として運用前提に組み込める段階に入りました。ライセンス・GPU要件・損益分岐点を数値で押さえれば、中小企業でもオンプレ・VPC運用は現実的な経済合理性を持ちます。一方で全面切り替えではなくハイブリッド構成を起点にし、ワークロードと運用体制の両面から選定する設計姿勢が重要です。

オープンウェイトLLMの選定は、モデルランキングではなくワークロードと運用体制から始める。

White Paper

2026年度版: AI・DX補助金徹底活用ガイド

AI導入の投資判断、対象業務の整理、補助金活用時の確認ポイントをまとめたPDF資料を用意しています。

相談する資料請求