はじめに
2年前まで「オープンソースLLM = Llama」という暗黙の了解がありましたが、2026年の景色は一変しました。中国のDeepSeek・Alibaba(Qwen)・Zhipu AI(GLM)などが上位を独占し、GoogleのGemma 4がトップ5に食い込む構図です。本稿ではVellum Open LLM Leaderboard・Spheron Blogほか複数ソースを横断し、企業がオンプレ/VPCで運用するための選定軸を整理します。
ベンチマーク上位の顔ぶれ
主要ベンチマークでのトップを整理します。
- GLM-5: SWE-bench Verifiedで77.8%(オープンモデルでは最強のコーディング性能)
- Llama 4 Maverick: MMLUで85.5%(汎用知識)
- Qwen 3 235B: GPQA Diamond 77.2%、AIME '24で85.7%(推論)
- DeepSeek R1: MATH-500で97.3%(数学)
- DeepSeek V3.2 Speciale: 商用APIモデルに匹敵する総合力
オープン陣営はもはや「商用モデルに追いつく挑戦者」ではなく、特定領域で先行する側に立った。
主要モデルのGPU要件と性質
実運用での要件を整理します。
| モデル | 推論最低構成 | 強み | ライセンス | 想定ユースケース |
|---|---|---|---|---|
| Qwen 3 32B | H100 1基 | 推論・多言語 | Apache 2.0 | 中小企業のオンプレ初手 |
| DeepSeek V3.2 Speciale | H100 8基 | 総合力 | MIT系 | 大企業のセルフホスト |
| Llama 4 Scout | H100 4〜8基 | 長コンテキスト | Llama License | 長文ドキュメント処理 |
| Llama 4 Maverick | H100 8基〜 | 知識・汎用 | Llama License | 大規模RAG |
| GLM-5 | H100 4〜8基 | コーディング | OSS | 開発支援内製化 |
| Gemma 4 31B | H100 1〜2基 | 効率 | Gemma License | エッジ/デバイス組込 |
商用APIとの損益分岐点
オープンウェイトをセルフホストする経済合理性は、月次トークン量で決まります。目安は次の通りです。
- 月100万トークン未満: 商用API(Anthropic / OpenAI / Google)が圧倒的に有利
- 月1,000万〜1億トークン: 価格圧縮・データ主権を求めるならハイブリッド構成
- 月1億トークン超: セルフホストの単価優位が明確(特に推論ヘビーな用途)
中小企業の多くは前2段に該当し、いきなりH100を8枚買う判断には至りません。代わりにTogether AI、Fireworks AI、Replicateなどのオープンウェイトホスティングを経由する選択肢が現実的です。
ライセンス上の落とし穴
オープン=完全に自由とは限りません。注意すべき条件は以下です。
- Llama License: 月間アクティブユーザー7億超で別途条件、商用ロゴ表示義務など
- Qwen / DeepSeek: 多くがApache 2.0系で商用利用に寛容
- GLM系: モデルにより条件が異なるため公表ライセンスを要確認
- Gemma License: 一定のユースケース制限あり
選定の意思決定フレーム
中小企業がオープンソースLLMを採用する際の判断順序は次が現実的です。
- まずは商用APIでユースケース検証: モデル選定よりユースケース確立が先
- 月次コストが商用APIで30万円超になったらホスティングを検討: ホスト型OSS(Together / Fireworks)から
- データ主権・規制要件がある場合のみオンプレ: GPU確保とオペレーション体制が前提
- 商用APIとOSSのハイブリッド: 機密データのみOSS、汎用処理は商用API
まとめ
オープンソースLLMは「使えるけど商用には届かない」段階を完全に抜けました。一方で、選定基準が複雑化したのも事実です。中小企業はオンプレ運用を急ぐより、まず商用APIでユースケースを確立し、コスト・データ主権の観点で必要が生じた時にOSSを取り入れる順序が安全です。検証の起点としてはQwen 3 32BのTogether AIホスティングが最もコストパフォーマンスに優れます。
オープンLLMの選定で問われるのは「どれが最強か」ではなく「自社の制約条件にどれが最も合うか」だ。




