中国発3大AIモデルの性能・コスト徹底比較
Kimi K2.5、DeepSeek、Qwen3.5の3モデルは、いずれも米国フロンティアモデルに迫る性能を実現しながら、API料金は1/5〜1/50という圧倒的なコスト優位性を持つ。 コストパフォーマンスではDeepSeek V3.2が群を抜き、総合性能ではKimi K2.5がオープンウェイトモデル最高スコアを記録、Qwen3.5はアクティブパラメータわずか17Bながらトップクラスの性能を示す。三者三様の設計思想を持ち、用途とコスト要件に応じた最適解が異なる。
なお、本記事執筆時点(2026年2月24日)でDeepSeek V4が2月17日にリリースされており、AI業界の競争はさらに加速している。本稿では各モデルの最新バージョンを中心に、検証済みデータに基づく比較を行う。
開発企業の背景:三者三様の出自
3つのモデルを理解するには、まず開発企業の出自と戦略を知る必要がある。
Moonshot AI(月之暗面):清華大学発のスタートアップ
Moonshot AIは2023年3月、清華大学卒・カーネギーメロン大学でコンピュータサイエンス博士号を取得した 楊志林(Yang Zhilin) が設立した。社名はPink Floydの「The Dark Side of the Moon」に由来する。
チームは約300名で、従業員数に対するモデル性能では世界最高クラスの効率を誇る。資金調達は累計約 17.7億ドル以上 に達し、2026年2月には Alibaba、Tencent などが共同リードする7億ドル超のラウンドを実施、評価額100〜120億ドルを目指している。Kimi K2.5リリース後20日間の売上が2025年通年を上回ったとされ、急成長の最中にある。
DeepSeek(深度求索):ヘッジファンドが生んだ研究機関
DeepSeekは2023年5月、クオンツヘッジファンド High-Flyer(幻方量化) の創業者 梁文鋒(Liang Wenfeng) が設立した。浙江大学出身の梁氏はHigh-Flyerの55%の株式と99%の議決権を保有し、ファンドの利益(2025年の平均リターン約57%)で 外部資金調達なし にAI研究を行うという異例の体制を取る。
従業員は約200名(OpenAIの約3,500名の約1/17)で、ほとんどの研究者は直近2年以内に学位を取得した若手である。「中国は他国のイノベーションを永遠に追い続けることはできない」という信念のもと、純粋な研究と完全オープンソースを優先し、商業化よりもアルゴリズム効率の追求を重視する。
Qwen Team(通義千問チーム):Alibaba Cloudの研究部門
Qwen Teamを率いるのは、コンピュータサイエンスではなく 言語学 を専攻した32歳の 林俊洋(Lin Junyang) 。Alibaba CloudのDAMO Academy内に位置し、Alibaba Cloudのモデルスタジオプラットフォームを通じて商業展開する。2025年1月時点で、ロボティクス・ヘルスケア・教育・金融・自動車分野の 29万社以上 がModel Studio経由でQwenモデルを採用している。
2025年10月には小規模なロボティクスチームも新設し、言語モデル以外への拡張も進めている。2025年8月時点でHugging Face上のQwen派生モデルは新規言語モデル全体の 40%以上 を占め、Metaの Llama(約15%) を大きく上回るオープンソース主導のポジションを確立した。
対象モデルの全体像とアーキテクチャ
各モデルの基本仕様を以下に示す。数値は各社公式発表およびモデルカードに基づく。
| 項目 | Kimi K2.5 | DeepSeek V3.2 | Qwen3.5-397B-A17B |
|---|---|---|---|
| 開発元 | Moonshot AI(月之暗面) | DeepSeek(深度求索) | Alibaba Cloud / Qwen Team |
| 発表日 | 2026年1月27日 | 2025年12月1日 | 2026年2月16日 |
| 総パラメータ数 | 1兆(1T) | 685B(671B本体+14B MTPモジュール) | 397B |
| アクティブパラメータ数 | 32B | 約37B | 17B |
| アーキテクチャ | MoE(384エキスパート、8選択+1共有) | MoE(256エキスパート、8選択+1共有) | MoE(512エキスパート、10選択+1共有) |
| レイヤー数 | 61(うち1は密結合層) | - | 60 |
| アテンション | MLA(Multi-Head Latent Attention) | MLA + DeepSeek Sparse Attention (DSA) | Gated DeltaNet + Gated Attention ハイブリッド(3:1比率) |
| コンテキスト長 | 256K | 128K(※V4で1Mに拡張) | 262K(YaRNで最大約1M) |
| マルチモーダル | テキスト+画像+動画+PDF | テキストのみ | テキスト+画像+動画+3D(ネイティブVL) |
| ビジョンエンコーダ | MoonViT(400Mパラメータ) | なし | 早期融合(Early Fusion)で学習 |
| 事前学習データ | 約15兆トークン | 14.8兆トークン | 非公開(Qwen3は36兆トークン、Qwen3.5はさらに大規模) |
| 語彙サイズ | 160K | - | 約250K(Qwen3の150Kから拡張、効率10〜60%向上) |
| ライセンス | Modified MIT | MIT | Apache 2.0 |
なぜ全モデルがMoEアーキテクチャを採用するのか
三者とも Mixture of Experts(MoE)アーキテクチャ を採用している。これは偶然ではない。MoEはモデルの性能(総パラメータ数に比例)と推論コスト(活性化計算量に比例)の根本的なトレードオフを解決するアーキテクチャだ。
MoEでは、巨大な総パラメータ数の 一部のみ を推論時に活性化する。Kimi K2.5は1Tパラメータのうち32B(3.2%)、DeepSeek V3.2は685Bのうち37B(5.4%)、Qwen3.5は397Bのうち17B(4.3%)しか使わない。これにより、密結合モデルの10〜20倍のパラメータ効率を実現する。
さらに、各エキスパートがコーディング・数学・言語など異なるタスクに特化し、ルーターが入力に応じて最適なエキスパートを動的に選択する仕組みは、ハードウェアリソースが制約される中国企業にとって特に合理的な選択である。米国の輸出規制下でも17〜37Bのアクティブパラメータであれば利用可能なハードウェアで動作するためだ。
Artificial Analysisのリーダーボードでは、トップ10のオープンソースモデル全てがMoEアーキテクチャを採用している。
各モデルのアテンション機構の比較
Kimi K2.5とDeepSeekはともに MLA(Multi-Head Latent Attention) を採用し、KVキャッシュの圧縮によりメモリ帯域を40〜50%削減している。DeepSeek V3.2はさらに DeepSeek Sparse Attention(DSA) を導入し、長文処理の効率を向上させた。
一方、Qwen3.5は Gated DeltaNet というリニアアテンション機構を導入した点が革新的だ。全60レイヤーのうち75%(3ブロックおき)にGated DeltaNetを配置し、残り25%に通常のGated Attention(GQA)を使用する 3:1ハイブリッド構成 を取る。
Gated DeltaNetは従来のソフトマックスアテンション(O(n²))をデルタルール更新機構とゲーティングを組み合わせたリニアアテンション(O(n))に置き換える。DeltaNetモジュールはKVキャッシュの代わりに 固定サイズのリカレント状態 を保持するため、32Kトークン以上で メモリ使用量が定数 となる。これにより、Qwen3.5は32Kコンテキストで 8.6倍高速、256Kコンテキストで 19倍高速 という劇的な推論効率改善を、1Tパラメータ超のQwen3-Maxと比較して達成した。
DeepSeekモデル群の系譜と分化
DeepSeekのモデル群は用途で明確に分化している。
- DeepSeek-V3(2024年12月26日):汎用チャットモデル。訓練コストわずか約560万ドル(H800で278.8万GPU時間)。
- DeepSeek-R1(2025年1月20日):V3-Baseに多段階強化学習(RLVR)を適用した推論特化モデル。OpenAI o1に匹敵する推論能力を持つ。蒸留モデル6種(1.5B〜70B)も提供。
- DeepSeek-V3.1(2025年8月):V3とR1を初めて統合。Thinking/Non-thinkingモード切替可能に。
- DeepSeek-V3.2(2025年12月1日):DSAの正式導入、V3.2-Specialeバリアントは IMO 2025金メダル、IOI 2025で492/600点(10位)、ICPC世界決勝2位 を達成。
- DeepSeek-V4(2026年2月17日):1兆パラメータ、1Mトークンコンテキスト、Manifold-Constrained Hyper-Connections (mHC)、Engramメモリ、Sparse Attentionの3つの新アーキテクチャを導入。SWE-bench 80%超をV3.2の10〜40倍低コストで実現と主張。
ベンチマーク性能の横断比較
以下は公式モデルカード、Artificial Analysis、およびarXiv論文に基づく検証済みスコアである。推論(Thinking)モード有効時を基本とし、GPT-5.2とClaude 4.5 Opusを参考値として併記する。未検証のスコアには「※」を付記した。
推論・知識系ベンチマーク
| ベンチマーク | Kimi K2.5 | DeepSeek V3.2 | Qwen3.5 | GPT-5.2 | Claude 4.5 Opus |
|---|---|---|---|---|---|
| MMLU-Pro | 87.1 | 85.0 | 87.8 | 86.5 | ~89.5 |
| GPQA-Diamond | 87.6 | 82.4 | 88.4 | 92.4 | 87.0 |
| AIME 2025 | 96.1 | 93.1 | — | 100 | 93.0 |
| HMMT 2025 Feb | 95.4 | 92.5 | 94.8※ | — | — |
| IMO-AnswerBench | 81.8 | 78.3 | 80.9※ | — | — |
| HLE(ツール使用時) | 50.2 | 40.8 | — | 45.5 | 43.2 |
| MMLU-Redux | — | — | 94.9 | — | — |
数学推論では Kimi K2.5がAIME 2025で96.1 と三者中最高で、GPT-5.2の完全正答(100)に次ぐ水準である。知識ベンチマーク(MMLU-Pro、GPQA-Diamond)では Qwen3.5がわずかにリード し、DeepSeek V3.2はやや見劣りする。
注目すべきはKimi K2.5の ツール使用時の推論能力(HLE 50.2) で、GPT-5.2(45.5)やClaude 4.5 Opus(43.2)を上回り全モデル中トップを記録した。ただし、このスコアはAgent Swarmモードを使用した場合のものであり、単一エージェントモードでの通常のHLEスコアは30.1と大幅に低い点には注意が必要だ。
コーディング系ベンチマーク
| ベンチマーク | Kimi K2.5 | DeepSeek V3.2 | Qwen3.5 | GPT-5.2 | Claude 4.5 Opus |
|---|---|---|---|---|---|
| SWE-Bench Verified | 76.8 | 73.1 | 76.4 | 80.0 | 80.9 |
| LiveCodeBench v6 | 85.0 | 83.3 | 83.6 | — | 82.2 |
| Terminal-Bench 2.0 | 50.8 | 46.4 | 52.5 | 54.0 | 59.3 |
| SWE-Bench Multilingual | 73.0 | 70.2 | — | 72.0 | 77.5 |
| Codeforces Rating | — | 2,386 | — | — | — |
コーディング能力ではKimi K2.5とQwen3.5が僅差で拮抗し、SWE-Bench Verified 76〜77%はClaude 4.5 Opus(80.9%)に迫る。Terminal-Bench 2.0ではQwen3.5が52.5と中国勢最高だが、Claude 4.5 Opus(59.3)にはまだ差がある。
DeepSeek V3.2のCodeforces Rating 2,386(競技プログラミング上位)は注目に値する。また、V3.2-SpecialeがIMO 2025金メダル、ICPC世界決勝2位という成績を収めた点も、特殊推論バリアントの実力を示している。
エージェント・自動化系ベンチマーク
| ベンチマーク | Kimi K2.5 | DeepSeek V3.2 | Qwen3.5 | GPT-5.2 |
|---|---|---|---|---|
| BrowseComp(Swarm) | 78.4 | — | 78.6 | 77.9 |
| BrowseComp(通常) | 60.6 | 51.4 | — | — |
| PaperBench | 63.5 | — | — | — |
| BFCL v4 | — | — | 72.9 | — |
| tau2-Bench | — | 80.3 | — | — |
Kimi K2.5のAgent Swarm機能は最大100のサブエージェントを並列生成し、1,500回の協調ツールコールを自動実行する。BrowseCompでSwarmモード使用時に 78.4% を達成し、通常モード(60.6%)から大幅に向上。GPT-5.2 Pro(77.9%)をも上回った。
Qwen3.5もBrowseCompで78.6%を記録しており、エージェント性能では両モデルが非常に高い水準にある。
マルチモーダル(画像・動画理解)
| ベンチマーク | Kimi K2.5 | Qwen3.5 | GPT-5.2 |
|---|---|---|---|
| MathVision | 84.2 | 88.6 | 83.0 |
| MMMU | — | 85.0 | — |
| MMMU-Pro | 78.5 | 79.0 | 79.5 |
| VideoMME | 87.4 | 87.5 | 86.0 |
| MathVista (mini) | 90.1 | 90.3 | — |
| OmniDocBench v1.5 | 88.8 | 90.8 | — |
| InfoVQA | 92.6 | — | — |
DeepSeek V3/R1/V3.2はテキスト専用モデルのためマルチモーダル比較には含まれない(DeepSeekには別途Janusなどのマルチモーダルモデルが存在する)。
Kimi K2.5とQwen3.5はいずれも ネイティブマルチモーダルモデル で、数式認識・文書理解・動画理解で GPT-5.2を上回る スコアを記録している。Qwen3.5はMathVision 88.6、OmniDocBench 90.8 で全モデル中最高水準。特にQwen3.5は学習段階からテキスト・画像・動画を同時に処理する Early Fusion 方式を採用し、32言語に対応するOCR能力を持つ。
Kimi K2.5は独自のMoonViTビジョンエンコーダ(400Mパラメータ)を搭載し、InfoVQA 92.6%、MathVista 90.1 でトップクラスのスコアを記録した。
API利用料金の詳細比較
料金は米ドル建て、1Mトークンあたりの単価で統一した(2026年2月時点の最新公開料金)。
| モデル | 入力(標準) | 入力(キャッシュ) | 出力 | コンテキスト上限 |
|---|---|---|---|---|
| Kimi K2.5 | $0.60 | $0.10 | $3.00 | 256K |
| DeepSeek V3.2(chat/reasoner統一) | $0.28 | $0.028 | $0.42 | 128K |
| Qwen3-Max(国際版、≤32K) | $1.20 | — | $6.00 | 252K |
| Qwen-Plus(Qwen3.5-Plus) | $0.40 | — | $1.20〜4.00 | 1M |
| Qwen3.5-Plus(中国本土、≤128K) | ~$0.11 | — | 段階制 | 1M |
| GPT-5.2(参考) | $1.75 | $0.175 | $14.00 | — |
| Claude 4.5 Opus(参考) | $5.00 | $0.50 | $25.00 | 200K |
| Claude 4.5 Sonnet(参考) | $3.00 | $0.30 | $15.00 | 200K |
**DeepSeek V3.2の出力単価25.00)と比較すると約 60分の1、GPT-5.2($14.00)と比較しても約 33分の1 という驚異的な価格差がある。特筆すべきは、2025年12月のV3.2リリースでchatモデルとreasonerモデルの料金が統一され、推論モードの切り替えで追加コストが発生しなくなった点だ。
Kimi K2.5は入力3.00と中国勢の中では中価格帯だが、GPT-5.2比で入力66%安、出力79%安。サードパーティ(Fireworks、DeepInfra等)経由でも提供されており、ブレンド単価はプロバイダにより1.20/1M程度で推移する。
Qwen3-Maxは国際版で6.00と三者中最も高価だが、中国本土リージョンでは入力1.38と大幅に安くなる。Qwen3.5-Plusは中国本土版で入力約$0.11/1Mトークン(128K以下)と非常に攻撃的な価格設定で、Alibaba Cloudは「GeminiやClaudeの10〜17倍安い」と公表している。
価格の推移:急速なデフレーション
AI APIの料金は年間約10倍のペースで下落している。2023年初頭にGPT-4レベルの性能で約1以下で利用可能になった。Anthropicも2025年のClaude 4/4.1時代のOpus価格(75)から、4.5/4.6時代に 67%値下げ(25)している。この傾向は中国勢の攻撃的な価格設定が大きな圧力となっている。
コストパフォーマンス分析
性能あたりのコストを定量的に評価するため、Artificial Analysis Intelligence Index のスコアと、入力:出力=3:1の典型的な利用比率で算出した ブレンド単価 を用いて比較する。
Intelligence Indexスコアの読み方
Artificial Analysis Intelligence Indexは10種類のベンチマークの複合評価で、推論モード(Reasoning)と非推論モード(Non-Reasoning)で別スコアが存在する。以下は各モデルの推論モード有効時のスコアである。
| モデル | Intelligence Index(推論) | ブレンド単価($/1M tok) | コスト効率(単価÷Index) |
|---|---|---|---|
| DeepSeek V3.2 | 66 | $0.32 | 0.0048(最高効率) |
| Kimi K2.5 | 47 | $1.20 | 0.0255 |
| Qwen3-Max | 推定45〜50 | $2.40 | 推定0.048〜0.053 |
| GPT-5.2(参考) | 50 | $4.81 | 0.0962 |
| Claude 4.5 Opus(参考) | 49 | $10.00 | 0.2041 |
DeepSeek V3.2は推論モードのIntelligence Index 66で、中国勢の中でも突出したスコアを記録している。 ブレンド単価$0.32と合わせたコスト効率は圧倒的で、GPT-5.2の約20分の1、Claude 4.5 Opusの約42分の1のコストで同等以上の推論性能を発揮する。
Kimi K2.5のIntelligence Index 47はオープンウェイトモデル世界最高 である。ただし、Artificial Analysisの評価では 89Mの出力トークン を生成しており、これは中央値(15M)の約6倍と非常に冗長であった点に注意が必要だ。実運用ではトークン消費量が想定以上になる可能性がある。
Qwen3.5は2月16日リリースのためIntelligence Indexでの正式な第三者評価はまだ完了していない。ただし、ベンチマークスコアからKimi K2.5と同等かやや上位の性能が推定される。
2026年2月最新のリーダーボード状況
2026年2月時点で、Intelligence Indexの上位は以下のようになっている:
- Gemini 3.1 Pro Preview:57
- Claude Opus 4.6(最大推論努力):53
- Claude Sonnet 4.6(最大推論努力):51
- GPT-5.2:50
- Claude 4.5 Opus:49
- Kimi K2.5:47(オープンウェイト最高)
Google、Anthropic、OpenAIの最新モデルがトップ争いを展開する一方で、中国勢のKimi K2.5がオープンウェイトモデルとして食い込んでいる構図だ。
GPT-4o・Claude 3.5世代との比較:中国勢の急成長を数字で見る
2024年の主力モデルであったGPT-4oやClaude 3.5 Sonnetと比較すると、中国発3モデルは 全ベンチマークで同等以上 の性能を達成している。
| ベンチマーク | GPT-4o (2024) | Claude 3.5 Sonnet (2024) | Kimi K2.5 | DeepSeek R1 | Qwen3.5 |
|---|---|---|---|---|---|
| MMLU | 87.2 | 88.3 | — | 90.8 | 88.5 |
| AIME 2024 | 9.3 | 16.0 | — | 79.8 | — |
| MATH-500 | 74.6 | 78.3 | — | 97.3 | — |
| LiveCodeBench | 33.4 | 36.3 | 85.0 (v6) | 65.9 | 83.6 (v6) |
| SWE-Bench | 38.8 | 50.8 | 76.8 | 49.2 | 76.4 |
AIME 2024ではGPT-4oの9.3%に対しDeepSeek-R1が 79.8% と8.5倍のスコア差がつく。SWE-Benchでも38.8%→76.8%と約2倍の改善。この1〜2年間で中国勢モデルは 旧世代の米国フロンティアモデルを完全に凌駕 した。
現行の最新米国モデルとの比較では、数学推論のGPT-5.2(AIME 100%)やコーディングのClaude 4.5 Opus(SWE-Bench 80.9%)がまだリードしているものの、その差は急速に縮小している。
各モデルの明確な強みと弱み
Kimi K2.5:エージェント&マルチモーダルの新星
強み
最も際立つのは Agent Swarm機能 である。Parallel-Agent Reinforcement Learning(PARL) で訓練されたこの機能は、オーケストレーターが「AIリサーチャー」「物理学者」「ファクトチェッカー」などの専門サブエージェントを動的に生成し、並列で問題を解決する。BrowseCompベンチマークでSwarmモード使用時に 78.4% を達成し、GPT-5.2 Proの77.9%を上回った。単一エージェント比で 実行時間を最大4.5倍短縮 する効果がある。
ビジョン能力も突出している。独自のMoonViTエンコーダ(400Mパラメータ)により、InfoVQA 92.6%、MathVista 90.1%で多くの視覚タスクで最高スコアを記録した。
また、4つの動作モード(Instant、Thinking、Agent、Agent Swarm)を切り替え可能で、タスクの複雑さに応じた最適化が可能だ。OpenAI/Anthropic互換APIを提供し、既存システムからのドロップイン移行も容易。
弱み
最大の懸念は 幻覚率の高さ だ。Artificial AnalysisのAA-Omniscienceスコアは -11(正解より不正解が多い)で、知識タスクでの 幻覚率は約64% と報告されている。
推論速度も課題で、Moonshot公式APIでは約 43〜45 tok/s と同クラスの中央値(51.8 tok/s)を下回る。ただし、サードパーティ(Fireworks:350.9 tok/s、Baseten:340.4 tok/s)では大幅に高速化される。
その他の弱みとして、256Kコンテキストの精度低下(100K超で精度82〜86%に低下、200K超で75〜80%)、Agent Swarmのベータ版特有の不安定性(冗長出力、逐次タスクでの失敗)、英語の創作文での微妙なニュアンス・慣用表現の弱さが報告されている。
DeepSeek V3.2(+V4):圧倒的コスト効率のオープンソースリーダー
強み
最大の強み は訓練コストわずか 約560万ドル(GPT-4の推定1/10〜1/20)で最先端水準を実現した コスト効率 である。この効率性は推論APIにも反映され、ブレンド単価$0.32/1Mトークンは業界最安水準。
DeepSeek-R1はAIME 2024で 79.8%(OpenAI o1の79.2%を上回る)、MATH-500で 97.3% を記録。MITライセンスでの完全オープンソース公開は業界に衝撃を与え、蒸留モデル6種(1.5B〜70B、QwenベースとLlamaベース)によりエッジデバイスからクラウドまで柔軟にデプロイできる。
V3.2-Specialeバリアントの IMO 2025金メダル、ICPC世界決勝2位 は、特殊推論タスクにおける卓越した実力を示している。
2026年2月17日にリリースされた DeepSeek V4 は1兆パラメータに到達し、3つの新アーキテクチャ(mHC、Engramメモリ、Sparse Attention)を導入。SWE-bench 80%超をV3.2の10〜40倍低コストで実現すると主張しており、実質的なコスト効率はさらに向上する可能性がある。
弱み
マルチモーダル非対応(V3/R1/V3.2/V4のメインモデルはテキストのみ)が最大の制約。画像・動画処理が必要なタスクには別途Janusなどのモデルを使う必要がある。
事実精度の低さ も課題で、V3のSimpleQAスコアは 24.9%(OpenAI o1の47.0%の約半分)と、知識正確性において大きく劣る。
地政学的リスクとセキュリティ懸念 は企業採用の障壁となっている。オーストラリア、インド、イタリア、台湾、米テキサス州・ニューヨーク州で政府機関での使用が禁止されている。セキュリティ企業Ferootにより、ユーザーデータを中国に送信する隠しコードが発見された事例もある。安全性評価では有害プロンプトに対する 攻撃成功率100% を示す研究結果もあり、安全性アラインメントの不十分さが指摘されている。
検閲問題 も深刻で、天安門、台湾、香港、ゼロコロナ政策など政治的に敏感なトピックへの質問に対し 88%の拒否率 が報告されている。回答を生成し始めた後に自己検閲してコンテンツを消去する挙動も確認されている。
Qwen3.5:パラメータ効率の極致を目指す最新モデル
強み
最大の強み はアクティブパラメータわずか 17B でGPT-5.2クラスの性能を実現した パラメータ効率 である。MMLU-Pro 87.8、GPQA-Diamond 88.4、MathVision 88.6 はいずれもKimi K2.5やDeepSeek V3.2を上回る。
201言語・方言への対応 と Apache 2.0ライセンス による完全オープンソースも大きな優位性だ。語彙サイズを約250Kに拡張し、言語ごとのエンコーディング効率を10〜60%向上させた。
ネイティブマルチモーダル(テキスト+画像+動画+3D)をEarly Fusion方式で学習しており、32言語対応OCR、デザインモックアップからのHTML/CSS/JS生成、GUI操作エージェント機能など、実用的なビジョンタスクに強い。OmniDocBench v1.5 90.8 は文書理解の最高水準を記録した。
さらに、Gated DeltaNetによるリニアアテンションは理論上のスケーラビリティに優れ、ネイティブ262Kコンテキストを YaRNで約101万トークンまで拡張可能。
FP8ネイティブ訓練パイプラインにより、メモリ消費を約50%削減しつつスループットを10%以上向上させた効率的な訓練手法も注目に値する。
弱み
2月16日にリリースされたばかりで 独立第三者評価がほぼ存在しない 点が最大の不確実性要因。Alibaba自身による性能比較は自己申告であり、CNBC等も「self-reported」と注記している。
最高難度の数学推論 ではGPT-5.2にまだ差がある(AIME 2026:Qwen3.5 91.3 vs GPT-5.2 96.7)。コーディング でもClaude 4.5 Opus(SWE-Bench 80.9%)には及ばない(76.4%)。
実運用面では、APIのレート制限の突然の発動、20MB超のbase64画像ペイロードでのビジョン処理エラー、JSONスキーマ不一致時のツールコール失敗など、APIの成熟度に課題 がある。
画像・動画の生成品質はまだ低く、生成されたビジュアルは不自然さが残るとの評価がある。
エンタープライズ採用の現状:中国モデルは実際に使われているのか
中国発モデルのエンタープライズ採用は2025年後半から急速に進んでいる。
具体的な採用事例
- Airbnb:CEOのBrian Cheskyが2025年10月に、OpenAIのChatGPTではなくAlibaba Cloud Qwenを選択したことを明かし、「高速かつ安価」と評価。
- Social Capital:CEOのChamath Palihapitiyaが、多くの業務をMoonshot AIのKimiに移行したと公開。「OpenAIやAnthropicよりはるかに高性能で安い」と発言。
- a16z(Andreessen Horowitz) のデータによると、米国AIスタートアップの 16〜24% が中国オープンソースモデルを使用。
- Alibaba Cloud Model Studio経由で 29万社以上 がQwenモデルを活用(2025年1月時点)。
採用傾向
2025年10月時点でFortune 500企業の 67社 がエンタープライズLLM製品をデプロイ(前年比3倍)。企業の 81% がテスト環境または本番環境で3つ以上のモデルファミリーを使用するマルチベンダー戦略を採用している。
ただし、Claudeの顧客の約半数がChatGPTにも料金を支払っているなど、完全な移行ではなく ヘッジ戦略 の一環として中国モデルが選択されるケースが多い。規制産業(金融、医療、政府)ではセキュリティ・データ主権・検閲の懸念から採用に慎重な姿勢が続いている。
安全性・検閲・地政学リスク
中国発モデルの採用を検討する際に避けて通れないのが安全性と地政学的リスクである。
関連記事: セキュリティリスクの詳細な評価(データプライバシー、認証・暗号化仕様、各国規制、セルフホスティング戦略など)は 中国系AIモデルAPI導入時のセキュリティリスク完全評価 を参照。
検閲
3モデルとも中国の規制環境下で開発されており、政治的に敏感なトピック(天安門事件、台湾の地位、香港デモ、ゼロコロナ政策等)への回答は制限または拒否される。DeepSeekでは台湾に関する質問で北京の公式見解を一人称で表現し始める挙動が確認されている。
ただし、オープンソースモデルをセルフホスティングした場合、これらの検閲機能を除去することは技術的に可能であるため、ホステッドAPIとセルフホスティングで利用体験が異なる点に注意が必要だ。
データプライバシー
DeepSeekのデータは中国国内のサーバーに保存される。セキュリティ企業Ferootによりユーザーデータを中国に送信する隠しコードの存在が報告された事例もある。一方、Qwen3.5のオープンウェイトモデル(Apache 2.0)をセルフホスティングすれば、データが外部に送信されるリスクは回避できる。
安全性アラインメント
中国のフロンティアAI安全性研究は急速に拡大しており、2024年6月〜2025年5月で月平均約26本の論文が発表されている(前年比2倍)。2024年12月には主要な中国基盤モデル開発者がAI安全性コミットメントに署名し、専任安全チーム、レッドチーミング、データセキュリティ、透明性を誓約した。
しかし、Ciscoの評価ではDeepSeek R1が有害プロンプトに対し 100%の攻撃成功率 を示すなど、実際の安全性ガードレールはまだ不十分との指摘が多い。オープンウェイトモデルの下流での安全性確保という構造的課題も残る。
規制環境
中国は2026年1月1日にサイバーセキュリティ法(CSL)のAI関連改正を施行。生成AIモデルのデプロイ前安全性評価を義務化する一方、AI研究開発・インフラを積極的に支援するという二面性を持つ。2025年前半だけで過去3年分のAI規制要件が発行されるなど、規制の速度も加速している。
米国の輸出規制とその影響
米国のAIチップ輸出規制にも関わらず、中国企業は競争力のあるモデルを続々とリリースしている。
2026年1月15日に施行されたバイデン政権最終規則により、H200/MI325X相当のチップの対中輸出にはライセンス審査が義務付けられた。しかし、2026年2月23日にはトランプ政権高官がDeepSeek V4がNVIDIAの最新 Blackwellチップ(内モンゴルのデータセンターに集積)で訓練された可能性を指摘し、輸出管理違反の疑いが浮上している。
こうした規制にも関わらず中国勢が競争力を維持できている要因は3つある:
- アルゴリズム効率の革新:DeepSeekのV3は約560万ドルという訓練コストで西側の同等モデルのコストの1/10〜1/20を実現
- 代替計算フレームワーク:清華大学のChituフレームワークはGPU依存を50%削減しつつ処理速度を315%向上
- グローバルなコンピュートインフラ:メキシコ、マレーシア等にデータセンターを構築し、国内のハードウェア制約を部分的に回避
今後の展望:2026年のAI競争の行方
直近の動向
- DeepSeek V4(2026年2月17日リリース):1兆パラメータ、1Mコンテキスト、R2推論エンジン統合。CNBCは「R1の2025年1月のインパクトに匹敵するNasdaq急落の可能性」を指摘
- Gemini 3.1 Pro(2026年2月19日):ARC-AGI-2で77.1%(Gemini 3 Proの2倍超)。16ベンチマーク中13でトップスコア
- Claude Opus 4.6(2026年2月5日):同価格帯で大幅な能力向上。Adaptive Reasoning機能
- Moonshot AI の評価額100〜120億ドルへの増資が進行中
3つのトレンド
- エージェントAIへの集中:Kimi K2.5のAgent Swarm、Qwen3.5のネイティブエージェント機能、DeepSeekのコーディングエージェントなど、2026年はエージェント性能が主戦場
- ネイティブマルチモーダル訓練:後付けではなく学習初期からの統合が主流に
- 100万トークンコンテキスト:DeepSeek(1Mへ拡張済み)、Qwen3.5(YaRNで約1M)、Gemini(1Mネイティブ)が標準化を推進
結論:用途別の最適解は三者で異なる
本調査で明らかになったのは、3モデルが異なる設計哲学で異なる勝ちパターンを持つ という事実である。
DeepSeek V3.2/V4:大量処理・コスト最優先の場合
ブレンド単価$0.32/1Mトークン(V3.2)は他の追随を許さず、MITライセンスによるセルフホスティングも可能。Intelligence Index 66(推論モード)はGPT-5.2(50)やClaude 4.5 Opus(49)を大幅に上回りながら、コストは1/15〜1/30。V4の登場でさらにコスト効率が改善される可能性がある。ただし、マルチモーダル非対応、事実精度の低さ(SimpleQA 24.9%)、地政学的リスクという制約を受け入れる必要がある。
Kimi K2.5:エージェント・自動化・検索タスクの場合
Agent Swarm機能とツール使用推論(HLE 50.2%で全モデルトップ)は、複雑な自動化ワークフローにおいて他モデルにない独自の価値を提供する。Intelligence Index 47はオープンウェイト最高で、API料金もClaude比で80%以上安い。ただし、幻覚率の高さ(AA-Omniscience: -11)と推論速度の遅さ(公式API約43 tok/s)は実運用時のリスクとなる。
Qwen3.5:パラメータ効率・多言語・ビジョンタスクの場合
アクティブ17Bで87〜88点台のベンチマークスコアを叩き出すアーキテクチャ効率は驚異的で、Gated DeltaNetによるリニアアテンションは長文処理のスケーラビリティで理論的優位性を持つ。201言語対応はグローバル展開に有利。ネイティブマルチモーダルと32言語OCR、ビジュアルエージェント機能は実用性が高い。Apache 2.0ライセンスによる完全オープンソースと、Hugging Face上の派生モデルシェア40%超というエコシステムの強さも魅力だ。
共通する留意点
いずれのモデルも、わずか1〜2年前には考えられなかった水準の性能を、従来の1/5〜1/50のコストで提供している。中国発AIモデルの急速な進化は、AI利用のコスト構造そのものを根本から変えつつある。
ただし、データプライバシー、検閲、地政学的リスクは依然として無視できない要素であり、特に規制産業や政府関連での利用には慎重なリスク評価が必要だ。オープンウェイトモデルのセルフホスティングにより一部のリスクは軽減可能だが、安全性アラインメントの課題は構造的に残る。導入前のセキュリティ評価については セキュリティリスク完全評価 も併せて確認されたい。
エンタープライズにおける最適戦略は、単一モデルへの依存ではなく、タスク特性とリスク許容度に応じた マルチモデル戦略 の構築である。コスト効率を最大化しつつリスクを管理するための、目的に応じた使い分けが今後ますます重要になるだろう。
更新履歴
| 更新日 | 内容 |
|---|---|
| 2026-02-24 | 初版公開 |
ご注意: 本記事は2026年2月24日時点の情報に基づいています。AIモデルの性能・価格は急速に変化するため、最新情報は各社の公式ドキュメントをご確認ください。
