中国 LLM 现状观察：模型、产品与生态正在如何重排

更新日期：2026 年 3 月 24 日

本文的起点，是 Reddit 的 r/LocalLLaMA 板块上一则帖子：The current state of the Chinese LLMs scene。帖中把中国厂商大致分成大厂、DeepSeek 和“六小虎”三层。这个框架适合快速入门，但如果只停留在论坛视角，就会漏掉一个更关键的现实：今天的中国 LLM 竞争，早已不是单一排行榜上的排序，而是用户入口、开源模型、商业化能力、Agent 工作流，以及监管与算力约束共同作用的多线竞争。

如果你只看 LocalLLaMA，很容易得出“DeepSeek 和 Qwen 几乎定义了一切”的结论；如果你只看国内 App 数据，又会觉得“豆包才是压倒性的赢家”。这两种判断都不算错，但它们说的是不同层面的胜负。今天的中国 LLM，更像一张正在快速重排的分层地图，而不是一张谁高谁低的一维榜单。

核心判断

消费级入口层面，字节跳动的豆包仍是最强玩家之一，而且优势主要来自流量分发与产品触达，而不是论坛里的模型声量。
开源与开发者生态层面，阿里的 Qwen 和 DeepSeek 依然是最有全球影响力的两条主线。
创业公司没有出局，但赢法已经从“做一个通用聊天模型”转向“做 Agent、代码、长上下文、多模态或行业化差异”。
一个正在迅速成形的新战场，是 Claude Code 式的 coding agent 工作流，以及围绕 OpenClaw 展开的更广义 agent 框架生态；本质上争夺的是谁能成为终端、IDE 和工具链里的默认模型后端。
中国 LLM 行业的真正门槛，越来越不是“谁能训练出一个模型”，而是“谁能把模型放进真实产品、合规上线，并长期承受算力与推理成本”。

为什么 Reddit 只说对了一半？

这篇名为 The current state of the Chinese LLMs scene 的 Reddit 帖子，确实抓住了两个关键事实。

第一，中国厂商在开源发布节奏上确实非常激进。从 2025 年到 2026 年，你几乎每隔几周就能看到新的开源权重、技术报告、推理模型或 agent 模型上线。Qwen、DeepSeek、Kimi、GLM、MiniMax、StepFun、ByteDance Seed，以及帖子里没有充分展开的小米 MiMo，都在持续发布新版本，这一点论坛观察没有问题。

第二，中国市场里确实同时存在“大厂 + 明星创业公司”的双层结构。这和美国市场由极少数超大模型公司主导舆论的观感明显不同。

但它说得还不够完整的地方在于：中国 LLM 的“最强”从来不是一个维度。

如果你问“谁在国内拿到最多普通用户”，答案更接近豆包。
如果你问“谁在全球开源社区影响最大”，答案通常会落到 Qwen 和 DeepSeek。
如果你问“谁最擅长把模型嵌进既有业务场景”，腾讯、阿里、百度、字节这些大厂的优势比论坛讨论大得多。
如果你问“谁最有可能靠单点能力形成突破”，答案又会回到 Kimi、GLM、MiniMax、StepFun 这些创业公司身上。

所以，与其把中国 LLM 看成一个榜单，不如把它理解成一张分层地图。入口、模型、生态、工具链和商业化能力，正在以不同速度重排。

1. 先看最容易被忽略的一层：用户入口

截至 2025 年 6 月，中国生成式 AI 用户已经达到 5.15 亿，渗透率 36.5%；这意味着中国 LLM 竞争早就不只是技术圈的小众话题，而是进入了大众使用阶段。
来源：中国政府网 / Xinhua，2025-10-18

QuestMobile 在 2026 年 3 月 3 日发布的 2025 年 AI 应用层报告，进一步给出了一组值得注意的数据：截至 2025 年 12 月，国内 移动端 AI 应用月活达到 7.22 亿，手机厂商 AI 助手达到 5.59 亿，PC 端 AI 应用达到 2.05 亿。同一份报告还指出，豆包自 2025 年 8 月起反超 DeepSeek 后，稳居第一。
来源：QuestMobile，2026-03-03

更具体一点看，199IT/新浪科技转述 QuestMobile 数据称，到了 2026 年 2 月 4 日，豆包在 AIGC 原生应用赛道的用户规模已达到 2.27 亿，领先 DeepSeek 接近 1 亿；而 DeepSeek 在网页端同比增速达到 1250.7%，显示出它在开发者与高频生产力用户中的穿透力。
来源：新浪科技转述 QuestMobile，2026-02-04

这组数据说明了一件很重要的事：国内用户入口的赢家，和开源社区的赢家，并不是同一批公司。

豆包之所以强，并不只是因为模型本身，而是因为它背后有抖音、剪映、火山引擎以及更强的分发体系。DeepSeek 的强，则更多体现在技术品牌、开发者心智、网页端和 API 使用习惯上。两者并不完全处在同一赛道。

2. 开源生态里，中国厂商确实已经是最活跃的主力阵营

如果把视角切回模型社区，Reddit 的直觉就会变得更准确。

Qwen 仍是最稳的开源基座之一，但产品重心已经更新到 Qwen3.5

qwen 3.5

阿里在 2025 年 4 月 29 日发布 Qwen3 时，一次性开出了两条 MoE 和六条 dense 模型线，并明确以 Apache 2.0 许可开放权重。Qwen3-235B-A22B 是 235B 总参数、22B 激活参数的 MoE，Qwen3-30B-A3B 则把小体积高效率路线继续做深。
来源：Qwen3 官方博客，2025-04-29

随后在 2025 年 7 月 22 日，阿里又发布了 Qwen3-Coder-480B-A35B-Instruct，原生支持 256K 上下文，并可扩展到 1M，同时直接围绕 Claude Code、Cline、OpenAI 兼容接口等开发者工作流来设计。
来源：Qwen3-Coder 官方博客，2025-07-22

但如果把时间推进到 2026 年 3 月，Qwen 的对外叙述已经不能只停留在 Qwen3。阿里云公开文档显示：

Qwen3.5 系列已经成为最新一代视觉理解与混合思考主线，其中 qwen3.5-plus 和 qwen3.5-flash 默认支持思考模式；开源侧则列出了 qwen3.5-397b-a17b、qwen3.5-122b-a10b、qwen3.5-27b、qwen3.5-35b-a3b。
来源：阿里云百炼《深度思考》文档
Qwen3.5 是原生多模态系列。阿里云视觉理解文档明确把 Qwen3.5 定义为“最新一代视觉理解模型”，并将 qwen3.5-plus 作为性能最强、推荐优先使用的版本。
来源：阿里云百炼《如何使用 Qwen3.5 模型实现视觉理解》
商业旗舰侧，qwen3-max-2026-01-23 仍然是阿里公开文档中的 Max 级可用模型，和 qwen3.5-plus 一起出现在最新模型支持列表里。
来源：阿里云百炼《Claude Code》接入文档

换句话说，Qwen3 是这轮开源爆发的重要起点，但截至 2026 年 3 月，真正代表阿里当前产品重心的，已经是“Qwen3 开源底座 + Qwen3.5 原生多模态 + qwen3-max 商业旗舰”这套组合。

DeepSeek 仍是影响力最大的技术品牌之一

DeepSeek-R1 在 2025 年 1 月 20 日发布时，官方明确强调模型与代码以 MIT License 开放，且 API 输出可以用于微调和蒸馏。
来源：DeepSeek-R1 官方发布，2025-01-20

这件事的重要性不只是“又多了一个强模型”，而是它把低成本推理、开放蒸馏、强化学习叙事一起推上了台面。此后无论你是否真的在用 DeepSeek，整个行业都开始更严肃地谈“开源推理模型到底能不能成为商业默认选项”。

创业公司并没有掉队，而且版本线还在继续向前

如果只看论坛热度，很容易误判为“除了 Qwen 和 DeepSeek，其他都在陪跑”。但官方发布节奏并不支持这个结论。

Moonshot / Kimi K2.5：Kimi K2.5 已经取代早期 K2，官方将其定义为 open-source, native multimodal agentic model，在 K2-Base 之上继续预训练约 15T 视觉与文本混合 token；模型为 1T 总参数、32B 激活参数，支持 256K 上下文。
来源：MoonshotAI/Kimi-K2.5 GitHub
Z.ai / GLM-5：智谱最新旗舰已经从 GLM-4.5 推进到 GLM-5。官方文档把它定位为面向 Agentic Engineering 的旗舰基座模型，给出 200K 上下文、128K 最大输出，并在详细介绍中写明新基座已扩展到 744B 总参数、40B 激活参数。
来源：智谱 AI 开放文档：GLM-5
MiniMax-M2.7：截至 2026 年 3 月 18 日，MiniMax 官方最新文本旗舰已经更新到 MiniMax M2.7。官方将其描述为首个“深度参与自身进化”的模型，强调复杂 agent harness、Agent Teams、动态工具搜索、软件工程和专业办公任务；新闻页给出的基准包括 SWE-Pro 56.22%、VIBE-Pro 55.6%、Terminal Bench 2 57.0%。
来源：MiniMax 官方新闻：MiniMax M2.7
StepFun / Step-3.5-Flash：如果按 2026 年 2 月底的官方文档和模型卡来看，StepFun 当前最值得关注的开源版本仍是 step-3.5-flash。StepFun 官方把它称为“最强大的开源基座模型”，支持 256K 上下文、196B 总参数 / 11B 激活参数，而且已经明确写进了 Claude Code、Codex 与 agent 平台接入说明。
来源：StepFun 模型能力总览
来源：Step 3.5 Flash 模型卡
Xiaomi / MiMo-V2-Pro 与 MiMo-V2-Omni：小米并没有缺席这轮竞赛，而且版本线已经推进到 MiMo-V2-Pro 和 MiMo-V2-Omni。其中，MiMo-V2-Pro 是面向真实 agent 工作负载的旗舰基座，官方写明其参数规模 超过 1T，总激活参数 42B，支持 1M token context，并明确把目标从 coding 延伸到 claw。MiMo-V2-Omni 则是统一图像、视频、音频与文本的多模态 agent 基座，强调原生结构化 tool calling、function execution 与 UI grounding。
来源：Xiaomi MiMo-V2-Pro 官方页面
来源：Xiaomi MiMo-V2-Omni 官方页面

基于这些官方发布，一个更接近现实的判断是：中国开源 LLM 生态并不是“Qwen + DeepSeek 两家独大，其他不存在”，而是已经形成了头部双强 + 多家追赶者持续迭代的供给结构。 而且，这些追赶者的新版本并没有停在 2025 年中。小米 MiMo 的存在，本身就说明“中国 LLM”不该只盯着传统 AI 创业公司名单。

大厂也在持续推进，只是打法和创业公司不同

这里也需要特别说明一点：字节并不应该被归进“创业公司”一栏。 更准确的写法是，字节、腾讯、百度、阿里这些大厂，正在沿着“商业前线快速迭代 + 选择性开放部分模型或工具链”的方式推进。

ByteDance / Seed 2.0 与 Seed-OSS：截至 2026 年 2 月 14 日，字节通用模型的最新产品线已经推进到 Seed 2.0。官方页面把它定义为包含 Pro、Lite、Mini 三个尺寸的通用 agent 模型系列，强调大规模生产部署、多模态理解、长链任务与高经济价值工作负载。
不过，截至 2026 年 3 月 24 日，我能查到的官方公开资料显示，Seed 2.0 并没有同步发布公开权重仓库；字节当前明确开源的主线仍是 Seed-OSS 和 Seed1.5-VL。这一判断基于 Seed 2.0 官方发布页与 ByteDance Seed 官方 GitHub 组织页。
来源：ByteDance Seed 2.0 官方页面
来源：Seed 2.0 Official Launch
来源：ByteDance-Seed GitHub 组织页
来源：ByteDance-Seed/seed-oss GitHub
腾讯、百度的情况也类似：它们在商业 API、企业接入、Agent 工具链和云平台整合上推进得很快，但论坛热度通常不如开源社区里的 Qwen 或 DeepSeek 那么集中。

3. 真正的胜负手，已经从“聊天能力”转向 Agent 与工作流

abstract pattern of brown lines on a light blue background Eugene Golovesov / Unsplash

2024 年大家还在比聊天体验和基准分数，到了 2025-2026 年，竞争焦点已经明显右移。

一个非常直观的证据是，各家新模型都在强调下面这些关键词：

agentic coding
tool use
OpenAI-compatible API
Anthropic-compatible API
long context
multimodal reasoning

例如，Qwen3-Coder 直接围绕 Claude Code 和 Cline 去做适配；腾讯混元则在 2026 年 1 月同时提供了 OpenAI 兼容接口和 Anthropic 兼容接口文档。
来源：腾讯混元 OpenAI 兼容接口文档
来源：腾讯混元 Anthropic 兼容接口文档

阿里的最新文档也在同一个方向上继续推进。2026 年 3 月的百炼与 Coding Plan 文档里，qwen3.5-plus、kimi-k2.5、glm-5、MiniMax-M2.5 都已经被当成面向编程工具的可接入模型来组织，而不再只是面向“聊天网页”的产品。这里也能看出一个现实：模型厂商自己的最新旗舰，和第三方云平台当前开放接入的版本，不一定完全同步。
来源：阿里云百炼《Coding Plan 概述》

更准确地说，这里对应的是两条正在汇合的路线：一条是 Claude Code 式 coding agent 工作流，另一条是以 OpenClaw / ClawEval / PinchBench 为代表的更广义 agent 评测与框架生态。换句话说，大家争的不只是“谁会写代码”，而是“谁能接管一整套可执行工作流”。从国内厂商最近的动作来看，这一点已经非常明显：

阿里云百炼直接提供了 Claude Code 接入文档，并在示例里要求把 ANTHROPIC_BASE_URL 和 ANTHROPIC_MODEL 指向 qwen3.5-plus。
来源：阿里云百炼《Claude Code》文档
智谱 GLM不只支持 Claude Code，而且官方 FAQ 明确写了 GLM Coding Plan 对 Claude Code 的模型映射方式，并说明 Max、Pro 套餐已支持 GLM-5。
来源：智谱 AI：Claude Code 文档
来源：智谱 AI：GLM Coding Plan FAQ
Kimi虽然没有把“Claude Code 兼容”写成最显眼的标题，但其公开博客已经持续围绕 Agentic Coding、工具调用、MCP server 和 Kimi Playground 展开。
来源：Kimi K2 模型更新：更强代码能力
来源：Kimi Playground：工具调用能力
StepFun连模型卡都已经把 Claude Code & Codex 单列成集成章节，这说明它不是把 agent 兼容性当成附属功能，而是直接当成模型卖点来经营。
来源：Step 3.5 Flash 模型卡
百度这条线更偏“基础设施化”：百度千帆已经推出面向 Claude Code 等工具的 Coding Plan，同时百度云文档还在持续推动 OpenClaw 的快速部署和接入企业微信、QQ、钉钉等场景。
来源：百度千帆 Coding Plan
来源：快速部署 OpenClaw
小米 MiMo-V2-Pro / Omni 则更像是从模型底座层直接押注 coding、claw 与多模态 agent workflows。前者主打大规模 agent 任务和超长上下文，后者把能力扩展到图像、视频、音频与 UI grounding。
来源：Xiaomi MiMo-V2-Pro 官方页面

更关键的是，小米把这件事写得比很多厂商都更直白。MiMo-V2-Pro 页面直接写出“generalizing from coding to claw”，并把 OpenClaw 称为“正在开源社区快速升温的通用 agent 框架”；官方还给出 PinchBench #3 globally、ClawEval #3 globally 的结果。与此同时，MiMo-V2-Omni 则把这条路线从文本和代码扩展到图像、视频、音频与 UI grounding。这也说明，国内厂商讨论的已经不只是代码补全，而是更广义的可执行 agent。
来源：Xiaomi MiMo-V2-Pro 官方页面
来源：Xiaomi MiMo-V2-Omni 官方页面

这件事的意义在于：国内厂商已经不再满足于“我的模型分数不错”，而是在争夺一个更具体的位置：谁能成为 Claude Code、Cline、MCP、终端代理、企业编程助手这一整套新工作流里的默认后端。

这背后对应的是一个更大的趋势：今天中国 LLM 厂商争抢的，不只是模型排行榜上的位置，而是开发者的默认接入层。

谁能先进入 IDE、Agent 框架、企业工作流、办公协同和云平台，谁就更有机会把模型能力变成可持续收入。单纯做一个“回答不错的聊天机器人”，已经不够了。

4. 大厂为什么越来越占优？

Reddit 讨论里常把大厂和创业公司并列看待，但现实是，随着模型能力逐渐接近、成本和合规压力上升，大厂的优势正在被重新放大。

大厂拥有更完整的商业闭环

以字节为例，火山引擎在 2025 年 4 月披露，截至 2025 年 3 月底，豆包大模型日均 token 调用量已超过 12.7 万亿，是 2024 年 12 月的 3 倍，是一年前的 106 倍；到豆包 2.0 发布时，官方又表示其日均 Tokens 使用量较发布之初已增长 500 倍以上。
来源：豆包 1.5·深度思考模型发布，2025
来源：豆包 2.0 正式发布

这意味着字节已经不是“有一个强模型”，而是已经拥有一套完整的模型商业闭环：

消费级 App 入口
企业 API 平台
云基础设施
多模态产品矩阵
和既有内容生态的联动能力

如果把时间推进到 2026 年 3 月，几家大厂的模型产品线大致可以整理如下：

字节跳动：通用模型的最新主线是 Seed 2.0，强调 Pro / Lite / Mini 三档 agent 模型和真实生产部署；但当前明确开源的主线仍是 Seed-OSS / Seed1.5-VL。
腾讯：腾讯云产品概述里最新通用文生文已经推进到 Tencent HY 2.0 Think 和 Tencent HY 2.0 Instruct；推理线还有 hunyuan-t1-latest，开源侧则可见 Hunyuan-A13B 与 Hunyuan-Large 两条 MoE 路线。
来源：腾讯混元产品概述
来源：Tencent-Hunyuan/Hunyuan-A13B
来源：Tencent-Hunyuan-Large
百度：商业前线已经是 ERNIE 5.0 正式版 / ERNIE 5.0 Thinking Preview / ERNIE X1.1 Preview / ERNIE 4.5 Turbo 这条组合线，其中文心 5.0 已被百度定义为“原生全模态大模型”；而公开开源主线仍主要是 ERNIE 4.5 家族。
来源：百度千帆模型服务页
来源：文心 5.0 Preview 新闻
来源：PaddlePaddle/ERNIE

阿里、腾讯、百度也都在走同样的大方向。对它们来说，LLM 不是一个孤立业务，而是会嵌进电商、搜索、社交、办公、云服务、内容分发，甚至硬件入口。

顺带一提，阿里云在 2026 年 3 月 20 日之后已经停止接受 Coding Plan Lite 的新购订单，当前公开文档主推的是 Pro 套餐。这个细节同样说明，模型竞争已经不只是“谁更强”，而是“谁能把最强模型包装进一套面向开发者和企业的稳定供给体系”。
来源：阿里云百炼《Coding Plan 概述》

创业公司必须更尖锐地定义自己

这并不意味着创业公司没有机会，而是说，机会已经不再来自“我也有一个通用大模型”。

更现实的路径通常是：

在代码、agent、长上下文、多模态上做单点突破
用开源权重换开发者生态和品牌声量
用更低推理成本切入 API 市场
用行业化部署、私有化交付或企业方案建立收入

换句话说，创业公司当然还在牌桌上，但竞争重点已经从“造模型”转向“找到可落地的切入口”。

5. 监管与算力，不是背景板，而是塑形力量

很多英文讨论会把中国 LLM 的成功主要归结为“工程执行力”或“开源策略”，但如果忽略政策与算力约束，这个图景就会失真。

监管没有阻止发展，但深刻影响了产品形态

国家网信办在 2026 年 1 月 9 日公告称，截至 2025 年 12 月 31 日，累计已有 748 款生成式人工智能服务完成备案，另有 435 款应用或功能完成登记。
来源：国家网信办，2026-01-09

这意味着中国市场不是“谁做出来就能直接放量”，而是天然要面对备案、登记、上线披露、场景合规等现实流程。其结果是：

大厂更有能力承担合规成本
云厂商更容易成为行业基础设施
面向公众的大模型产品，会更强调稳定、可控和落地场景

算力约束也在倒逼效率导向

NVIDIA 在 2025 年 5 月 28 日的财报中披露，美国政府在 2025 年 4 月 9 日通知其，H20 产品出口中国需要许可证；因此公司在 2025 财年第一季度确认了 45 亿美元相关费用，并且还有 25 亿美元原本预期收入未能发货。
来源：NVIDIA 2025 财年 Q1 财报

这并不等于“中国公司就没法继续训练模型”，但它确实解释了为什么中国厂商在 2025-2026 年如此执着于这些方向：

稀疏 MoE
更低激活参数
更长上下文下的高效率推理
开源后让社区共同优化部署

所以，中国 LLM 的一个鲜明特征是：不仅要比拼能力，也要比拼效率。

6. 截至 2026 年 3 月，我对中国 LLM 格局的判断

如果要用一句话总结，我会这样说：

中国 LLM 不是“谁是中国版 OpenAI”的故事，而是“谁能同时拿下模型、渠道、工具链和合规能力”的故事。

更具体一点：

豆包更像当前国内消费级入口最强的玩家之一。
字节 Seed 的最新通用前线已经是 Seed 2.0，但当前公开开源主线仍主要是 Seed-OSS。
Qwen更像中国开源基础模型和开发者生态的“公共底座”，但产品前线已经从 Qwen3 延伸到 Qwen3.5 Plus / Max。
DeepSeek仍然是最具技术品牌效应的开源推理代表。
腾讯混元 2.0 和 文心 5.0 / X1.1 Preview 在真实业务与企业接入层面值得更高重视，它们在论坛热度上未必最强，但绝不是边缘玩家。
Kimi K2.5、GLM-5、MiniMax-M2.7、StepFun、小米 MiMo-V2-Pro / Omni 还在牌桌上，而且仍可能在代码、Agent、长上下文或多模态上继续突破。
腾讯、百度未必在论坛讨论里最热，但在真实业务场景与分发体系里不容低估。

这也是为什么我不太认同“六小虎很快都会消失”这种过于简单的判断。更准确的说法可能是：

通用聊天模型会越来越拥挤，但围绕 Agent、工具调用、垂直行业、企业交付和多模态工作流的新分层，反而还远没定局。

FAQ

中国 LLM 现在到底是谁最强？

要先定义“强”的维度。

看国内普通用户入口，豆包的领先更明显。
看全球开源开发者影响力，Qwen 和 DeepSeek 仍然最强势。
看技术追赶速度，Kimi、GLM、MiniMax、StepFun、小米 MiMo 这些玩家依然值得关注。

DeepSeek 还算“现象级公司”吗？

算，但它的价值已经不只在用户规模，而在于它改变了整个行业对开源推理模型、蒸馏和成本结构的预期。即便未来它的消费级排名波动，它的技术品牌效应短期内仍然很难被忽视。

中国大厂会不会最终吃掉所有创业公司？

大厂会继续扩大优势，但创业公司未必没有机会。前提是它们不能只做“大厂也能做的通用助手”，而要在代码、Agent、长上下文、多模态或企业交付上建立更尖锐的差异。

中国 LLM 接下来最值得看什么？

我会重点看四件事：

谁能把 Agent 真正做进高频工作流，而不是停留在演示。
谁能把开源模型变成开发者默认底座。
谁能在合规前提下把模型铺进更多行业场景。
谁能在受限算力条件下继续把推理成本打下来。

中国 LLM 现状观察：模型、产品与生态正在如何重排

核心判断

为什么 Reddit 只说对了一半？

1. 先看最容易被忽略的一层：用户入口