← Back to Blog
By GenCybers.inc

中国 LLM 现状观察:模型、产品与生态正在如何重排

基于 Reddit 帖子、官方模型发布、QuestMobile 与监管数据,梳理截至 2026 年 3 月中国 LLM 的真实格局:谁掌握用户入口,谁主导开源生态,谁在 Agent 时代继续留在牌桌上。

中国 LLM 现状观察:模型、产品与生态正在如何重排

更新日期:2026 年 3 月 24 日

The current state of the Chinese LLMs scene 本文的起点,是 Reddit 的 r/LocalLLaMA 板块上一则帖子:The current state of the Chinese LLMs scene。帖中把中国厂商大致分成大厂、DeepSeek 和“六小虎”三层。这个框架适合快速入门,但如果只停留在论坛视角,就会漏掉一个更关键的现实:今天的中国 LLM 竞争,早已不是单一排行榜上的排序,而是用户入口、开源模型、商业化能力、Agent 工作流,以及监管与算力约束共同作用的多线竞争。

如果你只看 LocalLLaMA,很容易得出“DeepSeek 和 Qwen 几乎定义了一切”的结论;如果你只看国内 App 数据,又会觉得“豆包才是压倒性的赢家”。这两种判断都不算错,但它们说的是不同层面的胜负。今天的中国 LLM,更像一张正在快速重排的分层地图,而不是一张谁高谁低的一维榜单。

核心判断

  • 消费级入口层面,字节跳动的豆包仍是最强玩家之一,而且优势主要来自流量分发与产品触达,而不是论坛里的模型声量。
  • 开源与开发者生态层面,阿里的 Qwen 和 DeepSeek 依然是最有全球影响力的两条主线。
  • 创业公司没有出局,但赢法已经从“做一个通用聊天模型”转向“做 Agent、代码、长上下文、多模态或行业化差异”。
  • 一个正在迅速成形的新战场,是 Claude Code 式的 coding agent 工作流,以及围绕 OpenClaw 展开的更广义 agent 框架生态;本质上争夺的是谁能成为终端、IDE 和工具链里的默认模型后端。
  • 中国 LLM 行业的真正门槛,越来越不是“谁能训练出一个模型”,而是“谁能把模型放进真实产品、合规上线,并长期承受算力与推理成本”。

为什么 Reddit 只说对了一半?

这篇名为 The current state of the Chinese LLMs scene 的 Reddit 帖子,确实抓住了两个关键事实。

第一,中国厂商在开源发布节奏上确实非常激进。从 2025 年到 2026 年,你几乎每隔几周就能看到新的开源权重、技术报告、推理模型或 agent 模型上线。Qwen、DeepSeek、Kimi、GLM、MiniMax、StepFun、ByteDance Seed,以及帖子里没有充分展开的小米 MiMo,都在持续发布新版本,这一点论坛观察没有问题。

第二,中国市场里确实同时存在“大厂 + 明星创业公司”的双层结构。这和美国市场由极少数超大模型公司主导舆论的观感明显不同。

但它说得还不够完整的地方在于:中国 LLM 的“最强”从来不是一个维度。

  • 如果你问“谁在国内拿到最多普通用户”,答案更接近豆包。
  • 如果你问“谁在全球开源社区影响最大”,答案通常会落到 Qwen 和 DeepSeek。
  • 如果你问“谁最擅长把模型嵌进既有业务场景”,腾讯、阿里、百度、字节这些大厂的优势比论坛讨论大得多。
  • 如果你问“谁最有可能靠单点能力形成突破”,答案又会回到 Kimi、GLM、MiniMax、StepFun 这些创业公司身上。

所以,与其把中国 LLM 看成一个榜单,不如把它理解成一张分层地图。入口、模型、生态、工具链和商业化能力,正在以不同速度重排。

1. 先看最容易被忽略的一层:用户入口

截至 2025 年 6 月,中国生成式 AI 用户已经达到 5.15 亿,渗透率 36.5%;这意味着中国 LLM 竞争早就不只是技术圈的小众话题,而是进入了大众使用阶段。
来源:中国政府网 / Xinhua,2025-10-18

QuestMobile 在 2026 年 3 月 3 日发布的 2025 年 AI 应用层报告,进一步给出了一组值得注意的数据:截至 2025 年 12 月,国内 移动端 AI 应用月活达到 7.22 亿手机厂商 AI 助手达到 5.59 亿PC 端 AI 应用达到 2.05 亿。同一份报告还指出,豆包自 2025 年 8 月起反超 DeepSeek 后,稳居第一
来源:QuestMobile,2026-03-03

更具体一点看,199IT/新浪科技转述 QuestMobile 数据称,到了 2026 年 2 月 4 日,豆包在 AIGC 原生应用赛道的用户规模已达到 2.27 亿,领先 DeepSeek 接近 1 亿;而 DeepSeek 在网页端同比增速达到 1250.7%,显示出它在开发者与高频生产力用户中的穿透力。
来源:新浪科技转述 QuestMobile,2026-02-04

这组数据说明了一件很重要的事:国内用户入口的赢家,和开源社区的赢家,并不是同一批公司。

豆包之所以强,并不只是因为模型本身,而是因为它背后有抖音、剪映、火山引擎以及更强的分发体系。DeepSeek 的强,则更多体现在技术品牌、开发者心智、网页端和 API 使用习惯上。两者并不完全处在同一赛道。

2. 开源生态里,中国厂商确实已经是最活跃的主力阵营

如果把视角切回模型社区,Reddit 的直觉就会变得更准确。

Qwen 仍是最稳的开源基座之一,但产品重心已经更新到 Qwen3.5

qwen 3.5

阿里在 2025 年 4 月 29 日发布 Qwen3 时,一次性开出了两条 MoE 和六条 dense 模型线,并明确以 Apache 2.0 许可开放权重。Qwen3-235B-A22B 是 235B 总参数、22B 激活参数的 MoE,Qwen3-30B-A3B 则把小体积高效率路线继续做深。
来源:Qwen3 官方博客,2025-04-29

随后在 2025 年 7 月 22 日,阿里又发布了 Qwen3-Coder-480B-A35B-Instruct,原生支持 256K 上下文,并可扩展到 1M,同时直接围绕 Claude Code、Cline、OpenAI 兼容接口等开发者工作流来设计。
来源:Qwen3-Coder 官方博客,2025-07-22

但如果把时间推进到 2026 年 3 月,Qwen 的对外叙述已经不能只停留在 Qwen3。阿里云公开文档显示:

  • Qwen3.5 系列已经成为最新一代视觉理解与混合思考主线,其中 qwen3.5-plusqwen3.5-flash 默认支持思考模式;开源侧则列出了 qwen3.5-397b-a17bqwen3.5-122b-a10bqwen3.5-27bqwen3.5-35b-a3b
    来源:阿里云百炼《深度思考》文档
  • Qwen3.5 是原生多模态系列。阿里云视觉理解文档明确把 Qwen3.5 定义为“最新一代视觉理解模型”,并将 qwen3.5-plus 作为性能最强、推荐优先使用的版本。
    来源:阿里云百炼《如何使用 Qwen3.5 模型实现视觉理解》
  • 商业旗舰侧,qwen3-max-2026-01-23 仍然是阿里公开文档中的 Max 级可用模型,和 qwen3.5-plus 一起出现在最新模型支持列表里。
    来源:阿里云百炼《Claude Code》接入文档

换句话说,Qwen3 是这轮开源爆发的重要起点,但截至 2026 年 3 月,真正代表阿里当前产品重心的,已经是“Qwen3 开源底座 + Qwen3.5 原生多模态 + qwen3-max 商业旗舰”这套组合。

DeepSeek 仍是影响力最大的技术品牌之一

DeepSeek-R1 在 2025 年 1 月 20 日发布时,官方明确强调模型与代码以 MIT License 开放,且 API 输出可以用于微调和蒸馏。
来源:DeepSeek-R1 官方发布,2025-01-20

这件事的重要性不只是“又多了一个强模型”,而是它把低成本推理、开放蒸馏、强化学习叙事一起推上了台面。此后无论你是否真的在用 DeepSeek,整个行业都开始更严肃地谈“开源推理模型到底能不能成为商业默认选项”。

创业公司并没有掉队,而且版本线还在继续向前

如果只看论坛热度,很容易误判为“除了 Qwen 和 DeepSeek,其他都在陪跑”。但官方发布节奏并不支持这个结论。

  • Moonshot / Kimi K2.5:Kimi K2.5 已经取代早期 K2,官方将其定义为 open-source, native multimodal agentic model,在 K2-Base 之上继续预训练约 15T 视觉与文本混合 token;模型为 1T 总参数、32B 激活参数,支持 256K 上下文。
    来源:MoonshotAI/Kimi-K2.5 GitHub
  • Z.ai / GLM-5:智谱最新旗舰已经从 GLM-4.5 推进到 GLM-5。官方文档把它定位为面向 Agentic Engineering 的旗舰基座模型,给出 200K 上下文、128K 最大输出,并在详细介绍中写明新基座已扩展到 744B 总参数、40B 激活参数
    来源:智谱 AI 开放文档:GLM-5
  • MiniMax-M2.7:截至 2026 年 3 月 18 日,MiniMax 官方最新文本旗舰已经更新到 MiniMax M2.7。官方将其描述为首个“深度参与自身进化”的模型,强调复杂 agent harness、Agent Teams、动态工具搜索、软件工程和专业办公任务;新闻页给出的基准包括 SWE-Pro 56.22%VIBE-Pro 55.6%Terminal Bench 2 57.0%
    来源:MiniMax 官方新闻:MiniMax M2.7
  • StepFun / Step-3.5-Flash:如果按 2026 年 2 月底的官方文档和模型卡来看,StepFun 当前最值得关注的开源版本仍是 step-3.5-flash。StepFun 官方把它称为“最强大的开源基座模型”,支持 256K 上下文、196B 总参数 / 11B 激活参数,而且已经明确写进了 Claude Code、Codex 与 agent 平台接入说明。
    来源:StepFun 模型能力总览
    来源:Step 3.5 Flash 模型卡
  • Xiaomi / MiMo-V2-Pro 与 MiMo-V2-Omni:小米并没有缺席这轮竞赛,而且版本线已经推进到 MiMo-V2-ProMiMo-V2-Omni。其中,MiMo-V2-Pro 是面向真实 agent 工作负载的旗舰基座,官方写明其参数规模 超过 1T,总激活参数 42B,支持 1M token context,并明确把目标从 coding 延伸到 clawMiMo-V2-Omni 则是统一图像、视频、音频与文本的多模态 agent 基座,强调原生结构化 tool calling、function execution 与 UI grounding。
    来源:Xiaomi MiMo-V2-Pro 官方页面
    来源:Xiaomi MiMo-V2-Omni 官方页面

基于这些官方发布,一个更接近现实的判断是:中国开源 LLM 生态并不是“Qwen + DeepSeek 两家独大,其他不存在”,而是已经形成了头部双强 + 多家追赶者持续迭代的供给结构。 而且,这些追赶者的新版本并没有停在 2025 年中。小米 MiMo 的存在,本身就说明“中国 LLM”不该只盯着传统 AI 创业公司名单。

大厂也在持续推进,只是打法和创业公司不同

这里也需要特别说明一点:字节并不应该被归进“创业公司”一栏。 更准确的写法是,字节、腾讯、百度、阿里这些大厂,正在沿着“商业前线快速迭代 + 选择性开放部分模型或工具链”的方式推进。

  • ByteDance / Seed 2.0 与 Seed-OSS:截至 2026 年 2 月 14 日,字节通用模型的最新产品线已经推进到 Seed 2.0。官方页面把它定义为包含 Pro、Lite、Mini 三个尺寸的通用 agent 模型系列,强调大规模生产部署、多模态理解、长链任务与高经济价值工作负载。
    不过,截至 2026 年 3 月 24 日,我能查到的官方公开资料显示,Seed 2.0 并没有同步发布公开权重仓库;字节当前明确开源的主线仍是 Seed-OSSSeed1.5-VL。这一判断基于 Seed 2.0 官方发布页与 ByteDance Seed 官方 GitHub 组织页。
    来源:ByteDance Seed 2.0 官方页面
    来源:Seed 2.0 Official Launch
    来源:ByteDance-Seed GitHub 组织页
    来源:ByteDance-Seed/seed-oss GitHub
  • 腾讯、百度的情况也类似:它们在商业 API、企业接入、Agent 工具链和云平台整合上推进得很快,但论坛热度通常不如开源社区里的 Qwen 或 DeepSeek 那么集中。

3. 真正的胜负手,已经从“聊天能力”转向 Agent 与工作流

abstract pattern of brown lines on a light blue background Eugene Golovesov / Unsplash

2024 年大家还在比聊天体验和基准分数,到了 2025-2026 年,竞争焦点已经明显右移。

一个非常直观的证据是,各家新模型都在强调下面这些关键词:

  • agentic coding
  • tool use
  • OpenAI-compatible API
  • Anthropic-compatible API
  • long context
  • multimodal reasoning

例如,Qwen3-Coder 直接围绕 Claude Code 和 Cline 去做适配;腾讯混元则在 2026 年 1 月同时提供了 OpenAI 兼容接口Anthropic 兼容接口文档。
来源:腾讯混元 OpenAI 兼容接口文档
来源:腾讯混元 Anthropic 兼容接口文档

阿里的最新文档也在同一个方向上继续推进。2026 年 3 月的百炼与 Coding Plan 文档里,qwen3.5-pluskimi-k2.5glm-5MiniMax-M2.5 都已经被当成面向编程工具的可接入模型来组织,而不再只是面向“聊天网页”的产品。这里也能看出一个现实:模型厂商自己的最新旗舰,和第三方云平台当前开放接入的版本,不一定完全同步。
来源:阿里云百炼《Coding Plan 概述》

更准确地说,这里对应的是两条正在汇合的路线:一条是 Claude Code 式 coding agent 工作流,另一条是以 OpenClaw / ClawEval / PinchBench 为代表的更广义 agent 评测与框架生态。换句话说,大家争的不只是“谁会写代码”,而是“谁能接管一整套可执行工作流”。从国内厂商最近的动作来看,这一点已经非常明显:

  • 阿里云百炼直接提供了 Claude Code 接入文档,并在示例里要求把 ANTHROPIC_BASE_URLANTHROPIC_MODEL 指向 qwen3.5-plus
    来源:阿里云百炼《Claude Code》文档
  • 智谱 GLM不只支持 Claude Code,而且官方 FAQ 明确写了 GLM Coding Plan 对 Claude Code 的模型映射方式,并说明 Max、Pro 套餐已支持 GLM-5
    来源:智谱 AI:Claude Code 文档
    来源:智谱 AI:GLM Coding Plan FAQ
  • Kimi虽然没有把“Claude Code 兼容”写成最显眼的标题,但其公开博客已经持续围绕 Agentic Coding、工具调用、MCP server 和 Kimi Playground 展开。
    来源:Kimi K2 模型更新:更强代码能力
    来源:Kimi Playground:工具调用能力
  • StepFun连模型卡都已经把 Claude Code & Codex 单列成集成章节,这说明它不是把 agent 兼容性当成附属功能,而是直接当成模型卖点来经营。
    来源:Step 3.5 Flash 模型卡
  • 百度这条线更偏“基础设施化”:百度千帆已经推出面向 Claude Code 等工具的 Coding Plan,同时百度云文档还在持续推动 OpenClaw 的快速部署和接入企业微信、QQ、钉钉等场景。
    来源:百度千帆 Coding Plan
    来源:快速部署 OpenClaw
  • 小米 MiMo-V2-Pro / Omni 则更像是从模型底座层直接押注 coding、claw 与多模态 agent workflows。前者主打大规模 agent 任务和超长上下文,后者把能力扩展到图像、视频、音频与 UI grounding。
    来源:Xiaomi MiMo-V2-Pro 官方页面

更关键的是,小米把这件事写得比很多厂商都更直白。MiMo-V2-Pro 页面直接写出“generalizing from coding to claw”,并把 OpenClaw 称为“正在开源社区快速升温的通用 agent 框架”;官方还给出 PinchBench #3 globallyClawEval #3 globally 的结果。与此同时,MiMo-V2-Omni 则把这条路线从文本和代码扩展到图像、视频、音频与 UI grounding。这也说明,国内厂商讨论的已经不只是代码补全,而是更广义的可执行 agent。
来源:Xiaomi MiMo-V2-Pro 官方页面
来源:Xiaomi MiMo-V2-Omni 官方页面

这件事的意义在于:国内厂商已经不再满足于“我的模型分数不错”,而是在争夺一个更具体的位置:谁能成为 Claude Code、Cline、MCP、终端代理、企业编程助手这一整套新工作流里的默认后端。

这背后对应的是一个更大的趋势:今天中国 LLM 厂商争抢的,不只是模型排行榜上的位置,而是开发者的默认接入层。

谁能先进入 IDE、Agent 框架、企业工作流、办公协同和云平台,谁就更有机会把模型能力变成可持续收入。单纯做一个“回答不错的聊天机器人”,已经不够了。

4. 大厂为什么越来越占优?

Reddit 讨论里常把大厂和创业公司并列看待,但现实是,随着模型能力逐渐接近、成本和合规压力上升,大厂的优势正在被重新放大。

大厂拥有更完整的商业闭环

以字节为例,火山引擎在 2025 年 4 月披露,截至 2025 年 3 月底,豆包大模型日均 token 调用量已超过 12.7 万亿,是 2024 年 12 月的 3 倍,是一年前的 106 倍;到豆包 2.0 发布时,官方又表示其日均 Tokens 使用量较发布之初已增长 500 倍以上
来源:豆包 1.5·深度思考模型发布,2025
来源:豆包 2.0 正式发布

这意味着字节已经不是“有一个强模型”,而是已经拥有一套完整的模型商业闭环:

  • 消费级 App 入口
  • 企业 API 平台
  • 云基础设施
  • 多模态产品矩阵
  • 和既有内容生态的联动能力

如果把时间推进到 2026 年 3 月,几家大厂的模型产品线大致可以整理如下:

  • 字节跳动:通用模型的最新主线是 Seed 2.0,强调 Pro / Lite / Mini 三档 agent 模型和真实生产部署;但当前明确开源的主线仍是 Seed-OSS / Seed1.5-VL
  • 腾讯:腾讯云产品概述里最新通用文生文已经推进到 Tencent HY 2.0 ThinkTencent HY 2.0 Instruct;推理线还有 hunyuan-t1-latest,开源侧则可见 Hunyuan-A13BHunyuan-Large 两条 MoE 路线。
    来源:腾讯混元产品概述
    来源:Tencent-Hunyuan/Hunyuan-A13B
    来源:Tencent-Hunyuan-Large
  • 百度:商业前线已经是 ERNIE 5.0 正式版 / ERNIE 5.0 Thinking Preview / ERNIE X1.1 Preview / ERNIE 4.5 Turbo 这条组合线,其中文心 5.0 已被百度定义为“原生全模态大模型”;而公开开源主线仍主要是 ERNIE 4.5 家族。
    来源:百度千帆模型服务页
    来源:文心 5.0 Preview 新闻
    来源:PaddlePaddle/ERNIE

阿里、腾讯、百度也都在走同样的大方向。对它们来说,LLM 不是一个孤立业务,而是会嵌进电商、搜索、社交、办公、云服务、内容分发,甚至硬件入口。

顺带一提,阿里云在 2026 年 3 月 20 日之后已经停止接受 Coding Plan Lite 的新购订单,当前公开文档主推的是 Pro 套餐。这个细节同样说明,模型竞争已经不只是“谁更强”,而是“谁能把最强模型包装进一套面向开发者和企业的稳定供给体系”。
来源:阿里云百炼《Coding Plan 概述》

创业公司必须更尖锐地定义自己

这并不意味着创业公司没有机会,而是说,机会已经不再来自“我也有一个通用大模型”。

更现实的路径通常是:

  • 在代码、agent、长上下文、多模态上做单点突破
  • 用开源权重换开发者生态和品牌声量
  • 用更低推理成本切入 API 市场
  • 用行业化部署、私有化交付或企业方案建立收入

换句话说,创业公司当然还在牌桌上,但竞争重点已经从“造模型”转向“找到可落地的切入口”。

5. 监管与算力,不是背景板,而是塑形力量

很多英文讨论会把中国 LLM 的成功主要归结为“工程执行力”或“开源策略”,但如果忽略政策与算力约束,这个图景就会失真。

监管没有阻止发展,但深刻影响了产品形态

国家网信办在 2026 年 1 月 9 日公告称,截至 2025 年 12 月 31 日,累计已有 748 款生成式人工智能服务完成备案,另有 435 款应用或功能完成登记
来源:国家网信办,2026-01-09

这意味着中国市场不是“谁做出来就能直接放量”,而是天然要面对备案、登记、上线披露、场景合规等现实流程。其结果是:

  • 大厂更有能力承担合规成本
  • 云厂商更容易成为行业基础设施
  • 面向公众的大模型产品,会更强调稳定、可控和落地场景

算力约束也在倒逼效率导向

NVIDIA 在 2025 年 5 月 28 日的财报中披露,美国政府在 2025 年 4 月 9 日通知其,H20 产品出口中国需要许可证;因此公司在 2025 财年第一季度确认了 45 亿美元相关费用,并且还有 25 亿美元原本预期收入未能发货。
来源:NVIDIA 2025 财年 Q1 财报

这并不等于“中国公司就没法继续训练模型”,但它确实解释了为什么中国厂商在 2025-2026 年如此执着于这些方向:

  • 稀疏 MoE
  • 更低激活参数
  • 更长上下文下的高效率推理
  • 开源后让社区共同优化部署

所以,中国 LLM 的一个鲜明特征是:不仅要比拼能力,也要比拼效率。

6. 截至 2026 年 3 月,我对中国 LLM 格局的判断

如果要用一句话总结,我会这样说:

中国 LLM 不是“谁是中国版 OpenAI”的故事,而是“谁能同时拿下模型、渠道、工具链和合规能力”的故事。

更具体一点:

  • 豆包更像当前国内消费级入口最强的玩家之一。
  • 字节 Seed 的最新通用前线已经是 Seed 2.0,但当前公开开源主线仍主要是 Seed-OSS
  • Qwen更像中国开源基础模型和开发者生态的“公共底座”,但产品前线已经从 Qwen3 延伸到 Qwen3.5 Plus / Max
  • DeepSeek仍然是最具技术品牌效应的开源推理代表。
  • 腾讯混元 2.0文心 5.0 / X1.1 Preview 在真实业务与企业接入层面值得更高重视,它们在论坛热度上未必最强,但绝不是边缘玩家。
  • Kimi K2.5、GLM-5、MiniMax-M2.7、StepFun、小米 MiMo-V2-Pro / Omni 还在牌桌上,而且仍可能在代码、Agent、长上下文或多模态上继续突破。
  • 腾讯、百度未必在论坛讨论里最热,但在真实业务场景与分发体系里不容低估。

这也是为什么我不太认同“六小虎很快都会消失”这种过于简单的判断。更准确的说法可能是:

通用聊天模型会越来越拥挤,但围绕 Agent、工具调用、垂直行业、企业交付和多模态工作流的新分层,反而还远没定局。

FAQ

中国 LLM 现在到底是谁最强?

要先定义“强”的维度。

  • 看国内普通用户入口,豆包的领先更明显。
  • 看全球开源开发者影响力,Qwen 和 DeepSeek 仍然最强势。
  • 看技术追赶速度,Kimi、GLM、MiniMax、StepFun、小米 MiMo 这些玩家依然值得关注。

DeepSeek 还算“现象级公司”吗?

算,但它的价值已经不只在用户规模,而在于它改变了整个行业对开源推理模型、蒸馏和成本结构的预期。即便未来它的消费级排名波动,它的技术品牌效应短期内仍然很难被忽视。

中国大厂会不会最终吃掉所有创业公司?

大厂会继续扩大优势,但创业公司未必没有机会。前提是它们不能只做“大厂也能做的通用助手”,而要在代码、Agent、长上下文、多模态或企业交付上建立更尖锐的差异。

中国 LLM 接下来最值得看什么?

我会重点看四件事:

  1. 谁能把 Agent 真正做进高频工作流,而不是停留在演示。
  2. 谁能把开源模型变成开发者默认底座。
  3. 谁能在合规前提下把模型铺进更多行业场景。
  4. 谁能在受限算力条件下继续把推理成本打下来。

相关资源

来源声明

本文来自 merchmindai.net。分享或转载本文时,请注明出处,并附上原文链接。

原文链接:https://merchmindai.net/blog/zh/post/china-llm-landscape-2026