DeepSeek V4实测：百万上下文+原生多模态，到底强在哪？

作者： AI一族

发布时间： 2026年03月07日

阅读时长：约 20 分钟

正文内容

等了整整一年，DeepSeek终于交出了新答卷。参数没堆到万亿，但每一项升级都打在痛点上。

2月11号那天，我照常打开DeepSeek网页版，随手问了句“你的上下文是多少”。

回了一句：“约100万token。”

我愣了一下。前一天还是128K，一夜之间扩了8倍。

没有发布会，没有通稿，甚至连版本号都没换——就这么静悄悄地上线了。

后来才知道，这只是开胃菜。真正的主角V4和V4 Lite，正在保密测试阶段憋大招。这几天各路爆料满天飞，我从一堆信息里扒出最关键的几条，今天一次性说清楚。

一、先说结论：这次升级，到底值不值得等？

直接把几个核心变化列出来，你看完心里就有数了。

规格项	DeepSeek V3.2	DeepSeek V4 Lite（泄露）	DeepSeek V4（传闻）
上下文窗口	128K tokens	100万tokens（原生）	100万tokens以上
多模态支持	❌ 纯文本	✅ 原生多模态	✅ 全模态（图/视/文）
参数规模	~6850亿（MoE）	~2000亿	可能突破1万亿
编程能力	基准水平	超越Claude Opus 4.6	83.7% SWE-bench（待核实）
国产算力适配	通用适配	优先华为、寒武纪	深度绑定国产芯片
发布状态	已上线	NDA保密测试中	预计3月初发布

看到这你可能想问：Lite和完整版到底啥区别？

简单说，V4 Lite是“先遣队”——先放个小而美的版本出来跑，收集反馈，压测服务器。完整版V4据说参数可能破万亿，是真正的“大杀器”。

二、百万上下文：从“读短文”到“啃全书”

先说最直观的变化：上下文窗口。

128K到100万，数字上翻了8倍。但普通人不太关心参数，只关心一件事：这玩意对我有啥用？

这么说吧：

以前你让AI分析一本书，得拆成十几段，一段段喂，还得担心它忘了前面说的。现在呢？直接扔一本《三体》三部曲进去，它一口吞下，还能告诉你第三部第15章那个伏笔，其实在第一部第3章就埋下了。

实测显示，在100万token长度的“大海捞针”测试中，V4 Lite的准确率超过60%。啥意思？就是在百万字的文档里随机挖个“针”（一个关键信息），它能给你找出来。

这对程序员来说更是福音。以前让AI分析整个项目代码库，它聊着聊着就失忆。现在一个中大型GitHub仓库扔进去，它能从头到尾理解完，再帮你重构。

有个开发者测试了V4 Lite在编程任务上的表现——让它模拟“大象牙膏”物理实验。结果出来的代码，不仅在逻辑上对，运行效率也高。

三、原生多模态：不是“外挂眼睛”，是“天生就会看”

如果说上下文升级是“量的飞跃”，那原生多模态就是“质的革命”。

DeepSeek之前的V3系列全是纯文本模型。后来那个能看图的DeepSeek-VL，是单独一条产品线，相当于给文本模型“外挂”了个眼睛。

而V4 Lite不一样——文本和视觉理解，从预训练阶段就揉在一起学。

这区别大了。

外挂眼睛的模型，看图和想事儿是分开的。先让视觉模块把图转成文字描述，再扔给文本模块理解。中间一传话，信息就丢了。

原生多模态的模型，看图和想事儿是同一个大脑。它能真正理解“图里在说什么”，也能生成“符合语义的图像内容”。

实测最能说明问题。网友用V4 Lite生成了两张SVG图：

“骑自行车的鹈鹕”：42行代码，画面构图自然，鹈鹕真的在“骑”车
“Xbox 360手柄”：54行代码，按键布局、摇杆位置全对

最关键的是——这是在非思考模式下生成的。V3.2在思考模式下都做不到这水平。

什么意思？以前让AI画图，你得求它、引导它、给它铺思路。现在一句话，它秒懂。

想了解多模态模型的更多应用，可以看看 AI前沿趋势 系列里的最新解读。

四、编程能力：真要挑战Claude的王座了？

2025年Claude封神，成了程序员圈公认的“代码之王”。GPT系列都得往后稍稍。

但现在，这个格局可能要动一动了。

据泄露的内部基准测试，V4在SWE-bench Verified上拿了83.7%。这个分数啥概念？

Claude Opus 4.5：80.9%
GPT-5.2：80%
DeepSeek V3.2 Thinking：73.1%

直接登顶。

当然，这个分数后来被质疑是伪造的——因为发布方的官方评分系统里，不可能有模型拿到99.4%的AIME分数。

但抛开具体数字，有几个信号是确定的：

第一，DeepSeek内部确实在重点攻坚编程能力。知情人士透露，V4在编程任务上的表现已经超越了目前的主流闭源模型。

第二，V4支持“仓库级推理”。能理解一个文件改了之后，会影响项目里哪些其他文件。这对处理大型代码库的开发者来说，是真正的生产力解放。

第三，引入了新的记忆机制。据说叫Engram，能实现近乎无限的上下文检索，在大型代码库中保持上下文连贯。

关于AI编程的最新进展，可以参考 AI编程工具教程 系列里的实战测评。

五、国产算力适配：这次优先给了华为，没给英伟达

这可能是V4最“不讲武德”的一步。

按行业惯例，任何顶级大模型发布前，都要优先给英伟达送测，联合优化驱动。DeepSeek这次偏不。

消息称，V4在测试阶段未向英伟达、AMD提供早期访问权限，而是首次优先向华为、寒武纪开放。

这意味着什么？

国内芯片厂商提前几周拿到模型，可以做深度适配——部署优化、编译调优、推理加速。等正式发布时，国产芯片上跑V4的效果，可能比国外芯片还顺。

这不是小打小闹的“兼容”，而是实打实的“深度绑定”。华为昇腾、寒武纪的生态伙伴（拓维信息、神州数码等）都可能因此受益。

一位业内人士评价：以前是“用别人的芯片跑自己的模型”，现在是“用自己的芯片跑自己的模型”。这一步迈出去，回不了头了。

想了解国产算力产业链的更多信息，可以看看 AI行业峰会 系列里的深度报道。

六、冷静一下：哪些还不确定？

说了这么多“强在哪”，也得说说“哪些还不确定”。

第一，发布时间一推再推。最早说2月17号，后来说2月底，再后来传3月初。最新的说法是V4将在3月首周发布，同时推出一份简短技术说明，一个月后发更全面的报告。

第二，泄露的基准测试真实性存疑。前面提到的83.7% SWE-bench和99.4% AIME，已经被扒出是伪造的图片。真正有说服力的，是可复现的运行细节——测试线束怎么配的？失败案例怎么处理的？这些都没公开。

第三，V4 Lite的参数量是“取舍版”。约2000亿的参数，比V3.2的6850亿少了不少。轻量意味着某处有妥协，妥协在哪？目前还不明朗。

第四，SVG测试不代表全部能力。能画手柄和鹈鹕，不代表多步骤推理、复杂代码生成也能打。那得等正式发布后全面测试。

写在最后：DeepSeek的剧本，总比别人快一步

回顾DeepSeek的迭代史，你会发现一个规律：悄悄憋大招，突然震全场。

V2推MLA机制，V3确立MoE架构，R1专注推理，V3.2融合深度思考。每一次，都是外界刚消化完上一代，下一代就悄悄跑完内测了。

这次的V4/V4 Lite，百万长上下文+原生多模态+国产算力优先适配，三张牌同时打出来。若后续全面测试能验证泄露说法，它将是2026年迄今最具冲击力的开源模型发布——不仅对OpenAI、Anthropic构成直接威胁，也为整个国产AI生态注入一剂强心针。

至于V4到底能强到什么程度，下周见分晓。

想第一时间收到DeepSeek V4的实测报告？

📚 DeepSeek系列教程持续更新
🔧 体验更多AI工具，请访问 AI工具大全
🏠 收藏 AI一族官网，不错过每一次更新

我的AI导航

我的AI导航

DeepSeek V4实测：百万上下文+原生多模态，到底强在哪？

正文内容

一、先说结论：这次升级，到底值不值得等？

二、百万上下文：从“读短文”到“啃全书”

三、原生多模态：不是“外挂眼睛”，是“天生就会看”

四、编程能力：真要挑战Claude的王座了？

五、国产算力适配：这次优先给了华为，没给英伟达

六、冷静一下：哪些还不确定？

写在最后：DeepSeek的剧本，总比别人快一步

文章评分

这篇文章对您有帮助吗？

DeepSeek V4实测：百万上下文+原生多模态，到底强在哪？

正文内容

一、先说结论：这次升级，到底值不值得等？

二、百万上下文：从“读短文”到“啃全书”

三、原生多模态：不是“外挂眼睛”，是“天生就会看”

四、编程能力：真要挑战Claude的王座了？

五、国产算力适配：这次优先给了华为，没给英伟达

六、冷静一下：哪些还不确定？

写在最后：DeepSeek的剧本，总比别人快一步

文章评分

这篇文章对您有帮助吗？

分享到

实用功能

我的笔记

文章内搜索

相关文章推荐

反馈建议

分享二维码

操作成功