DeepSeek V4实测:百万上下文+原生多模态,到底强在哪?

正文内容

等了整整一年,DeepSeek终于交出了新答卷。参数没堆到万亿,但每一项升级都打在痛点上。

2月11号那天,我照常打开DeepSeek网页版,随手问了句“你的上下文是多少”。

回了一句:“约100万token。”

我愣了一下。前一天还是128K,一夜之间扩了8倍。

没有发布会,没有通稿,甚至连版本号都没换——就这么静悄悄地上线了。

后来才知道,这只是开胃菜。真正的主角V4和V4 Lite,正在保密测试阶段憋大招。这几天各路爆料满天飞,我从一堆信息里扒出最关键的几条,今天一次性说清楚。

一、先说结论:这次升级,到底值不值得等?

直接把几个核心变化列出来,你看完心里就有数了。

规格项DeepSeek V3.2DeepSeek V4 Lite(泄露)DeepSeek V4(传闻)
上下文窗口128K tokens100万tokens(原生)100万tokens以上
多模态支持❌ 纯文本✅ 原生多模态✅ 全模态(图/视/文)
参数规模~6850亿(MoE)~2000亿可能突破1万亿 
编程能力基准水平超越Claude Opus 4.6 83.7% SWE-bench(待核实)
国产算力适配通用适配优先华为、寒武纪 深度绑定国产芯片
发布状态已上线NDA保密测试中预计3月初发布

看到这你可能想问:Lite和完整版到底啥区别?

简单说,V4 Lite是“先遣队”——先放个小而美的版本出来跑,收集反馈,压测服务器。完整版V4据说参数可能破万亿,是真正的“大杀器”

二、百万上下文:从“读短文”到“啃全书”

先说最直观的变化:上下文窗口

128K到100万,数字上翻了8倍。但普通人不太关心参数,只关心一件事:这玩意对我有啥用?

这么说吧:

以前你让AI分析一本书,得拆成十几段,一段段喂,还得担心它忘了前面说的。现在呢?直接扔一本《三体》三部曲进去,它一口吞下,还能告诉你第三部第15章那个伏笔,其实在第一部第3章就埋下了

实测显示,在100万token长度的“大海捞针”测试中,V4 Lite的准确率超过60%。啥意思?就是在百万字的文档里随机挖个“针”(一个关键信息),它能给你找出来。

这对程序员来说更是福音。以前让AI分析整个项目代码库,它聊着聊着就失忆。现在一个中大型GitHub仓库扔进去,它能从头到尾理解完,再帮你重构

有个开发者测试了V4 Lite在编程任务上的表现——让它模拟“大象牙膏”物理实验。结果出来的代码,不仅在逻辑上对,运行效率也高

三、原生多模态:不是“外挂眼睛”,是“天生就会看”

如果说上下文升级是“量的飞跃”,那原生多模态就是“质的革命”。

DeepSeek之前的V3系列全是纯文本模型。后来那个能看图的DeepSeek-VL,是单独一条产品线,相当于给文本模型“外挂”了个眼睛

而V4 Lite不一样——文本和视觉理解,从预训练阶段就揉在一起学

这区别大了。

外挂眼睛的模型,看图和想事儿是分开的。先让视觉模块把图转成文字描述,再扔给文本模块理解。中间一传话,信息就丢了。

原生多模态的模型,看图和想事儿是同一个大脑。它能真正理解“图里在说什么”,也能生成“符合语义的图像内容”。

实测最能说明问题。网友用V4 Lite生成了两张SVG图

  • “骑自行车的鹈鹕”:42行代码,画面构图自然,鹈鹕真的在“骑”车
  • “Xbox 360手柄”:54行代码,按键布局、摇杆位置全对

最关键的是——这是在非思考模式下生成的。V3.2在思考模式下都做不到这水平

什么意思?以前让AI画图,你得求它、引导它、给它铺思路。现在一句话,它秒懂。

想了解多模态模型的更多应用,可以看看 AI前沿趋势 系列里的最新解读。

四、编程能力:真要挑战Claude的王座了?

2025年Claude封神,成了程序员圈公认的“代码之王”。GPT系列都得往后稍稍。

但现在,这个格局可能要动一动了。

据泄露的内部基准测试,V4在SWE-bench Verified上拿了83.7%。这个分数啥概念?

  • Claude Opus 4.5:80.9%
  • GPT-5.2:80%
  • DeepSeek V3.2 Thinking:73.1%

直接登顶。

当然,这个分数后来被质疑是伪造的——因为发布方的官方评分系统里,不可能有模型拿到99.4%的AIME分数

但抛开具体数字,有几个信号是确定的:

第一,DeepSeek内部确实在重点攻坚编程能力。知情人士透露,V4在编程任务上的表现已经超越了目前的主流闭源模型

第二,V4支持“仓库级推理”。能理解一个文件改了之后,会影响项目里哪些其他文件。这对处理大型代码库的开发者来说,是真正的生产力解放

第三,引入了新的记忆机制。据说叫Engram,能实现近乎无限的上下文检索,在大型代码库中保持上下文连贯

关于AI编程的最新进展,可以参考 AI编程工具教程 系列里的实战测评。

五、国产算力适配:这次优先给了华为,没给英伟达

这可能是V4最“不讲武德”的一步。

按行业惯例,任何顶级大模型发布前,都要优先给英伟达送测,联合优化驱动。DeepSeek这次偏不。

消息称,V4在测试阶段未向英伟达、AMD提供早期访问权限,而是首次优先向华为、寒武纪开放

这意味着什么?

国内芯片厂商提前几周拿到模型,可以做深度适配——部署优化、编译调优、推理加速。等正式发布时,国产芯片上跑V4的效果,可能比国外芯片还顺

这不是小打小闹的“兼容”,而是实打实的“深度绑定”。华为昇腾、寒武纪的生态伙伴(拓维信息、神州数码等)都可能因此受益

一位业内人士评价:以前是“用别人的芯片跑自己的模型”,现在是“用自己的芯片跑自己的模型”。这一步迈出去,回不了头了。

想了解国产算力产业链的更多信息,可以看看 AI行业峰会 系列里的深度报道。

六、冷静一下:哪些还不确定?

说了这么多“强在哪”,也得说说“哪些还不确定”。

第一,发布时间一推再推。最早说2月17号,后来说2月底,再后来传3月初。最新的说法是V4将在3月首周发布,同时推出一份简短技术说明,一个月后发更全面的报告

第二,泄露的基准测试真实性存疑。前面提到的83.7% SWE-bench和99.4% AIME,已经被扒出是伪造的图片。真正有说服力的,是可复现的运行细节——测试线束怎么配的?失败案例怎么处理的?这些都没公开。

第三,V4 Lite的参数量是“取舍版”。约2000亿的参数,比V3.2的6850亿少了不少。轻量意味着某处有妥协,妥协在哪?目前还不明朗。

第四,SVG测试不代表全部能力。能画手柄和鹈鹕,不代表多步骤推理、复杂代码生成也能打。那得等正式发布后全面测试。

写在最后:DeepSeek的剧本,总比别人快一步

回顾DeepSeek的迭代史,你会发现一个规律:悄悄憋大招,突然震全场

V2推MLA机制,V3确立MoE架构,R1专注推理,V3.2融合深度思考。每一次,都是外界刚消化完上一代,下一代就悄悄跑完内测了。

这次的V4/V4 Lite,百万长上下文+原生多模态+国产算力优先适配,三张牌同时打出来。若后续全面测试能验证泄露说法,它将是2026年迄今最具冲击力的开源模型发布——不仅对OpenAI、Anthropic构成直接威胁,也为整个国产AI生态注入一剂强心针。

至于V4到底能强到什么程度,下周见分晓。

想第一时间收到DeepSeek V4的实测报告?

文章评分

这篇文章对您有帮助吗?

分享到

微信
朋友圈
QQ
QQ空间
微博
抖音
小红书
复制
二维码

实用功能

夜间模式
小字
大字
收藏
目录
笔记
朗读
相关
搜索
我的笔记
文章内搜索
相关文章推荐
正在加载相关文章...

反馈建议

您需要登录后才能填写意见反馈信息

分享二维码

使用手机扫描二维码

操作成功