正文内容
等了整整一年,DeepSeek终于交出了新答卷。参数没堆到万亿,但每一项升级都打在痛点上。
2月11号那天,我照常打开DeepSeek网页版,随手问了句“你的上下文是多少”。
回了一句:“约100万token。”
我愣了一下。前一天还是128K,一夜之间扩了8倍。
没有发布会,没有通稿,甚至连版本号都没换——就这么静悄悄地上线了。
后来才知道,这只是开胃菜。真正的主角V4和V4 Lite,正在保密测试阶段憋大招。这几天各路爆料满天飞,我从一堆信息里扒出最关键的几条,今天一次性说清楚。
一、先说结论:这次升级,到底值不值得等?
直接把几个核心变化列出来,你看完心里就有数了。
看到这你可能想问:Lite和完整版到底啥区别?
简单说,V4 Lite是“先遣队”——先放个小而美的版本出来跑,收集反馈,压测服务器。完整版V4据说参数可能破万亿,是真正的“大杀器”。
二、百万上下文:从“读短文”到“啃全书”
先说最直观的变化:上下文窗口。
128K到100万,数字上翻了8倍。但普通人不太关心参数,只关心一件事:这玩意对我有啥用?
这么说吧:
以前你让AI分析一本书,得拆成十几段,一段段喂,还得担心它忘了前面说的。现在呢?直接扔一本《三体》三部曲进去,它一口吞下,还能告诉你第三部第15章那个伏笔,其实在第一部第3章就埋下了。
实测显示,在100万token长度的“大海捞针”测试中,V4 Lite的准确率超过60%。啥意思?就是在百万字的文档里随机挖个“针”(一个关键信息),它能给你找出来。
这对程序员来说更是福音。以前让AI分析整个项目代码库,它聊着聊着就失忆。现在一个中大型GitHub仓库扔进去,它能从头到尾理解完,再帮你重构。
有个开发者测试了V4 Lite在编程任务上的表现——让它模拟“大象牙膏”物理实验。结果出来的代码,不仅在逻辑上对,运行效率也高。
三、原生多模态:不是“外挂眼睛”,是“天生就会看”
如果说上下文升级是“量的飞跃”,那原生多模态就是“质的革命”。
DeepSeek之前的V3系列全是纯文本模型。后来那个能看图的DeepSeek-VL,是单独一条产品线,相当于给文本模型“外挂”了个眼睛。
而V4 Lite不一样——文本和视觉理解,从预训练阶段就揉在一起学。
这区别大了。
外挂眼睛的模型,看图和想事儿是分开的。先让视觉模块把图转成文字描述,再扔给文本模块理解。中间一传话,信息就丢了。
原生多模态的模型,看图和想事儿是同一个大脑。它能真正理解“图里在说什么”,也能生成“符合语义的图像内容”。
- “骑自行车的鹈鹕”:42行代码,画面构图自然,鹈鹕真的在“骑”车
- “Xbox 360手柄”:54行代码,按键布局、摇杆位置全对
最关键的是——这是在非思考模式下生成的。V3.2在思考模式下都做不到这水平。
什么意思?以前让AI画图,你得求它、引导它、给它铺思路。现在一句话,它秒懂。
想了解多模态模型的更多应用,可以看看 AI前沿趋势 系列里的最新解读。
四、编程能力:真要挑战Claude的王座了?
2025年Claude封神,成了程序员圈公认的“代码之王”。GPT系列都得往后稍稍。
但现在,这个格局可能要动一动了。
据泄露的内部基准测试,V4在SWE-bench Verified上拿了83.7%。这个分数啥概念?
- Claude Opus 4.5:80.9%
- GPT-5.2:80%
- DeepSeek V3.2 Thinking:73.1%
直接登顶。
当然,这个分数后来被质疑是伪造的——因为发布方的官方评分系统里,不可能有模型拿到99.4%的AIME分数。
但抛开具体数字,有几个信号是确定的:
第一,DeepSeek内部确实在重点攻坚编程能力。知情人士透露,V4在编程任务上的表现已经超越了目前的主流闭源模型。
第二,V4支持“仓库级推理”。能理解一个文件改了之后,会影响项目里哪些其他文件。这对处理大型代码库的开发者来说,是真正的生产力解放。
第三,引入了新的记忆机制。据说叫Engram,能实现近乎无限的上下文检索,在大型代码库中保持上下文连贯。
关于AI编程的最新进展,可以参考 AI编程工具教程 系列里的实战测评。
五、国产算力适配:这次优先给了华为,没给英伟达
这可能是V4最“不讲武德”的一步。
按行业惯例,任何顶级大模型发布前,都要优先给英伟达送测,联合优化驱动。DeepSeek这次偏不。
消息称,V4在测试阶段未向英伟达、AMD提供早期访问权限,而是首次优先向华为、寒武纪开放。
这意味着什么?
国内芯片厂商提前几周拿到模型,可以做深度适配——部署优化、编译调优、推理加速。等正式发布时,国产芯片上跑V4的效果,可能比国外芯片还顺。
这不是小打小闹的“兼容”,而是实打实的“深度绑定”。华为昇腾、寒武纪的生态伙伴(拓维信息、神州数码等)都可能因此受益。
一位业内人士评价:以前是“用别人的芯片跑自己的模型”,现在是“用自己的芯片跑自己的模型”。这一步迈出去,回不了头了。
想了解国产算力产业链的更多信息,可以看看 AI行业峰会 系列里的深度报道。
六、冷静一下:哪些还不确定?
说了这么多“强在哪”,也得说说“哪些还不确定”。
第一,发布时间一推再推。最早说2月17号,后来说2月底,再后来传3月初。最新的说法是V4将在3月首周发布,同时推出一份简短技术说明,一个月后发更全面的报告。
第二,泄露的基准测试真实性存疑。前面提到的83.7% SWE-bench和99.4% AIME,已经被扒出是伪造的图片。真正有说服力的,是可复现的运行细节——测试线束怎么配的?失败案例怎么处理的?这些都没公开。
第三,V4 Lite的参数量是“取舍版”。约2000亿的参数,比V3.2的6850亿少了不少。轻量意味着某处有妥协,妥协在哪?目前还不明朗。
第四,SVG测试不代表全部能力。能画手柄和鹈鹕,不代表多步骤推理、复杂代码生成也能打。那得等正式发布后全面测试。
写在最后:DeepSeek的剧本,总比别人快一步
回顾DeepSeek的迭代史,你会发现一个规律:悄悄憋大招,突然震全场。
V2推MLA机制,V3确立MoE架构,R1专注推理,V3.2融合深度思考。每一次,都是外界刚消化完上一代,下一代就悄悄跑完内测了。
这次的V4/V4 Lite,百万长上下文+原生多模态+国产算力优先适配,三张牌同时打出来。若后续全面测试能验证泄露说法,它将是2026年迄今最具冲击力的开源模型发布——不仅对OpenAI、Anthropic构成直接威胁,也为整个国产AI生态注入一剂强心针。
至于V4到底能强到什么程度,下周见分晓。
想第一时间收到DeepSeek V4的实测报告?
- 📚 DeepSeek系列教程 持续更新
- 🔧 体验更多AI工具,请访问 AI工具大全
- 🏠 收藏 AI一族官网,不错过每一次更新