DeepSeek V4 Lite泄露:百万Token上下文+原生多模态,AI圈又要地震了?

正文内容

当一款AI模型能在10分钟内完成人类程序员5小时的编程测试,用54行代码画出Xbox手柄,并且还能“看懂”图片时,你猜华尔街会是什么反应?

就在刚刚过去的48小时,AI圈被同一个名字刷屏了:DeepSeek V4 Lite

这款尚未正式发布、代号“Sealion-lite”(海狮轻量版)的模型,已经通过多家媒体泄露了大量核心参数和实测表现 。从目前曝光的信息来看,这可能是2026年迄今为止最具冲击力的开源模型发布。


01 两项硬核升级:一步跨代

1. 上下文窗口:从128K飞跃至100万Token

这是最直观的数字冲击。DeepSeek V3.2的上下文窗口为128K tokens,而V4 Lite直接拉升至100万tokens,相当于整整扩大了近8倍 

100万tokens意味着什么?

粗略换算下来,约等于一次性处理750本中等篇幅小说、一个中大型GitHub代码仓库、或数小时的完整对话记录——AI在“记性”这件事上,正在以肉眼可见的速度向人类靠拢 

早在今年2月11日,DeepSeek曾悄然将生产环境模型的上下文窗口从128K升级至100万tokens,社区测试显示其在满额100万token长度的“大海捞针”检索任务中,准确率超过60% 。而V4 Lite将从架构层面原生支持这一规格,而非临时扩容打补丁。

2. 原生多模态:不是“外挂视觉”,是“骨子里就能看图”

相比上下文的数字跃迁,原生多模态的意义更具革命性。

DeepSeek的整个V3系列,清一色是纯文本模型。此前能看图的“DeepSeek-VL”属于独立模型线,和V3系列是两套不同架构 。而V4 Lite据报道将文本与视觉理解从预训练阶段就统一融合,视觉能力不再是“外挂插件”,而是大模型的内置器官 

这一点的重要性在于:原生多模态的文图对齐能力通常远优于拼接方案,模型能更精准地理解“图里在说什么”,也能更连贯地生成“符合语义的图像内容”。Gemini 3.1 Pro和GPT-5的实践已经证明,原生多模态是关闭图文性能差距的根本路径 

如果DeepSeek真的在开源权重模型中实现这一点,将是中国AI实验室在前沿多模态领域的重大突破。


02 实测曝光:54行代码画出Xbox手柄,碾压竞品

在多模态和代码生成能力方面,已有一批早期演示悄然流传。

测试人员用V4 Lite生成了 “骑自行车的鹈鹕” 和 “Xbox 360手柄” 的SVG图像代码 

  • Xbox 360手柄:仅用54行SVG代码完成,结构层次清晰,细节准确
  • 鹈鹕骑自行车:仅用42行SVG代码,多元素场景构图自然流畅

根据内部对比评估,这两项输出在代码精简度、逻辑组织和视觉还原度上均优于DeepSeek V3.2、Claude Opus 4.6以及Gemini 3.1 

更令人惊讶的是,V4 Lite在不开启思考模式下生成的图像,无论是贴合提示词的程度、物体形状的准确性,还是细节的丰富度,都明显优于前代V3.2版本的思考模式 

SVG测试并非全面评估,但它暗示了更深层的能力跃升:空间推理能力与结构化输出能力的同步提升,这两者恰好是多模态任务中至关重要的底层能力 

03 技术参数对比:一目了然

规格项DeepSeek V3.2DeepSeek V4 Lite(泄露)
上下文窗口128K tokens100万tokens(原生)
多模态支持❌ 纯文本✅ 原生多模态
参数规模(估算)~6850亿(MoE)~2000亿(未确认)
SVG代码生成基准水平超越V3.2 / Claude Opus 4.6 / Gemini 3.1
发布状态已上线NDA保密测试中

注:V4 Lite约2000亿参数的估算来自36kr消息,未经官方确认。相比之下,传闻中的完整版V4参数量可能突破1万亿 

04 行业地震:为什么华尔街在颤抖?

CNBC已发出警告:DeepSeek一旦正式发布新模型,可能触发类似V3发布时纳斯达克3%单日跌幅的市场反应,华尔街正屏息以待 

为什么一款AI模型的发布能让资本市场如此紧张?

因为DeepSeek上一次发布模型时,直接导致英伟达股价下跌17% 。如果V4再次展现出惊人的效率和能力,很可能会重演甚至加剧去年的投资者恐慌,对正在寻求巨额融资的美国AI公司和希望股价稳定的英伟达、谷歌等巨头构成直接威胁。

更让美国不安的是,路透社爆料:DeepSeek这次向某国产芯片厂商提供了V4的早期接入权限,而不是英伟达等美国算力霸主,直接打破了过去AI模型大版本发布前的行业惯例 。DeepSeek致力于优化V4模型以适配中国制造的芯片,此举有望提振中国市场对其半导体产品的需求,并加速AI模型“推理”环节靠拢本土芯片 

05 冷静一下:哪些事还不确定?

DeepSeek官方目前对V4 Lite保持完全沉默,“sealion-lite”代号也未出现在任何官方文档或代码仓库中。需要特别说明 

  1. SVG是窄测试项,不能代表推理、多步骤编程等核心能力的全貌
  2. 参数量约2000亿仍属猜测,“轻量版”意味着某处有取舍,取舍在哪里尚不明朗
  3. 所有信息均来自媒体爆料,DeepSeek尚未正式回应

据金融时报报道,DeepSeek预计在下周发布V4版本的同时,发布一份篇幅较短的技术说明,并在大约一个月后发布一份更全面的报告 。届时一切谜底将揭晓。

写在最后:DeepSeek的剧本,总是比想象的更快

回顾DeepSeek的模型迭代之路 

  • 2024年5月:V2发布,提出多头潜在注意力(MLA)机制
  • 2024年12月:V3发布,高效的MoE架构确立综合性能基础
  • 2025年1月:R1发布,专注复杂推理,推理成本不到o1十分之一
  • 2025年8月:V3.1发布,首次融合V3和R1能力
  • 2025年12月:V3.2发布,推理能力达到GPT-5水平
  • 2026年3月:V4即将上线

DeepSeek惯用的打法是 “悄悄憋大招、突然震全场”。每一次,都是外界刚刚消化完上一代模型,下一代就已经悄悄跑完内测了 

这次的V4 Lite,百万Token长上下文 + 原生多模态两张牌同时打出,若后续全面测试能验证泄露说法,它将成为2026年迄今最具冲击力的开源模型发布——不仅对OpenAI、Anthropic、Google构成直接威胁,也将为整个开源AI生态注入强心剂 

海狮入海,浪花几何?我们拭目以待。

想持续追踪DeepSeek最新动态?

文章评分

这篇文章对您有帮助吗?

分享到

微信
朋友圈
QQ
QQ空间
微博
抖音
小红书
复制
二维码

实用功能

夜间模式
小字
大字
收藏
目录
笔记
朗读
相关
搜索
我的笔记
文章内搜索
相关文章推荐
正在加载相关文章...

反馈建议

您需要登录后才能填写意见反馈信息

分享二维码

使用手机扫描二维码

操作成功