DeepSeek V4 Lite泄露：百万Token上下文+原生多模态，AI圈又要地震了？

作者： AI一族

发布时间： 2026年03月01日

阅读时长：约 19 分钟

正文内容

当一款AI模型能在10分钟内完成人类程序员5小时的编程测试，用54行代码画出Xbox手柄，并且还能“看懂”图片时，你猜华尔街会是什么反应？

就在刚刚过去的48小时，AI圈被同一个名字刷屏了：DeepSeek V4 Lite。

这款尚未正式发布、代号“Sealion-lite”（海狮轻量版）的模型，已经通过多家媒体泄露了大量核心参数和实测表现。从目前曝光的信息来看，这可能是2026年迄今为止最具冲击力的开源模型发布。

01 两项硬核升级：一步跨代

1. 上下文窗口：从128K飞跃至100万Token

这是最直观的数字冲击。DeepSeek V3.2的上下文窗口为128K tokens，而V4 Lite直接拉升至100万tokens，相当于整整扩大了近8倍。

100万tokens意味着什么？

粗略换算下来，约等于一次性处理750本中等篇幅小说、一个中大型GitHub代码仓库、或数小时的完整对话记录——AI在“记性”这件事上，正在以肉眼可见的速度向人类靠拢。

早在今年2月11日，DeepSeek曾悄然将生产环境模型的上下文窗口从128K升级至100万tokens，社区测试显示其在满额100万token长度的“大海捞针”检索任务中，准确率超过60% 。而V4 Lite将从架构层面原生支持这一规格，而非临时扩容打补丁。

2. 原生多模态：不是“外挂视觉”，是“骨子里就能看图”

相比上下文的数字跃迁，原生多模态的意义更具革命性。

DeepSeek的整个V3系列，清一色是纯文本模型。此前能看图的“DeepSeek-VL”属于独立模型线，和V3系列是两套不同架构。而V4 Lite据报道将文本与视觉理解从预训练阶段就统一融合，视觉能力不再是“外挂插件”，而是大模型的内置器官。

这一点的重要性在于：原生多模态的文图对齐能力通常远优于拼接方案，模型能更精准地理解“图里在说什么”，也能更连贯地生成“符合语义的图像内容”。Gemini 3.1 Pro和GPT-5的实践已经证明，原生多模态是关闭图文性能差距的根本路径。

如果DeepSeek真的在开源权重模型中实现这一点，将是中国AI实验室在前沿多模态领域的重大突破。

02 实测曝光：54行代码画出Xbox手柄，碾压竞品

在多模态和代码生成能力方面，已有一批早期演示悄然流传。

测试人员用V4 Lite生成了 “骑自行车的鹈鹕” 和 “Xbox 360手柄” 的SVG图像代码：

Xbox 360手柄：仅用54行SVG代码完成，结构层次清晰，细节准确
鹈鹕骑自行车：仅用42行SVG代码，多元素场景构图自然流畅

根据内部对比评估，这两项输出在代码精简度、逻辑组织和视觉还原度上均优于DeepSeek V3.2、Claude Opus 4.6以及Gemini 3.1 。

更令人惊讶的是，V4 Lite在不开启思考模式下生成的图像，无论是贴合提示词的程度、物体形状的准确性，还是细节的丰富度，都明显优于前代V3.2版本的思考模式 。

SVG测试并非全面评估，但它暗示了更深层的能力跃升：空间推理能力与结构化输出能力的同步提升，这两者恰好是多模态任务中至关重要的底层能力。

03 技术参数对比：一目了然

规格项	DeepSeek V3.2	DeepSeek V4 Lite（泄露）
上下文窗口	128K tokens	100万tokens（原生）
多模态支持	❌ 纯文本	✅ 原生多模态
参数规模（估算）	~6850亿（MoE）	~2000亿（未确认）
SVG代码生成	基准水平	超越V3.2 / Claude Opus 4.6 / Gemini 3.1
发布状态	已上线	NDA保密测试中

注：V4 Lite约2000亿参数的估算来自36kr消息，未经官方确认。相比之下，传闻中的完整版V4参数量可能突破1万亿。

04 行业地震：为什么华尔街在颤抖？

CNBC已发出警告：DeepSeek一旦正式发布新模型，可能触发类似V3发布时纳斯达克3%单日跌幅的市场反应，华尔街正屏息以待。

为什么一款AI模型的发布能让资本市场如此紧张？

因为DeepSeek上一次发布模型时，直接导致英伟达股价下跌17% 。如果V4再次展现出惊人的效率和能力，很可能会重演甚至加剧去年的投资者恐慌，对正在寻求巨额融资的美国AI公司和希望股价稳定的英伟达、谷歌等巨头构成直接威胁。

更让美国不安的是，路透社爆料：DeepSeek这次向某国产芯片厂商提供了V4的早期接入权限，而不是英伟达等美国算力霸主，直接打破了过去AI模型大版本发布前的行业惯例。DeepSeek致力于优化V4模型以适配中国制造的芯片，此举有望提振中国市场对其半导体产品的需求，并加速AI模型“推理”环节靠拢本土芯片。

05 冷静一下：哪些事还不确定？

DeepSeek官方目前对V4 Lite保持完全沉默，“sealion-lite”代号也未出现在任何官方文档或代码仓库中。需要特别说明：

SVG是窄测试项，不能代表推理、多步骤编程等核心能力的全貌
参数量约2000亿仍属猜测，“轻量版”意味着某处有取舍，取舍在哪里尚不明朗
所有信息均来自媒体爆料，DeepSeek尚未正式回应

据金融时报报道，DeepSeek预计在下周发布V4版本的同时，发布一份篇幅较短的技术说明，并在大约一个月后发布一份更全面的报告。届时一切谜底将揭晓。

写在最后：DeepSeek的剧本，总是比想象的更快

回顾DeepSeek的模型迭代之路：

2024年5月：V2发布，提出多头潜在注意力（MLA）机制
2024年12月：V3发布，高效的MoE架构确立综合性能基础
2025年1月：R1发布，专注复杂推理，推理成本不到o1十分之一
2025年8月：V3.1发布，首次融合V3和R1能力
2025年12月：V3.2发布，推理能力达到GPT-5水平
2026年3月：V4即将上线

DeepSeek惯用的打法是 “悄悄憋大招、突然震全场”。每一次，都是外界刚刚消化完上一代模型，下一代就已经悄悄跑完内测了。

这次的V4 Lite，百万Token长上下文 + 原生多模态两张牌同时打出，若后续全面测试能验证泄露说法，它将成为2026年迄今最具冲击力的开源模型发布——不仅对OpenAI、Anthropic、Google构成直接威胁，也将为整个开源AI生态注入强心剂。

海狮入海，浪花几何？我们拭目以待。

想持续追踪DeepSeek最新动态？

📚 技术解析系列持续更新
🔧 体验更多AI工具，请访问 AI工具大全
🏠 收藏 AI一族官网，不错过每一次行业地震

我的AI导航

我的AI导航

DeepSeek V4 Lite泄露：百万Token上下文+原生多模态，AI圈又要地震了？

正文内容

01 两项硬核升级：一步跨代

1. 上下文窗口：从128K飞跃至100万Token

2. 原生多模态：不是“外挂视觉”，是“骨子里就能看图”

02 实测曝光：54行代码画出Xbox手柄，碾压竞品

03 技术参数对比：一目了然

04 行业地震：为什么华尔街在颤抖？

05 冷静一下：哪些事还不确定？

写在最后：DeepSeek的剧本，总是比想象的更快

文章评分

这篇文章对您有帮助吗？

DeepSeek V4 Lite泄露：百万Token上下文+原生多模态，AI圈又要地震了？

正文内容

01 两项硬核升级：一步跨代

1. 上下文窗口：从128K飞跃至100万Token

2. 原生多模态：不是“外挂视觉”，是“骨子里就能看图”

02 实测曝光：54行代码画出Xbox手柄，碾压竞品

03 技术参数对比：一目了然

04 行业地震：为什么华尔街在颤抖？

05 冷静一下：哪些事还不确定？

写在最后：DeepSeek的剧本，总是比想象的更快

文章评分

这篇文章对您有帮助吗？

分享到

实用功能

我的笔记

文章内搜索

相关文章推荐

反馈建议

分享二维码

操作成功