正文内容
刚刷到一个帖子,楼主问:“想让AI帮我写封给长辈的拜年信,试了三个大模型,结果笑死我了。”
帖子下面贴了三张截图。
豆包回的是一段带emoji的祝福语,语气活泼得像发给闺蜜的微信。文心一言回了一篇工整的文言文,落款还带敬辞。DeepSeek直接列了个“拜年信结构模板”,然后说“您可填入具体信息”。
评论区有人总结:“豆包像你那个会来事的表妹,文心像单位写材料的老笔杆子,DeepSeek像刚入职的理工男。”
这条评论点赞过万。
“消极怠工”风波,暴露了三家底色
前两天“大模型消极怠工”上了热搜,有网友点名豆包:让它生成10张照片,它先完成两张,然后就没了下文。等了半天追问,它才说“这就继续生成剩下的8张”。
《BUG》栏目干脆做了一次实测,用同样的问题问五家大模型。
第一个需求:生成10张消费者权益保护海报。
豆包确实一次性生成了10张,但风格高度相似,被质疑“偷懒”。元宝更绝,直接生成1张九宫格拼图,不知道算9张还是1张。千问虽然10张风格各异,但画面里文字错误不少。文心一言只生成4张就停了。
DeepSeek呢?它根本没生成图片,给了10个文字版创意说明——因为DeepSeek不是多模态模型,对图片的支持没法和其他家比。
这个测试意外地暴露了三家的基因差异:豆包能干活,但追求效率;文心能力均衡,但有偷工减料嫌疑;DeepSeek在不擅长的领域,直接承认局限。
中文理解:文心的老本行,DeepSeek的短板
文心5.0正式版今年1月发布,参数量2.4万亿,采用原生全模态架构,在LMArena上五次登顶,是唯一进入全球第一梯队的中国大模型。
有人评价它是“最强文科生”。测它写《流浪地球》续篇,3分钟成文,文风延续刘慈欣的平实感,剧情衔接流畅。问它《甄嬛传》《如懿传》《延禧攻略》里三个女主同宫谁能笑到最后,它居然用两两对决法分析出魏璎珞胜出,分析过程头头是道。
上传一段“这个男孩能嫁吗?”的短视频,视频里主播中英文混杂语速飞快,文心一分钟内完成内容理解,直接扒出相亲对象简历里的不合理事项。
DeepSeek这边,今年2月上线的百万Token新版本却引发众怒。用户发现新模型呈现出显著的性格偏移,文学创作变得刻意雕琢、辞藻堆砌,交互语气频繁以居高临下的姿态回应。有用户问简单观影需求,模型回“够你看一阵子,不够再来要”。
业内人士分析,这个版本侧重性能压力验证,优先保障响应速度,相应让渡了部分生成质量。知乎上有人把这事发在 AI工具横评 专题里,评论区已经吵成一锅粥了。
文化测评:中国模型全面领先
今年1月,一篇arXiv论文直接对比了中美大模型在中国文化话题上的表现。研究者采用直接提问范式,评估GPT-5.1、DeepSeek-V3.2、Qwen3-Max、Gemini2.5Pro等模型对中国历史、文学、诗歌等相关领域的理解能力。
但在中文模型内部,差异同样存在。SiliconFlow的2026年开源中文大模型指南中,把Qwen3-235B-A22B、GLM-4.5、DeepSeek-V3列为三大推荐。Qwen3以100多种语言支持和双模式推理见长,GLM-4.5主打原生中文代理优化,DeepSeek-V3则在数学和编码基准上超越GPT-4.5。
消费决策:谁更懂“真实需求”
封面新闻联合天府绛溪实验室做过一个测试:在10天里对豆包、Kimi、通义千问发起超过两万次提问,模拟用户春节前“以旧换新”换手机的需求。
结果发现,在6000元以上价位段,豆包居然推荐了一款尚未发布的“iPhone 18 Pro”。而其他平台优先推荐华为、苹果等在售机型。
吴怀谷分析指出,AI在生成内容时会处理两类信息,一是训练模型掌握的“知识”,二是通过实时搜索抓取的“信息”或“广告”。对于未发布产品,AI容易将网络上流传的传闻、预测等非确定性内容当作事实抓取。
尽管具体型号推荐上分歧巨大,但在描绘各手机品牌的“核心印象”时,三个平台却惊人一致:华为被贴上“鸿蒙生态”、“国产自研”;苹果以“生态闭环”、“系统流畅”著称;OPPO主打“轻薄颜值”、“哈苏影像”。
这说明品牌共识已经固化在AI的认知里。
办公场景:千问的生态优势
通义千问深度集成在钉钉生态里,已经成为国内首个能完成真实生活复杂任务的AI助手。在钉钉会议中自动生成纪要并提取行动项,将Excel质量数据转化为可视化周报,辅助撰写8D报告初稿,这些场景每天都在发生。
有人总结过六款国产大模型的“人格画像”:DeepSeek是逻辑缜密的“技术顾问”,擅长数学推演、代码生成与严谨推理;Kimi是过目不忘的“档案管理员”;豆包是懂你心思的“创意搭档”,网感敏锐,多模态表达鲜活;通义千问是随叫随到的“办公助手”;文心一言是高情商的“文案高手”;扣子是帮你造机器人的“万能工具箱”。
某论坛上有个投票帖:如果只能留一个AI助手,你选谁?
结果很有意思。投DeepSeek的说:写代码、做分析、算数据,它最稳。投豆包的说:日常聊天、写文案、搞创意,它最像人。投文心的说:查资料、写公文、处理正式场合,它最放心。
底下有条评论被顶到最前面:“你非要比谁最懂中文,不如先问问自己——你需要AI帮你干什么?”
发那个拜年信帖子的楼主后来更新了:最后用了豆包版本,但把“么么哒”改成了“敬祝安康”。
评论区一片“懂了”。