正文内容
有人在小红书发了个帖子,标题是“我用AI搞定了整个短视频团队”。底下评论区炸了,几百条问“怎么搞的”。她回了一张截图:豆包写文案,即梦做画面,剪映合成。三个工具排成一排,配了一句话:“以前我一个人剪视频,现在三个人帮我,都不用发工资。”
这套组合拳在短视频圈已经不是什么秘密了。学科网的一篇教程里写得明明白白:第一步截取教材原画,交给豆包高清处理;第二步用即梦AI的数字人功能,上传图片、输入语言、加动作描述,生成单角色对话视频;第三步用剪映把两段视频拼起来,加字幕,完事。整个过程被浓缩成三步,老师用它做教学素材,说“以前做一节课的素材要一周,现在一天”。
大连图书馆前阵子办了个讲座,讲的就是用AI做古诗短视频。老师带着读者实操:先用豆包生成贴合古诗意境的文案和画面提示词,再用即梦把这些提示转成AI人物形象和动态画面,最后用剪映加字幕配乐。参与者现场就做出了自己的作品,有人做了《将进酒》的视频,有人做了《春江花月夜》。图书馆公众号发了个回顾,底下有人留言:“原来古诗可以这么教。”
其实不光是做教材。西南财经大学图书馆有本新书叫《剪映AI自媒体视频生成/剪辑/创作从入门到精通》,专门花一章讲“豆包+即梦+剪映”的组合用法,从短视频、动画片到微电影,全都有。机械工业出版社今年也出了一本《即梦AI+剪映AI+DeepSeek绘画和短视频制作》,50个实操案例,手把手教怎么用这三个工具协同创作。书里有个案例特别有意思:用豆包生成提示词,即梦生成“小仙女吃饭”的动态画面,剪映后期合成,出来的视频像动画片一样流畅。
有人在百度开发者中心发过一篇文章,讲怎么用DeepSeek+即梦+剪映做哪吒2的T台秀。但评论区有人试了之后说,把DeepSeek换成豆包效果更好——豆包生成的提示词更贴近即梦的输入习惯,不用来回调参数。那人还说,他用了豆包生成的“国风赛博朋克”提示词,即梦跑出来的画面质感直接拉满,剪映只加了滤镜就成片了。
360集团搞了个“纳米漫剧流水线”,专门解决AI漫剧量产的问题。这个流水线的核心思路是把豆包系列大模型(文本、语音、图像、视频)全串起来,用标准化流程把分镜一次性通过率提到90%以上。他们那个发布会讲了个数据:以前做一条漫剧要两周,现在三天,成本降了70%。底下有行业从业者评论:“不是AI取代人,是会用AI的人取代不会用的人。”
有人把这三件套的用法总结成了一个公式:豆包=编剧+美术指导,即梦=动画师,剪映=剪辑师+音效师。具体怎么分工?让豆包生成符合课堂风格的人物图片和脚本,即梦AI选音色、配台词、加动作指令,一键输出数字人教学素材,剪映最后剪辑、配乐、加字幕。做出来的数字人课堂导入视频,学生根本看不出是AI做的。
化学工业出版社今年还出了一本《DeepSeek+即梦+可灵+剪映:AI短视频制作技巧大全》。虽然是DeepSeek,但很多人留言说把DeepSeek换成豆包更顺手。书里90多集教学视频,从企业宣传到萌娃劳动,从情感治愈到儿童成语,从古人复活到3D故事立体书,全是真实案例。有人照着做了个《奶奶语录》的视频,发在抖音上,一周播放量破了50万。
阿里云开发者社区有一篇技术文章,讲的是用MCP协议搭自动化视频流水线。文章里给了一组实测数据:单分镜生成从18.2秒降到3.1秒,5分镜视频从91.7秒降到22.4秒。但他们用的是Java+FFmpeg那套,普通人搞不定。评论区有人问“有没有不用写代码的方案”,底下好几个人回:豆包+即梦+剪映,零代码,上手就会。
最夸张的是有人把这套流水线用在了儿童成语故事上。他先用豆包生成《知错就改》的脚本和画面提示词,再用即梦文生图、图生视频,最后用剪映剪辑。出来的人物造型、场景风格完全统一,小孩看了以为是从动画片里截的。他把完整流程发在社群里,底下有人说“这是要抢动画公司的饭碗”。
前两天凤凰网发了个报道,说杭州搞了个“AI+文化”产业论坛,专门讨论怎么用AI流水线做漫剧。会上有个数据挺吓人:用豆包、即梦、剪映这套组合,单人日产视频从2条涨到20条。有人问质量会不会掉,他们现场放了一条用这套流水线做的《凤舞工作室》企业宣传片,画面、配音、剪辑都看不出是AI做的。台下有人小声说:“这不叫工具,叫生产线。”
完整的操作流程和提示词模板,有人整理在 AI视频 专题里了,从文案到画面到剪辑,每一步都有案例,直接复制就能用。