正文内容
写在前面:这不是教程,是一份创作日记
我至今记得第一次打开网易天音时的心理活动。
页面很干净。没有满屏的参数旋钮,没有吓人的音频波形图,只有一个输入框,光标一闪一闪,旁边写着:输入你的歌词或灵感。
作为一个连简谱都认不全、吉他学了三次都卡在C和弦的人,那一刻我突然意识到:过去一百年里,音乐创作的门槛从来不是才华,是技术。你需要懂乐理、懂乐器、懂录音、懂混音——或者,你需要有钱请懂这些的人。
但光标不会问你会不会。它只是等。
这篇东西不是那种“第一步第二步第三步”的标准教程。它是我用两个周末、从零开始摸网易天音的真实记录。如果你也是那种“脑子里有旋律但手上没功夫”的人,这篇日记或许能帮你省掉我走过的那些弯路。
第一天上午:第一次生成,我得到了什么
登录。
网易天音的入口藏在网易云音乐App的“我的”页面里,往下滑,有一个叫“AI写歌”的图标。点进去,没有任何欢迎语,直接进入创作界面。
我面对的第一个问题是:写什么?
界面给了我两个选项:
- 灵感模式:你写一句话,它帮你生成整首歌
- 歌词优先:你写好完整歌词,它负责谱曲
我选了灵感模式。不是因为自信,是因为我当时只有一句话。
那句话是:“雨落在窗台上,像去年没说完的话。”
输入,点击生成,等待了大概七八秒。这是我经历过最漫长的七八秒。
然后耳机里传来声音。
是一段钢琴前奏。很轻,带一点延时效果,像从隔壁房间传过来的。然后人声进入,唱的正是我输入的那句话,旋律是下行音阶,落在主音上。副歌部分加入了一点点弦乐铺垫,鼓点在第二遍主歌才轻轻进入——它甚至知道不能一上来就铺满。
那一分钟里我反复确认了三遍:这真的是我“写”的歌吗?
是的。我没有碰任何一个音符,但我给了它情绪,它自己找到了表达方式。
这就是网易天音最核心的逻辑:它不要求你懂音乐,只要求你懂自己想表达什么。
第一天下午:我开始触碰那些“旋钮”
如果只是“输入一句话出一首歌”,那它和市面上的AI音乐生成器没有本质区别。
网易天音的深度藏在参数面板里——但很妙的是,这些参数全部用人类语言命名,而不是乐理术语。
风格标签长这样:
- 不是“C大调”“和声小调”
- 是“流行”“民谣”“电子”“古风”“R&B”
情绪标签长这样:
- 不是“120BPM”“forte”
- 是“欢快”“抒情”“激昂”“伤感”“平静”
人声标签长这样:
- 不是“男高音”“女中音”
- 是“温暖男声”“清亮女声”“磁性大叔”“少年感”
乐器标签长这样:
- 不是“钢琴+弦乐四重奏”
- 是“吉他”“钢琴”“电子”“古筝”“乐队”
我第一个完整的作品是一首写给妈妈的生日歌。歌词是自己写的,四段,押着不太工整的韵。我选了“民谣+温暖男声+吉他”的组合,情绪标签选了“抒情”,速度选了“中板”。
生成之后,我听到了一个男声抱着吉他,唱我写的词。
副歌第二句“你的皱纹是我奔跑的跑道”,AI在“奔跑”两个字上做了轻微的重音处理。
我没有教它。它自己觉得这里应该用力。
这就是网易天音所谓的“词曲协同”——它不是简单地把歌词贴到预设的旋律上,而是真的在理解文本的情绪重点,然后调整旋律的重音位置。
第一天晚上:我遇到了第一个坑
兴奋过后,问题来了。
生成的那首歌整体情绪是对的,但第二段主歌的旋律走向和第一段一模一样。听起来像复制粘贴,缺少递进感。
我在界面上找了一圈,发现了那个关键的入口:“编辑旋律”。
点进去,界面变成了一条横轴,上面分布着音符。每个音符对应一个字,你可以上下拖动改变音高,左右拖动改变时值。
这不叫“作曲”,这叫“修图”——像在美图秀秀里把人脸推瘦一点,而不是重新画一张脸。
我把第二段主歌的结尾音从“Do”拖到了“La”,让句子落在一个不稳定的音上,制造“还没说完”的感觉。导出,再听。
对。就是这种感觉。
网易天音没有试图取代我的审美,它只是在我够不到的地方,垫了一把椅子。
第二天:我开始认真研究那些“看不见的参数”
经过第一天的摸索,我发现网易天音的真正门槛不是操作,是对音乐语言的理解——你不需要会写谱,但你需要知道自己想要什么。
1. 元标签:藏在风格背后的暗线
这里没有可视化界面,只有一行输入框,你可以手动输入元标签。比如:
- “String ensemble”——会在编曲里加入弦乐群
- “Slow attack”——让每个音符起音更柔和
- “Vinyl crackle”——加入黑胶唱片的底噪,制造复古感
这就像摄影里的RAW格式。普通用户用滤镜就够了,但如果你知道自己想要什么,这里给你完全的控制权。
我的经验: 刚开始不要碰这里。等你用默认风格生成了20首歌、听出了“电子和合成器的区别”“民谣和乡村的和声差异”之后,再来尝试微调。
2. 曲式结构:你的歌需要“起承转合”
AI默认生成的歌曲结构通常是:前奏→主歌1→副歌1→主歌2→副歌2→间奏→副歌3→尾奏。
这是流行音乐最安全的模板,但不是所有歌都适合这个结构。
在“曲式编辑”里,你可以:
- 把间奏拖长,给听众消化情绪的时间
- 去掉尾奏,在副歌最高潮戛然而止
- 添加一段无伴奏人声桥段,制造对比
我做了一首只有1分30秒的歌,结构是:主歌1→副歌1→副歌2→尾奏。没有前奏,没有间奏,直接进人声。
因为我想表达的是“来不及铺垫的急切感”。
AI不会替你判断这些,但它给你实现判断的工具。
3. 人声选择:不是“选性别”,是“选讲述者”
网易天音的人声库目前涵盖温暖男声、清亮女声、磁性大叔、少年感、空灵女声、厚重男中音等十几个类别。
我测试后的感受:
- 温暖男声:最适合讲故事,适合民谣、慢板流行
- 清亮女声:高频突出,适合古风、轻快的曲风
- 磁性大叔:中低频厚实,适合爵士、蓝调、深夜电台感
- 少年感:气息偏短,咬字干脆,适合校园、青春主题
一个容易被忽略的细节: 同一段歌词,用不同人声唱,AI生成的旋律是不一样的。因为引擎会根据音色特征适配音域——给男中音写的旋律不会飙高音,给少年感写的旋律不会拖长腔。
第二天晚上:我开始尝试“歌词优先”模式
灵感模式玩熟了之后,我挑战了歌词优先。
这个模式要求你提供完整的歌词,并且需要标注段落结构:[主歌]、[副歌]、[桥段]、[尾奏]。
我写了一首关于失眠的歌,标题叫《三点十七分》。
第一版生成出来,旋律没问题,但副歌的情绪爆发点和我预想的不一样——它太理性了,太克制了。我想要的是那种“压抑了一整首终于忍不住”的感觉。
这时我发现了段落情绪标签。
不是整首歌标一个“伤感”,而是每一段都可以单独标:
- 主歌1:平静
- 主歌2:压抑
- 副歌1:释放
- 副歌2:更释放
- 桥段:无力
- 尾奏:归于沉寂
重新生成。副歌第一句的音符明显比之前高了三度,鼓点从八分音符变成四分音符,每一个字都砸在重拍上。
对了。
这才是AI音乐工具最迷人的地方:它不是让你偷懒,是让你把精力从“怎么弹”挪到“怎么表达”。
第三天:导出与后期——离开天音之后的事
网易天音支持导出分轨文件(需要会员),这是专业创作者的分水岭。
免费版导出的是整轨MP3,音质320kbps,对于发抖音、视频号、网易云音乐动态,完全够用。
会员版可以导出人声干声+伴奏分轨,格式是WAV,可以拖进Logic Pro、Cubase、FL Studio做二次混音。
我测试了导出分轨后的工作流:
- 人声干声导入ACE Studio,替换成更细腻的AI歌手模型(天音的人声已经很好了,但ACE在气声、转音上有更多控制参数)
- 伴奏分轨导入Replay,做母带响度匹配(让歌曲在手机外放时更响、更饱满)
- 重新混缩,上传网易云音乐人后台
但说句实话:对于99%的普通创作者,天音直接导出的成品已经足够发布。我拿第一版导出的歌给朋友听,没有人问“这是AI唱的吗”,他们只问“这是你写的吗”。
几个会被反复问到的问题(以及我的答案)
Q:网易天音完全免费吗?
目前处于逐步开放测试阶段,网易云音乐App内有入口,但并非所有用户都能直接使用。现阶段主要面向音乐人群体及部分深度用户开放。如果暂时没有入口,可以多使用网易云音乐听歌、评论、分享,增加账号活跃度。
Q:生成的歌版权归谁?
归你。网易天音的条款明确:用户输入的文本、生成的音频,著作权归用户所有。 你可以上传到任何平台、进行商业使用、申请版权登记。
Q:可以生成纯音乐吗?
可以。在人声选项里选择“纯音乐”或“乐器独奏”,系统只生成伴奏,不加入演唱。
Q:可以生成方言歌曲吗?
目前官方主推的是普通话和英语。粤语、闽南语等方言在歌词识别上不稳定,建议用普通话创作。
Q:手机版和电脑版有什么区别?
天音没有独立的PC客户端,主要使用场景是网易云音乐App移动端。部分高级编辑功能(如旋律拖拽编辑)在手机小屏幕上操作稍显局促,建议用平板或大屏手机。
写在最后:音乐创作正在经历“摄影的数码化”
二十年前,你想拍照,需要买胶卷、进暗房、配显影液。
今天,你掏出手机,按一下,得到一张1亿像素的照片,然后发朋友圈。没有人问你“这张照片是用什么相机拍的”,人们只关心“这张照片拍的是什么”。
音乐正在经历同样的过程。
网易天音这类工具,不会让贝多芬失业,不会让周杰伦焦虑。它只是让那些“脑子里有旋律但手上没功夫”的人,终于有了开口的机会。
我写的那首《三点十七分》,后来被我妈妈设成了手机铃声。
她不知道是AI唱的。她只知道是她儿子写的。
这大概就是工具最好的归宿:你用得如此趁手,以至于人们忘记了工具的存在,只记得你表达的东西。
本文基于网易天音2026年2月版本实测,部分高级功能需逐步开放权限。产品持续迭代,具体界面以实际体验为准。