写歌作词,换风格,继续写音乐的AI,今天又来当编曲了!
上传《Stay》的一段,一键按:
伴奏和人声很容易分开。
在空旷的地方有相当清晰的唱歌感觉,背景音乐可以直接用来混切!
这个惊人的效果也引发了Reddit对:的讨论。
这项研究的主要负责人孔来自,世界上最大的古典钢琴数据集GiantMIDI—Piano也是他在去年出版的。
那么他今天带来了什么样的AI音乐人呢。
让我们来看看。
基于深度残差网络的声源分离。
这是一个包括相位估计的音乐源分离系统。
首先,幅度和相位解耦以估计复理想比例掩模。
其次,为了实现更灵活的幅度估计,结合了有界掩模估计和直接幅度预测。
最后,为MSS系统引入了一个143层深度残差网络,并使用残差编码块和残差解码块将其深度增加:
在残差编码块和残差卷积块之间引入中间卷积块,以提高残差网络的表达能力。
每个残差编码块由四个残差卷积块组成,残差卷积块由两个大小为3倍的核组成3卷积层
每个残差解码块由8个卷积层和1个卷积层组成。
接下来,在MUSDB18数据集上对系统进行测试。
MUSDB18中的训练/验证集包含100/50个完整的立体声曲目,包括独立的人声,伴奏,低音,鼓和其他乐器。
以信号失真率为判断标准,可以看出resuenet解耦系统在分离人声,低音,其他和伴奏方面明显优于之前的方法3360。
在烧蚀实验中,143层残差网络的性能也证明了有界掩模估计和直接幅度预测的结合确实可以提高声源分离系统的性能。
作为本研究的第一篇论文孔,本硕毕业于华南理工大学,博士毕业于英国萨里大学电子信息工程专业。
2019年加入字节跳动语音,音频和音乐智能研究组,主要负责音频信号处理和声音事件检测的研究。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。