首页 科技 正文

跟郎朗媳妇有得一拼的AI,只看弹钢琴姿势,极致重现原声带|CVPR 2020

金磊 只想说 凹非寺量子位 报导 | 微信公众号 QbitAI

眼界过「听歌识曲」,感受过看演奏姿势识曲吗?

如同近期的一档娱乐节目中,郎郎比画了好多个弹琴的姿势,他媳妇儿(克里斯提娜·阿里)秒答:《柴可夫斯基第一协奏曲》!

来源于华盛顿大学的研究精英团队明确提出了一种新方法Audeo,就开启这般奇妙的实际操作——只是依据大提琴手演奏时的姿势,就能立即重现原声带音乐。

先来感受下这类奇妙的觉得。

下边就是大提琴手弹奏时的动态图,大家能见到的,只是便是手指头在钢琴琴键上的转换。

随后,你了解这是哪首歌曲吗?

绝大多数人(也许郎郎级別的高手们能够)应该是猜不上的。

但AI能够,下边就是此项技术性重现的原声带音乐。

那麼,如此奇妙的实际操作是怎么完成的呢?

三步完成「看姿势识音乐」

简易而言,Audeo方法关键包含三大步骤,分别是:

钢琴按键检验生成谱子內容生成音乐

钢琴按键检验

这一步骤能够了解为一个多标识(multi一label )归类难题。

键入是弹钢琴视频中五个持续的帧,将他们键入到Video2Roll Net中,历经ResNet18、特点转换、特点优化(refinement)和有关学习培训的解决,最终輸出正中间帧的功能键预测分析。

特别注意的是,在这个步骤中,研究工作人员沒有立即应用ResNet18,只是在这个基础上干了优化算法改进,明确提出了Video2Roll Net。

那样做的缘故非常简单,便是ResNet18检验到的「精密度」不足细腻,下边2张热力地图的比照,便一目了然地展现了2种方法的实际效果。

生成谱子內容

在第二个步骤中,就必须将 Roll 变换为 Midi(传统乐器数据插口),便于生成音乐。

但在上步生成出去的 roll ,没法立即转化成 Midi,一个尤为重要的缘故便是—— Roll 不包含時间信息内容。

除此之外,因为 Midi 较为依靠声频流,因此 经常会出现的一个状况便是:演奏员按一个钢琴键的時间较长时,相对頻率的力度会慢慢衰减系数为零,也就是在 Midi 时会被标识为零。

像下边这幅图中显示信息的那般,便会导致不配对的状况。

而且,研究工作人员表明:

这类不配对的状况,是常常产生的。

因此,研究工作人员便明确提出了一个叫 Roll2Midi Net的方法解决了这个问题

关键是在二者之间添加了一个生成对抗网络(GAN),来调整并处理所述难题。

生成音乐

最后一步,便是依据调整好的 Midi 来生成音乐,关键全过程如下图所显示。

将 Midi 做为键入,历经一个上采样,然后能够挑选根据「Midi 合成器手机软件」,还可以挑选应用「PerfNet Unet GriffinLim」的组成方法来生成音乐。

对于 Audeo 方法与其他方法的定量分析较为,关键集中化在第二个关键步骤。

能够显著见到,研究工作人员在第二步骤中明确提出来的 Roll2Midi Net方法,在各类测评指标值中,都具备一定优点。

生成音乐还能够转化成其他传统乐器

自然,Audeo 除开精确重现视頻中的电子琴音乐外,还有一个更有趣的游戏玩法。

它能够将电子琴原声带,转化成别的传统乐器的响声。

比如,能够将电子琴音乐转化成吉他的声音。

还能够将电子琴音乐转化成日本国十三弦大提琴的响声。

这一趣味的游戏玩法,关键归功于「生成音乐」这一步骤,挑选的方法不一样,获得的結果便不一样。

研究精英团队

此项研究由华盛顿大学的三位研究工作人员互相配合,研究还入选了这届CVPR。

△从左至右:Kun Su、Xiulong Liu和Eli Shlizerman

毕业论文一作是Kun Su,大学本科就读英国美国纽约州伦斯勒理工高校(RPI),现阶段在华盛顿大学修读电子器件与电子计算机工程学院修读研究生。

△Kun Su

研究的另一位作者是Xiulong Liu,大学本科在上交大入读,硕士毕业于华盛顿大学,现阶段在OneClick.ai 出任大数据工程师。

△Xiulong Liu

毕业论文最终一位作者是Eli Shlizerman,华盛顿大学应用数学及电子器件与计算机科学终身教授。

现阶段专研微生物神经元网络和神经网络算法的基础特点,根据融合时光数据统计分析、深度学习和动力装置基础理论的方法将这两个系统软件联络起來。

△Eli Shlizerman

那麼那么问题来了,假如以郎朗的手速演奏电子琴,这一AI的实际效果还会继续这般震撼吗?

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.68nw.com/kj/867.html