首页 科技 正文

让梦露和龙妈学着你说话,只需一张静态图和一个视频|项目开源

十三 只想说 凹非寺量子位 报导 | 微信公众号 QbitAI

想让知名人士学着你讲话,该怎么办?

非常简单,要是一张知名人士的照片,加上你讲话的视频,一下子就能拿下。

看来下实际效果:

不管你是抓耳挠腮,還是晃脑,照片里的名大家都能跟你勾肩!

这就是来源于西班牙特伦托大学的一项研究:

运用一个一阶运动模型(First Order Motion Model),静态数据图也会动起來,变脸也轻轻松松。

自然,那么有趣的新项目,早已开源系统了!

一个特普朗在讲话,一群斯塔克也有话说

实际上,此项研究早在几个月前便已发布。

那时候用的键入视频是川建国同志,静态数据照片用的是一组《冰与火之歌》艾德史塔克及剧里别的人物图片。

实际效果是那样的:

能够 见到,不管川建国同志是眨眼睛、晃头,剧里的角色保证了勾肩。

就连那张代表性的O型嘴,也“效仿”的栩栩如生。

而阔别几个月,此项技术性又在Reddit爆红了起來。

一个将会的缘故是,此次键入的视频来源于时兴的短视频服务平台,换句话说我们自己录一段视频也可以用。

再加实际效果的真实、趣味,也许用不上多久,短视频內容服务平台将会便会发布这一作用了吧。

自然,这一模型的魔法不止于此。

键入一个女模特换pose的视频,另配上多个静态数据服装照片,就能大批量輸出动态性展现服饰的视频了。

变脸,也是小菜一碟。

但是,还要友情提示一句:谨慎使用静态数据照片,要不然出去的实际效果将会也不太像“阳间的物品”了……

一阶运动模型

在训炼环节,研究工作人员选用了很多的视频编码序列结合,包括同样类型的目标。模型根据融合视频中的单帧,和学习培训到的潜在性运动表达,来训炼重新构建视频。

在产品测试,研究工作人员将模型运用于由源图像和驱动器视频的每一帧构成的对,并实行源目标的图像动漫。

模型的架构就如下图图示:

架构关键由2一部分组成:运动估算控制模块和图像转化成控制模块。

运动估算控制模块的目地,是预测分析一个聚集的运动场。研究工作人员假定存有一个抽象性的参照架构,而且单独估算2个转换,分别是「从参照到源」和「从参照到驱动器」。那样就可以单独解决源帧和驱动器帧。

研究工作人员觉得这一流程是必需的,由于在检测时,模型会接受从不一样视频中取样的源图像和驱动器帧对,他们在视觉效果上将会十分不一样。

在第一步中,研究工作人员从稀少运动轨迹集类似这二种转换,根据应用以自监管方法学习培训的关键环节来得到。运用部分仿射变换对每一个关键环节周边的运动开展模型。

在第二步中,聚集运动互联网融合部分类似获得聚集运动场。此外,这一互联网还輸出挡住的mask,标示什么图像的驱动器一部分能够 根据源图像的歪曲(warping)来复建,什么一部分应当被绘图(依据前后文推论)。

在第三步中,转化成控制模块依照驱动器视频中,出示的源目标挪动的图像开展3D渲染。这里,研究工作人员应用一个在线生成器互联网,依据聚集的运动对源图像开展歪曲,并对源图像中被挡住的图像一部分开展上色。

非特殊说明,本文由原创资讯网原创或收集发布。

转载请注明本文地址:http://www.68nw.com/kj/448.html