蒙娜丽莎.gif:三星新研究用一张图像合成动图,无需3D建模

创业资讯 阅读(1805)
综合欧美五月丁香五月

Mona Lisa.gif:三星的新研究使用图像来合成没有3D建模的动画

参与:思源,张倩,杜伟

蒙娜丽莎说话,你见过吗?这幅神秘的画可以制作各种gif表情吗?来自三星莫斯科人工智能中心和斯科尔科沃科学技术研究所的研究人员创建了一个模型,可用于从图像生成角色的化身图像,并且是开场演讲的动画。此外,该模型不使用诸如3D建模的传统方法。

发言的蒙娜丽莎似乎看起来不那么冷酷。

92620655441d47b288ca93319f70b3e7.gif

除了蒙娜丽莎,研究人员还创造了玛丽莲梦露。

ad136fd364e7468fa9fa3aea12eebef3.gif

他们制作的名人头像动画包括玛丽莲梦露,爱因斯坦,蒙娜丽莎和吴唐氏族的RZA。

近年来,已有许多研究使用AI来模拟人脸。 2018年,华盛顿大学的研究人员分享了他们创建的奥巴马网络,这是一个基于Pix2Pix的嘴唇模型,在美国前总统巴拉克奥巴马的视频中受过训练。去年秋天,加州大学伯克利分校的研究人员开发了一个模型,该模型使用YouTube视频来训练AI数据集,由此产生的角色可以进行跳舞或后空翻等杂技动作。

为了创建个性化模型,这些研究需要对大量个人数据进行培训。但是,在许多实际情况中,我们需要从少量个人甚至是图像中学习。所以在这项研究中,三星和斯科尔科沃研究所的研究人员合成了人物口语状态的头部动画,只有少量甚至是图像或绘画。

研究人员已经使用诸如少量学习技术来合成三星Galaxy S10上可用的视频游戏,视频会议或数字化身的头部图像和面部标志。这种数字现实技术的数字混叠技术可用于创建深度图像和视频。

少数镜头学习意味着模型模拟只有少数甚至一个图像的人脸。研究人员使用VoxCeleb2视频数据集进行元素分析。在元学习过程中,系统创建三个神经网络:将帧映射到矢量的嵌入式网络,映射复合视频中的面部特征点的生成器网络,以及估计图像真实性和姿势的鉴别器网络。

结合三个网络,系统可以对大型视频数据集执行长元学习过程。在元学习收敛之后,可以构建几次或一次性神经化身特写模型。该模型将看不见的目标任务视为反学习问题,以便您可以利用您学到的高质量发生器和鉴别器。

该论文的作者说:“关键的一点是,尽管系统需要调整数千万个参数,但系统可以不同地初始化发生器和鉴别器参数,因此只需几张图像即可快速完成训练。方法可以快速学习新面孔,甚至肖像和个性化的头像特写模型。“

该论文已于2019年召开,该会议将于6月在加利福尼亚州长滩举行。

论文:现实神经说话头模型的少量对抗性学习

a320a4afb9cb4f99b57b7c3ae32284b9.png

论文地址:

新颖的反学习架构

在这项研究中,研究人员提出了一种新系统,可以仅使用少量图像(即少量射击学习)和有限的训练时间来构建“化身特写”模型。实际上,研究人员的模型可以基于一次性学习生成合理的结果,并且在添加少量新样本之后,该模型可以生成具有更高保真度的个性化图像。

像许多类似的工作一样,研究人员的模型使用卷积神经网络来构建化身属性,它通过一系列卷积操作直接合成视频帧,而不是通过变形。由研究人员模型创建的化身特写可以实现大量不同的姿势,并且其性能显着高于基于翘曲的系统。

通过对化身特写语料库的大量元学习,该模型可以获得少量学习的能力。当然,这需要大的语料库,并且头部特写视频对应于不同的说话者和面部。在元学习期间,研究人员的系统模拟一些镜头学习任务,并学习将面部地标位置转换为逼真的个性化照片。在少数镜头学习中,他们只需要为转换目标提供少量训练图像。

随后,转换目标的少量图像可以被视为新的对抗学习问题,并且高复杂度生成器和鉴别器都通过元学习完成预训练。新的对抗问题最终将完成收敛,即在少量训练迭代之后生成真实和个性化的图像。

元学习架构

下面的图2显示了研究人员方法的元学习阶段。简而言之,它需要训练三个子网络。注意,如果我们有M个视频序列,则x_i(t)表示第i个视频的第t帧。

第一子网嵌入器E:它进入视频帧x_i(s)和相应的界标图像y_i(s),其将输入映射到N维向量e hat_i(s)。

第二子网生成器G:它将进入新的界标图像y_i(t),并且嵌入器将不会看到其对应的视频帧;网络也将通过嵌入器输入e hat_i输出,并希望输出合成的新视频帧。 x hat_i(t)。

第三子网鉴别器D:输入视频帧x_i(t),对应的界标图像y_i(t)和训练序列的索引i。网络想要确定视频帧x_i(t)是否是第i个视频的内容,以及它是否与对应的地标图像y_i(t)不匹配。

1d0235edf8c64836a088be32537534be.jpeg

图2:元学习架构的整体结构,主要包括三个模块:嵌入器,生成器和鉴别器。

嵌入式网络希望将具有相应的面部界标的化身特写图像映射到嵌入向量,该嵌入向量包含独立于面部姿势的信息。生成器网络通过一系列卷积层将输入面地标映射到输出帧,并且通过嵌入矢量和自适应实例归一化来调整所得结果。在元学习中,研究人员将同一视频的一组视频帧传递给嵌入器,并对嵌入向量求平均值,以预测发生器的自适应参数。

件映射鉴别器实现。

此外,元学习的三个子网络在原始论文中有特定的表达方式,读者可以参考原文的第3.2章。

少量学习过程

件。

当然,我们可以使用元学习嵌入器来估计新头像特写序列的嵌入向量:

597058bcbb724049995ebe16d82ca766.png

更直观的想法是使用上述嵌入矢量和预训练的发生器来生成新的视频帧和相应的界标图像。理论上,这也可以产生真实的图像,但真实性不是太强。为此,研究人员还需要一个微调过程来产生更完美的图像,即少数几个学习过程。

微调过程可以被认为是先前元学习过程的简化版本,其仅对单个视频序列和较少帧执行训练。微调过程主要由两个模块组成,即鉴别器和发生器,其中嵌入器不需要调整。

生成器还根据界标合成视频帧,除了与特定字符对应的生成器参数ψ'与原始通用字符参数一起优化以学习生成目标字符的某些特征。鉴别器和元学习阶段是相似的,除了添加新参数以学习更好地预测真实性得分。

实验

研究人员在定性和定量评估实验中使用了两组数据:VoxCeleb1和VoxCeleb2。后者的视频数量是前者的10倍。 VoxCeleb1用于与基线和对照变量研究进行比较,并且VoxCeleb2用于证明本文提供的方法的全部潜力。实验结果如下表所示:

d5016311710d4db3a2ef2fe201f8567b.jpeg

如表1所示,基线模型在两个相似性度量方面始终优于三星的方法。三星研究人员认为这是方法本身固有的:X2Face在优化过程中使用L_2损失函数,因此SSIM得分更高。另一方面,Pix2pixHD只会最大化感知指标,而不会丢失身份,从而导致FID最小化,但从CSIM专栏可以看出,Pix2pixHD的身份并不匹配。

此外,这些指标与人类感知并不特别密切相关,因为它们都会产生不可思议的山谷文物,如图3和用户研究所示。另一方面,余弦相似度与视觉质量具有更好的相关性,但仍然趋于模糊,不太逼真的图像,这也可以通过比较表1和图3中的结果来看出。

de3ac21cd0334cf7ac5cdc8e8f9b1b97.jpeg

图3:VoxCeleb1数据集的结果。对于每种比较方法,研究人员对在元培训或预训练期间未见过的角色视频执行一次性和几次性学习。他们将训练的帧数设置为T(最左边的数字)。 “源”列显示其中一个训练帧。

接下来,研究人员扩展了可用数据,并开始使用大量视频在VoxCeleb2上训练模型。他们训练了两种模型:FF(前馈)和FT。前者训练150个时期并且没有嵌入匹配损耗LMCH,因此在使用时不进行微调。后者训练75个时期,但有LMCH,支持微调。

两种模型都经过评估,因为它们可以在少数学习速度和结果质量之间进行交易。与在VoxCeleb1上训练的小型模型相比,两者都得分非常高。值得注意的是,FT模型在T=32时达到了用户研究准确度的下限,即0.33,这是一个完美的分数。两种模型的结果如图4所示:

c7f9379324a44c298b4968ca0bc4a9da.jpeg

图4:三星在VoxCeleb2数据集上的最佳模型的结果。

最后,研究人员在照片或肖像上展示了该模型的结果。为此,研究人员评估了在一次性设置下训练的模型,该模型源自VoxCeleb2数据集的测试视频。他们使用CSIM指标对这些视频进行排序,并在原始图像和生成的图像之间进行计算。这使研究人员能够发现具有相似地标几何特征的面部,并将其从静态变为动态。结果如图5和图1所示。

6c26b9541ea04b28b6582778d335ca2a.jpeg

图5:将静态照片变为现实。

看看更多