Drag Your GAN:动动鼠标「拖拽」即可实现精准修图!(方法论文控制图像跟踪)

编辑丨极市平台

本文首发于极市平台,转载须经授权注明来源并插入公众号名片。

1. 论文信息

论文链接:https://arxiv.org/abs/2305.10973

Drag Your GAN:动动鼠标「拖拽」即可实现精准修图!(方法论文控制图像跟踪) 汽修知识
(图片来自网络侵删)

项目地址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/

2. 引言

生成对抗网络(GANs)等深度生成模型已经在合成随机逼真的图像方面取得了前所未有的成功。
在实际应用中,这种基于学习的图像合成方法的一个关键功能要求是对合成视觉内容进行可控性。
例如,社交媒体用户可能希望调整随意拍摄照片中人或动物的位置、形状、表情和身体姿态;专业电影预可视化和媒体编辑可能需要高效地创建具有特定布局的场景草图;汽车设计师可能希望交互式修改其创作的形状。
为了满足这些不同的用户需求,理想的可控图像合成方法应具备以下特性:1) Flexibility:它应该能够控制生成对象或动物的不同空间属性,包括位置、姿势、形状、表情和布局;2)Precision:它应该能够高精度地控制空间属性;3)Generality:它应该适用于不同的对象类别,而不仅仅限于某个类别。

虽然以前的工作只满足了其中一个或两个属性,但在本文中,论文旨在实现所有这些属性的满足。
以前的方法通过先前的3D模型或依赖于手动注释的数据的监督学习来实现GAN的可控性。
因此,这些方法无法推广到新的对象类别,往往只能控制有限的空间属性或在编辑过程中提供很少的控制。
最近,文本引导的图像合成引起了关注。
然而,文本指导在编辑空间属性方面缺乏精度和灵活性。
为了实现GAN的灵活、精确和通用的可控性,在本文中,论文探讨了一种强大但很少被探索的交互式基于点的操作。
具体而言,论文允许用户在图像上点击任意数量的控制点和目标点,目标是将控制点驱动到其相应的目标点。
本文所研究的问题比用户可控LT方法的设置更具挑战性:1)论文考虑控制超过一个点,而他们的方法不好处理;2)论文要求控制点精确地到达目标点,而他们的方法则不然。
论文的技术建立在GAN的特征空间足够有辨别力的关键洞察上,可以实现运动监督和精确点跟踪。
论文提出的DragGAN方法解决了两个子问题,包括1)监督控制点移向目标点和2)跟踪控制点,使得每个编辑步骤中它们的位置是已知的。
本文提出的算法只需要一台RTX 3090 GPU,即可在几秒钟内实现高效操作,从而实现实时交互式编辑会话,在此过程中,用户可以快速迭代不同的布局,直到达到所需的输出。

论文在不同的数据集上对DragGAN进行了广泛的评估,包括动物(狮子、狗、猫和马)、人类(脸和全身)、汽车和风景等。
与传统的形状变形方法只应用变形不同,论文的变形是在GAN学习的图像流形上进行的,因此往往符合底层对象结构。
论文的方法可以幻想被遮挡的内容,例如狮子嘴里的牙齿,并且可以遵循对象的刚性,例如马腿的弯曲。
论文还开发了一个GUI,供用户通过简单地点击图像来交互式地进行操作。
定性和定量比较确认了论文的方法优于UserControllableLT。
此外,论文基于GAN的点跟踪算法还优于现有的点跟踪方法,例如RAFT和PIPs。
此外,通过与GAN反演技术相结合,论文的方法还可以作为实际图像编辑的强大工具。

3. 方法

3.1 Interactive Point-based Manipulation

Interactive Point-based Manipulation是一种交互式图像操作方法,允许用户在GAN生成的图像中输入一些控制点和它们对应的目标点,以实现图像中物体的移动。
该方法使用优化技术进行图像编辑,每个优化步骤包括两个子步骤:1)motion supervision,通过损失函数促使控制点向目标点移动,2)point tracking,更新控制点的位置以跟踪物体的对应点。
这两个步骤交替进行,直到控制点到达目标点,实现了交互式的图像操作。

3.2 motion supervision

3.3 point tracking

使用点跟踪来更新控制点的位置以跟踪物体的对应点。
具体来说,论文在初始图像中确定控制点的位置,然后在每个交互步骤中,论文使用生成的图像和前一步中更新的控制点位置来确定新的控制点位置。
论文使用初始图像中的控制点对应的特征向量,与生成的图像中的控制点周围的特征向量进行匹配,来找到新的控制点位置。
这个过程通常通过计算控制点和周围像素的运动向量来实现,也可以使用其他技术,如光流估计、粒子视频和特征匹配等。
在Interactive Point-based Manipulation中,论文提出了一种基于GAN的点跟踪方法,利用了GAN的辨别特征来实现密集的对应关系。
具体地,论文利用了GAN生成器中间的特征映射来实现点跟踪,通过在控制点周围的区域中搜索与初始特征向量最接近的特征向量来更新控制点的位置。
这种方法避免了使用其他额外的模型,可以提高效率并减少累积误差,同时在GAN图像中也有很好的鲁棒性。

4. 实验

上图展示了论文的方法和UserControllableLT在几个不同的物体类别和用户输入下的图像操作结果的定性比较。
论文的方法准确地将控制点移动到目标点,实现了多样化和自然的图像操作效果,例如改变动物的姿态、汽车的形状和风景的布局。
相比之下,UserControllableLT不能准确地将控制点移动到目标点,并经常导致图像中不必要的变化,例如人的衣服和汽车的背景。
与论文的方法相比,它也不能像论文一样保持未遮罩区域不变,如猫图像所示。
论文的方法准确地跟踪了狮子鼻子上方的控制点,成功地将其移动到目标位置。
在PIP和RAFT中,跟踪点在操作过程中开始偏离鼻子,因此它们将错误的部分移动到目标位置。
当不进行跟踪时,固定的控制点很快就开始驱动图像的另一部分(例如背景),几步之后就不再知道何时停止,这无法实现编辑目标。

这是一张关于人脸关键点编辑的量化评估表格。
论文计算了编辑点与目标点之间的平均距离,并报告了基于“1点”设置的FID和时间。
具体来说,论文比较了五种不同的方法,包括:不编辑(No edit)、UserControllableLT、使用RAFT跟踪的论文的方法(Ours w. RAFT tracking)、使用PIP跟踪的论文的方法(Ours w. PIPs tracking)和没有跟踪的论文的方法(Ours)。
从表中可以看出,与没有编辑相比,所有的方法都可以实现人脸关键点的编辑,并显著减小了编辑点与目标点之间的平均距离。
其中,使用UserControllableLT实现的编辑效果最差,平均距离最大,这是因为它不能准确地将控制点移动到目标点。
使用RAFT跟踪的论文的方法和没有跟踪的论文的方法可以实现较好的编辑效果,但是平均距离仍然较大。
使用PIP跟踪的论文的方法可以实现最好的编辑效果,平均距离最小。
此外,论文的方法在时间上也表现得非常优秀,可以在2秒内完成编辑任务。
最后,论文还报告了FID值,用于衡量生成图像和真实图像之间的差异。
可以看出,论文的方法在FID值上也表现得更好,这表明它可以生成更逼真的图像。

而图像编辑的方法,对论文的方法和其他三种方法在四个不同数据集上进行了评估。
评估指标包括均方误差(MSE)和感知距离度量(LPIPS),这两个指标都越小越好。
从表中可以看出,论文的方法在所有数据集上都表现得更好。
具体来说,论文的方法在Lion、Dog和LSUN Car数据集上的MSE和LPIPS值都优于其他三种方法。
在LSUN Cat数据集上,论文的方法的MSE值略高于UserControllableLT,但LPIPS值更低,表明论文的方法可以产生更逼真的图像。

5. 讨论

文提出了一种基于自监督学习的图像编辑方法,可以实现对图像中的指定区域进行精细控制,同时保持未遮罩区域的不变性。
该方法在多个任务和数据集上进行了评估,并与其他方法进行了比较,证明了其优越性。

然而,该方法仍存在一些局限性。
首先,该方法需要大量的计算资源和时间来训练,这限制了其在实际应用中的使用。
其次,该方法在处理复杂的背景时可能会出现一些问题,例如需要编辑的区域与背景区域颜色相近或者纹理复杂的情况。
此外,该方法对输入的控制点数量有限制,如果需要对更大的区域进行编辑,则需要更多的控制点,这可能会增加编辑的难度。

尽管存在一些局限性,本文提出的方法仍具有许多优越性。
首先,该方法可以实现对图像的精细控制,可以准确地将控制点移动到目标点,实现多样化和自然的图像操作效果。
其次,该方法可以保持未遮罩区域的不变性,从而避免了一些图像编辑方法中可能出现的不自然效果。
此外,该方法在多个任务和数据集上进行了评估,并与其他方法进行了比较,证明了其优越性。
最后,该方法是基于自监督学习的,不需要额外的标注数据,可以适用于各种图像编辑任务和应用场景。

6. 结论

论文提出了DragGAN,一个直观的基于点的交互式图像编辑方法。
论文的方法利用预先训练的GAN合成图像,这些图像不仅精确地遵循用户输入,而且仍然处于真实图像的流形上。
与许多先前的方法不同,论文提出了一个通用的框架,不依赖于特定领域的建模或辅助网络。
这是通过使用两种新颖的方法实现的:一种是对潜在编码的优化,逐步将多个处理点移动到它们的目标位置,另一种是点跟踪过程,忠实地跟踪处理点的轨迹。
这两个组成部分都利用了GAN中间特征图的判别性质,产生了像素精确的图像变形和交互性能。
论文已经证明了论文的方法在基于GAN的操作方面优于现有技术,并开辟了使用生成先验进行强大图像编辑的新方向。
至于未来的工作,论文计划将基于点的编辑扩展到3D生成模型中。

联系我们

在线咨询:点击这里给我发消息