机械之心专栏
作者 :Snap钻研院 ,更高香港中文大学,清写香港大学,实的式妄南洋理工大学
论文地址: https://arxiv.org/pdf/2310.08579.pdf
Github 地址: https://github.com/snap-research/HyperHuman
1. 钻研布景与念头
随着散漫模子的人体崛起,一些典型的天生模子好比 Stable Diffusion, DALL-E 2 等在文本天生图像使命上揭示了使人震撼的能耐。但一个清晰的模H漫刷缺少是 ,这些模子在文本天生人体图片的于隐使命上展现患上不精美绝伦,致使很难天生具备公平妄想或者做作姿态的想散新多项人体(好比精确的四肢数目以及适宜人体物理妄想的多少多拓扑) 。眼前的更高主要原因在于:做作情景下的人体是铰接的,且搜罗刚性以及非刚性的清写形变;天生高品质的人体图片需要文本难以形貌的妄想信息 。
为了在文生图中引入妄想操作信息,实的式妄近期的人体代表使命如 ControlNet[1] ,T2I-Adapter [2] 削减了颇为轻量的天生 、即插即用的模H漫刷可学习分支,用以调节预磨炼的于隐文生图散漫模子。可是,原本散漫模子分支以及新退出的可学习分支之间的特色差距,每一每一会导致生乐成果与操作信号的不不同。
为了处置这个下场, HumanSD [3] 运用了一种原生的操作向导方式,即直接将人体骨架图与散漫模子输入在特色维度妨碍拼接。尽管确定水平上处置了天生 - 条件不同过错齐的下场,但规模于天生艺术画风的图片 ,在天生品质、多样性以及写实性上仍有美满。此外,以前的大部份使命仅仅把操作信号作为一种输入或者向导条件,却漠视了人体概况与差距妄想信息之间多层级的分割关连。若何天生一个传神的 、妄想公平的人体图片依然是一个未处置的下场 。
在本文中,Snap 钻研院、香港中文大学、香港大学 、南洋理工大学团队推出了最新的高写实人体天生模子 HyperHuman,经由对于显式的人体概况与隐式的多层级人体妄想妨碍散漫学习 ,在 zero-shot 的 MS-COCO 数据集上取患了最佳的图片品质(FID, FID_CLIP, KID)与天生 - 人体姿态不同性(AP, AR)目的服从 ,且取患了优异的文本 - 图像对于齐目的(CLIP score)服从 ,并在普遍的用户主不雅评测中取患了最优的服从。
2. 中间措施
为了引入人体骨架图以妨碍姿态操作 ,最重大的措施是经由特色残差或者输入串联。可是 ,这种做法依然存在多少个下场 :(1)浓密关键点仅形貌了简陋的人体妄想,而漠视了细粒度的人体多少多妄想以及远景 - 布景关连。此外,原始的散漫模子磨炼仅由 RGB 信号妨碍把守,无奈取患上数据集图片中搜罗的妄想信息。(2)图像 RGB 以及妄想表当初空间上对于齐 ,但在特色空间扩散上有很大的差距。若何对于它们妨碍散漫建模依然具备挑战性。
(1)Unified Model for Simultaneous Denoising.
咱们对于第一个下场的处置妄想是同时对于深度图、概况法向图以及分解的 RGB 图像妨碍去噪 。抉择它们作为格外的学习目的有两个原因 :1)深度以及概况法向可能很简略地对于大规模数据集妨碍自动标注取患上 ,这也被普遍用于最近的可控文生图模子中 [1,2] 。2) 作为两种罕用的妄想教育,它们填补了空间关连以及多少多信息 ,其中深度图以及概况法向图在最近的三维视觉钻研中被证实是大有辅助的[4] 。为此,一种重大的措施是磨炼三个自力的收集来分说对于 RGB 、深度图以及概况法向妨碍去噪。但它们之间的空间对于齐性很难坚持。因此,咱们提出在不同的模子框架中经由同时去噪来学习三者的散漫扩散,可能用如下损失函数妨碍磨炼:
(2)Structural Expert Branches with Shared Backbone.
为了能让一个散漫模子的 UNet 同时处置来自三个差距扩散的 RGB 、深度图、概况法向图,而且为三种模态分说输入去噪信号 ,咱们提出对于 UNet 主干收集的最前多少层降采样模块以及最后多少层上采样模块妨碍复制 ,用以作为三种差距窗习目的的妄想专家去噪分支 。试验发现,模块复制的层数会掂量三种输入之间的空间对于齐性以及各自的扩散学习精准度 :(1)一方面 ,更少的自力分支参数 + 更多的同享主干收集参数能带来更强的输入相似性,从而让散漫模子输入的 RGB、深度图、概况法向图在空间上愈加对于齐。(2)另一方面,一组对于应的 RGB 、深度图 、概况法向图可能看做是统一张图片的差距形态 。在经由同享主干收集后,咱们可能患上到相同的中间层收集特色。凭证相同的特色患上到统一张图的差距形态 / 表征 / 气焰,在本性上以及图片 - 图片变更下场 (Image-to-Image Translation) 颇为相似 。以是,咱们有需要有饶富多的自力收集参数来实现这个使命。可能思考一个极真个例子:假如差距去噪分支的参数只搜罗一层 conv 层 ,那末咱们就需要仅用一层卷积收集把同样的特色映射到 RGB、深度图以及概况法向图输入,这显明是无奈做到的 。经由短缺的试验后 ,咱们抉择拷贝原始散漫模子 UNet 的输入卷积层(conv_in) 、第一层降采样模块 (DownBlock)、最后一层上采样模块(UpBlock) ,以及输入卷积层(conv_out) 。这样既保障了输入的 RGB 、深度图以及概况法向图之间的空间对于齐 ,又能对于三种差距模态的表征扩散妨碍精确的学习 ,详细的收集妄想展现图如下:
除了以上两个主要贡献 ,文中尚有对于散漫学习中的噪声层级采样策略以及若何运用一阶段估量的妄想信息患上到更高分说率、更细节 、更传神的生乐成果妨碍了精心妄想,详细内容请参考论文。
3. 试验服从
HyperHuman 在 zero-shot 的 MS-COCO 数据集上取患了最佳的图片品质(FID, FID_CLIP, KID)与天生 - 人体姿态不同性(AP, AR)目的服从 ,且取患了优异的文本 - 图像对于齐目的(CLIP score)服从。其中,SDXL [5] 运用了两个文本编码器 ,而且运用了 3 倍巨细的散漫模子 UNet 主干收集 ,因此具备更多的文本 - 图像 cross-attention 层,在 CLIP score 上展现最佳 。尽管如斯,HyperHuman 在 CLIP score 上依然取患了相似的服从 ,而且以及其余具备相同文本编码器参数的文生图模子比照 ,具备更优的文本 - 图像不同性展现:
此外,咱们还格外揭示了 FID-CLIP 以及 FID_CLIP-CLIP 曲线 ,用以揭示差距模子在差距 Classifier-free Guidance (CFG)下的展现