广州站停运最新消息,带后台的手机网站源码,郴州新网官网,郑州最好的男科医院是什么医院一种新的商品表现形态#xff0c;内容几乎存在于手淘用户动线全流程#xff0c;例如信息流种草内容、搜索消费决策内容、详情页种草内容等。通过低成本、高时效的AIGC内容生成能力#xff0c;能够从供给端缓解内容生产成本高的问题#xff0c;通过源源不断的低成本供给倒推… 一种新的商品表现形态内容几乎存在于手淘用户动线全流程例如信息流种草内容、搜索消费决策内容、详情页种草内容等。通过低成本、高时效的AIGC内容生成能力能够从供给端缓解内容生产成本高的问题通过源源不断的低成本供给倒推消费生态的建立。过去一年我们通过在视频生成、图文联合生成、个性化文案、人设Agent等核心技术上的持续攻关AIGC内容生成在手淘多个场景取得了规模化落地价值。本专题《淘宝的AIGC内容生成技术总结》是我们摸索出的一部分实践经验我们将开启一段时间的内容AI专题连载欢迎大家一起交流进步。 技术介绍 多模态驱动的人物视频生成技术具有重要的应用价值和发展前景。在商业领域中虚拟主播与数字员工正逐步改变传统的营销和服务模式。通过提供不间断的智能客服、直播带货等服务它们显著提升了运营效率和用户体验。此外在教育、医疗及文化娱乐产业等领域内人物也有着广泛的应用场景。 然而要实现上述丰富应用场景则需掌握并突破一系列关键的技术瓶颈。为了深入理解人物视频生成技术的发展现状及其工作机制本文首先回顾了该领域的关键技术包括口唇驱动、头部驱动以及肢体驱动并选取每项技术中的两篇代表性研究进行详细介绍。随后文章进一步探讨了人物视频生成技术在淘天业务场景中的应用形式与效果为推动人物视频生成技术的实际落地提供了新的启示。 ▐ 口唇驱动 在口唇驱动领域的一个经典工作是由印度研究人员在 MM20 上发表的 Wav2Lip[1]。该方法目前在 GitHub 上已获得了超过 10,700 次 star 的关注。Wav2Lip 是一个基于生成对抗网络GAN的语音驱动口唇方案采用逐帧独立输出的方式。其流程结构如下图所示 Wav2Lip 主要包括三个核心模块Speech Encoder、Identity Encoder 和 Face Decoder。对于一段待驱动口唇的视频首先提取其中的音频并进行切片处理使得每个音频片段能够与具体的视频帧对应起来。将这些音频片段转换成梅尔频谱并输入到 Speech Encoder 中以获取音频特征。同时遮住待驱动帧的下半部分图像并随机选择一帧作为参考图。这两张图片通过通道拼接的方式输入到 Identity Encoder 中提取出图像特征。接下来将得到的音频特征和图像特征进行拼接并传递给 Face Decoder最终生成具有唇形变化的一帧视频。 Wav2Lip 的训练损失函数较为复杂这是该工作的主要创新点之一。具体来说它包含一个判别器用于评估生成图像的视觉保真度这是一个典型的 GAN 损失项。 此外Wav2Lip 还在像素空间中计算 L1 损失。 然而由于口唇区域在整个脸部所占的比例很小约 4%重建损失对口唇部分的影响相对较小同时GAN 的主要目标是生成逼真的图像而不是专注于特定细节的同步度。因此Wav2Lip 引入了一种称为同步损失Sync Loss的技术并在此基础上加入了时间约束。 具体而言在训练过程中一次性引入了连续帧。在前向推理时这些帧的形状为而在计算损失时将帧通过通道拼接得到一个整体输入与对应的音频一起输入到预训练好的 SyncNet 中以计算同步度损失。实验表明当时效果明显优于单帧的同步度计算。SyncNet 是一个在 Wav2Lip 训练之前预先训练好的网络在后续训练中不会进行更新。 基于这一 GAN 方案Wav2Lip 能够生成唇部同步较好的视频但在图像清晰度方面仍存在一定限制这主要是由于其网络结构设计等因素所致。为此近期提出了一个改进方案 MuseTalk以进一步提升 Wav2Lip 的性能和效果。 MuseTalk[2] 是腾讯于 2024 年初提出的方案其实质是一个基于图像修复inpainting模型并且不采用迭代式的扩散Diffusion方法因此具备准实时性能尽管其网络结构和信息注入参考了当前的 Diffusion 方案。MuseTalk 的架构如下图所示 首先将一个参考人脸图像与遮挡下半部分的目标图像通过变分自编码器VAE进行编码生成潜在空间中的特征表示并将其拼接后作为 UNet 模型的输入。对于驱动音频在时刻对应的音频片段被提取并通过Whisper 模型进行音频特征编码。然后在不同尺度上将这些音频特征与视觉特征融合。最后通过 VAE 解码器将融合后的特征解码回像素空间生成一帧口型同步的说话人脸图像。这种方案不仅提高了唇部同步度还保持了较高的图像清晰度和实时性。 MuseTalk 的目标函数设计较为复杂与 Latent Diffusion Model 在潜空间计算 MSE loss 不同的是MuseTalk 在像素空间中计算重建损失 这一点和 Wav2Lip 相同。此外MuseTalk 使用 VGG19 作为特征提取器来计算感知Perception损失 并且同步训练判别器以引入完整的 GAN 损失 。与 Wav2Lip 类似MuseTalk 同样使用了基于 SyncNet 打分的同步损失。这些不同的损失函数在训练过程中被综合起来进行优化。 特别值得注意的是在训练阶段引入了 Selective Information Sampling (SIS) 模块选择头部姿态接近但口唇差异大的样本作为参考图像从而让模型更加专注于生成高质量的口唇部分。 在实验效果方面MuseTalk 确实优于 Wav2Lip主要原因包括以下几个因素 音频特征提取MuseTalk 使用 Whisper 提取更高质量的音频特征提升了口唇同步性能。跨模态融合机制MuseTalk 通过 cross-attention 融合音频和图像特征相比简单的空间拼接方法更能捕捉到多模态信息之间的复杂关系。网络结构优化采用基于 Latent Diffusion Model (LDM) 的 UNet 网络结构并引入了注意力层attention layers增强了模型在生成高质量图像时的表示能。参考图片选择机制通过 SIS 机制选择头部姿态接近但口唇差异大的样本作为参考图片使得模型更加专注于生成高质量的口唇部分。损失函数改进引入了基于 VGG19 特征提取器计算的感知损失进一步提升图像质量。VAE 编解码通过采用 VAE 进行编解码操作可以实现更高质量和更高分辨率的图像生成。 ▐ 头部驱动 尽管口唇同步是人物视频生成领域的一个关键研究方向但诸如头部动作、目光和眨眼等细节特征的一致性对于生成视频的真实度同样具有重要影响。因此业界正在积极研究完整的头部驱动技术这些方法通常能达到更高的效果上限。 阿里通义实验室的EMO [13] 在头部驱动技术方面处于领先地位其逼真的结果激发了一系列基于StableDiffusion方案的研究工作但EMO本身并未开源。本文将重点介绍两种开源的头部驱动代表性作品它们与EMO的工作流程大致相似。 来自复旦大学的Hallo[3] 是其中一种方法其主要流程如下图所示 Hallo的整体流程与即将介绍的AnimateAnyone非常相似。具体而言通过在潜在空间中随机采样噪声并对其进行去噪处理以得到视频的潜在变量。该方法主要包括以下模块 VAE 编解码器使得模型能够在潜在空间进行有效的去噪操作。AudioEncoderwav2vec 模型用于编码驱动音频信号并将其注入到DenoiseUNet中以实现与语音同步的动画效果。ReferenceNet 和 FaceEncoder 图像编码器编码全局视觉纹理信息从而保证角色动画的一致性和可控性。ReferenceNet 的层级特征与 DenoiseUNet 中对应的特征进行融合以便嵌入身份信息。 值得一提的是Hallo引入了层级音频-视觉交叉注意力模块Hierarchical Audio-Visual Cross Attention来增强语音特征和特定面部位置之间的一致性具体结构如下图所示 对于参考帧需要预先检测出口唇部、面部表情和姿态等区域并分别得到对应的掩码口唇部、面部表情和姿态。在将音频特征和 UNet 特征进行交叉注意力机制处理后基于这些掩码分别提取对应区域的局部特征。随后每个局部特征经过一个卷积层(Conv)处理并最终融合在一起作为新的 UNet 输入特征。这种方法可以增强音频特征与 UNet 特征之间的关联性从而提升面部驱动的效果。笔者认为在分离和合并局部特征的过程中能够更有效地针对特定部位进行增强和控制。 除了Hallo之外蚂蚁集团开发的EchoMimic[4] 在网络结构上与其类似但引入了一个关键的Landmark Encoder模块如图所示将人脸的关键点信息纳入模型中从而提高了生成视频的保真度和一致性。 具体而言EchoMimic在训练过程中采用随机地标选择(Random Landmark SelectionRLS)方法即随机丢弃一些面部关键点如下图所示这使得推理阶段可以使用完整或部分的面部关键点。这一设计提供了额外的控制条件使模型具备更高的灵活性并结合了Hallo和LivePortrait的优点。 此外在损失函数的设计上EchoMimic 不仅在潜在空间中计算损失还在像素空间中引入了一个损失项以捕捉面部细节信息。这种多尺度损失策略有助于提升生成视频的质量。综上所述虽然EchoMimic的网络结构与Hallo相似但其引入的关键点编码器和改进的损失函数使其具备了更高的灵活性和更好的性能表现。 在定量指标方面EchoMimic表现出更好的性能。这很大程度上归因于其更大的训练数据集EchoMimic使用了540小时的数据进行训练而Hallo仅使用了150小时的训练数据。 除了上述工作之外基于3D方案的头部驱动也进行了大量研究如GeneFace[5]、GeneFace[6] 和SyncTalk[7] 等。这些方法大多基于NeRF或Gaussian Splatting技术并通常需要几分钟的人脸视频进行3D建模且针对特定形象需单独训练。由于篇幅有限本文不详细介绍这些工作。 ▐ 肢体驱动 完整的人物驱动不仅依赖于口唇和头部驱动还需要与语音一致的人体姿态这方面的研究被称为协同语音的人物姿态视频生成Co-Speech Video Generation。这类方法通常可以分为两类生成式的视频生成和检索式的视频生成。生成式的视频生成以给定的音频作为条件直接生成所有的视频帧。这种技术可以直接合成符合语音特征的新视频内容。检索式的视频生成则利用已有的视频片段组合出新的视频并通过插帧的方法来补足帧之间的不连续部分。这种方法通常从现有数据中选择最匹配的部分进行重组和优化。这两种方法各有优缺点具体应用取决于需求和资源的可用性。生成式方法可以直接合成新内容但可能需要更多的计算资源检索式方法则可以利用现有的大量视频片段但在插帧时可能会遇到不连续的问题。 生成式协同语音的视频生成 生成式的视频生成通常包含两个步骤speech2pose和pose2video。首先将语音映射到特定的动作序列如3D序列或2D骨架图序列然后再使用这些动作序列来驱动视频的生成。 对于第一阶段的speech2pose相关工作主要包括PantoMatrix[10] 等研究。这一领域的详细内容本文不做详细介绍请读者查阅原始文献。近年来在pose2video领域中最具代表性的作品之一是AnimateAnyone[8]。其流程框图如下所示 AnimateAnyone的目标是从随机噪声中采样并对其进行去噪处理以得到估计的视频潜在变量。其具体模块如下 基于预训练的 VAE 编码器和解码器通过预训练的变分自编码器VAE在潜在空间中进行去噪过程PoseGuider将姿态特征添加到潜在空间中的噪声中作为 DenoiseNet 的输入。这一步确保了生成的动作与语音信号的一致性。ReferenceNet 和 CLIP 图像编码器通过 ReferenceNet 保持人物外观的一致性并引入 CLIP 图像编码器来嵌入身份信息。来自 ReferenceNet 的层级特征与 Denoising UNet 中对应的特征进行融合以确保生成的视频帧具有稳定的视觉风格。v-prediction 损失计算通过计算 v-prediction 损失用于训练整个模型。 通过这种方式AnimateAnyone能够有效地依据Pose序列驱动参考图生成纹理和姿态一致的视频内容。 检索式协同语音的视频生成 在检索式协同语音驱动的视频生成领域中Tango[9] 是一个典型的工作实例。Tango 生成手势视频的过程可以分为三个步骤首先它构建了一个有向运动图Motion Graph将特定的原子视频片段表示为节点并通过有效的转场路径作为边来连接这些节点。每条采样的路径指示了选定的播放顺序。其次在输入音频之后使用基于跨模态相似度比较模型 AuMoCLIP 进行检索模块操作该过程通过最小化跨模态特征距离来找到与目标音频最匹配的手势路径。最后在原始参考视频中不存在转场边的情况下利用基于扩散的插值模型生成外观一致的连接帧。 采样得到的路径通常包含许多跳变因此需要使用一个插帧模型来填补缺失的帧从而生成连贯的视频。Tango 采用了基于 AnimateAnyone 的方法来进行视频插帧。如图所示与 AnimateAnyone 不同的是Tango 引入了 Background Guider 模块并修改了 Motion Module 部分。通过这些改进Tango 能够更好地处理背景和动作细节从而生成更自然、连贯的视频。 Background Guider 的网络结构与 PoseGuider 基本相同。作者提出 Background Guider 是因为在生成插帧时发现背景存在明显的漂移和跳变现象。通过引入参考帧和目标帧之间的单应性矩阵计算每个像素点的偏移量offset并将该 offset 作为 Background Guider 的输入从而矫正生成视频中的视角误差。 在 Motion Module 部分核心操作是时间维度上的 self-attention。作者在此模块中引入了真实参考帧的潜在特征在训练阶段随机引入这些特征在推理阶段则直接使用参考特征来增强生成插帧的真实性。 业务流程与效果 人物视频生成技术取得了显著进展我们尝试将其应用于淘天平台的视频营销业务场景中。具体而言可以在营销视频中插入人物形象以真实人物的方式向消费者介绍商品或福利从而增强营销的可信度、拉近与消费者的距离并提升视频的点击率CTR为下游承接项目提供更多的流量支持。 ▐ 业务场景与流程 我们将整个业务流程划分为四个环节素材生成与筛选、人物驱动、质量过滤和合成链路。这一完整的链路串联了组内多名同学的能力和贡献是团队技术能力的一次综合体现。 由于需要支持多种生产线的视频生成在素材生成与筛选阶段我们需要集成各种类型的原始素材。具体来说 从头生成视频涉及商品池的选择与构建以及从商品池到文案、语音等环节的生成已有视频素材需进行干声提取和性别判定等步骤。 通过基于同步语音的相似度比较等方式筛选并构建出质量高且通用性强的人体动作模板库。为了进一步提升人物形象的多样性我们进行了换脸和换装操作。以下详细介绍这两项技术的应用 换脸技术 换脸技术已经非常成熟流行的方法有 Roop、FaceFusion 等等。然而我们面临的难点是如何获取丰富且无版权限制的人脸图片。起初我们考虑使用基于扩散模型生成人脸的方案但发现这些模型虽然可以生成较为逼真的人脸但是这些人脸之间都非常相似难以确保多样性。 如下图所示我们分别使用了 Flux 和 MajicMix 模型并结合不同的 Prompt 来生成人脸图像。然而每一列得到的人脸图片样貌过于相似无法保证多样性。 flux manflux womanmajicmix manmajicmix women 具体来说使用扩散模型生成人脸虽然可以生成逼真的人脸图像但是这些模型生成的人脸之间缺乏足够的多样性。我们尝试了即便使用不同的 Prompt生成的图片仍然表现出高度的一致性难以满足多样性的需求。 为了克服这一难题我们专门研发了基于多参考图的、细粒度高可控的人脸局部替换技术 FuseAnyPart[11]。目前相关研究工作已经收录于 NeurIPS 24Spotlight中其大致原理如下图所示 FuseAnyPart 的基本思路是通过将不同人物的局部特征进行融合来生成新的形象。这种方法使得合成图像中的五官发生变化与原图产生实质性差异并且基于组合原理可以确保生成人脸的多样性。 具体步骤如下 面部检测和掩码提取首先使用一个开放集检测器识别面部图像以获取各种面部部位如眼睛、鼻子、嘴巴等的掩码。特征提取接着通过图像编码器利用这些掩码从面部图像中提取相应的局部特征。基于掩码的融合模块将提取到的面部部位特征和掩码输入到基于掩码的融合模块在潜在空间中组合出一个完整的面部。加法注入模块整合后的特征被传送到基于加法的注入模块以便在扩散模型的 UNet 结构中进行进一步的融合。 这种技术使得生成的人脸具有高度多样性和自然感。通过在潜在空间中的灵活组合和调整可以创造出新的面部形象从而有效解决人脸多样性的问题并为人物驱动提供高质量、多样化的人脸素材。 经过 FuseAnyPart 的融合处理可以得到清晰、自然的合成人脸图像并且与一些基线方法相比表现出更佳的效果。 此外FuseAnyPart 在跨种族和跨年龄样本的合成上也展示出了不错的表现能够生成多样化的人脸图像。 FuseAnyPart 还可以进行人物与卡通形象的融合提供更多的创意应用场景。这种灵活性不仅增加了系统的趣味性和多样性还拓展了其在娱乐、游戏等领域的应用范围。 为了构建高质量的人脸库在业务数据集上我们通过 FuseAnyPart 生成了一批合成人脸并对其五官进行了调整和替换。这些经过处理的合成人脸不仅可以用于人物驱动还可以在其他需要人脸图像的应用场景中使用大大丰富了数据资源并提高了应用效果。 通过上述方法和技术我们可以确保生成的人脸库既具有多样性又具备高质量和自然感。这不仅有助于提升用户体验还为各种应用场景提供了丰富的素材支持。 换衣技术 为了进一步提升人物的多样性除了进行换脸之外还开发了一种视频级的换衣技术并应用了组内研发的 GPD-VVTO[12] 方案目前该工作已经收录于 ACMMM24。该方案能够在视频上实现细节丰富、时序一致的换衣效果为人物提供了更多的创意和应用场景。 GPD-VVTO架构主要由一个UNet骨干网络构成。该网络以视频噪声潜在表示、无服装视频潜在表示和二值遮罩序列作为输入同时整合了DensePose序列的姿态信息。通过服装编码器和DINO编码器分别提取服装的局部纹理和全局语义特征并通过JSA、SCA和GTA三个注意力模块将这些特征注入主网络以实现服装细节的精确迁移。 采用 GPD-VVTO 方案构建了数百个换衣后的视频动作模板。这些模板支持下游人物视频业务中的各种应用场景如服装定制、角色扮演等。 通过这一方案的应用不仅提升了人物形象在视觉上的多样性还增强了其在娱乐和商业应用中的吸引力和互动性。这为用户提供了一种全新的体验方式使人物视频更加生动和真实。GPD-VVTO 方案在视频级换衣技术中展现出了卓越的能力能够生成高质量、自然且一致的换衣效果。这对于提升人物视频的多样性和用户体验具有重要意义并为进一步拓展其应用领域奠定了坚实基础。 未来展望 目前在产品效果方面我们设计了多种样式以增强含人物的营销视频的多样化在素材外投业务中进行了初步尝试结果显示引入人物显著提升了视频的点击率。为期两周的线上测试表明通过添加二次创作的人物视频都能够有效吸引观众的注意力并提高用户的互动和参与度。鉴于这些积极的结果相关量产方案正在设计当中以期在未来更大范围内推广和应用人物视频生成技术从而实现更广泛的商业价值。 参考文献 [1] Prajwal K R, Mukhopadhyay R, Namboodiri V P, et al. A lip sync expert is all you need for speech to lip generation in the wild[C]//Proceedings of the 28th ACM international conference on multimedia. 2020: 484-492. [2] Zhang Y, Liu M, Chen Z, et al. MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting[J]. arxiv preprint arxiv:2410.10122, 2024. [3] Xu M, Li H, Su Q, et al. Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation[J]. arxiv preprint arxiv:2406.08801, 2024. [4] Chen Z, Cao J, Chen Z, et al. Echomimic: Lifelike audio-driven portrait animations through editable landmark conditions[J]. arxiv preprint arxiv:2407.08136, 2024. [5] Ye Z, Jiang Z, Ren Y, et al. Geneface: Generalized and high-fidelity audio-driven 3d talking face synthesis[J]. arxiv preprint arxiv:2301.13430, 2023. [6] Ye Z, He J, Jiang Z, et al. Geneface: Generalized and stable real-time audio-driven 3d talking face generation[J]. arxiv preprint arxiv:2305.00787, 2023. [7] Peng Z, Hu W, Shi Y, et al. Synctalk: The devil is in the synchronization for talking head synthesis[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 666-676. [8] Hu L. Animate anyone: Consistent and controllable image-to-video synthesis for character animation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 8153-8163. [9] Liu H, Yang X, Akiyama T, et al. TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation[J]. arxiv preprint arxiv:2410.04221, 2024. [10] Liu H, Zhu Z, Becherini G, et al. EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 1144-1154. [11] Yu Z, Wang Y, Cui S, et al. FuseAnyPart: Diffusion-Driven Facial Parts Swap via Multiple Reference Images[J]. Advances in Neural Information Processing Systems (NeurIPS), 2024. [12] Wang Y, Dai W, Chan L, et al. GPD-VVTO: Preserving Garment Details in Video Virtual Try-On[C]//Proceedings of the 32nd ACM International Conference on Multimedia. 2024: 7133-7142. [13] Tian L, Wang Q, Zhang B, et al. Emo: Emote portrait alive-generating expressive portrait videos with audio2video diffusion model under weak conditions[J]. arxiv preprint arxiv:2402.17485, 2024. 团队介绍 我们是淘宝业务技术内容AI团队-视频生成组专注于服饰时尚领域持续迭代服饰上身视频生成基础模型和下游服饰应用模型效果并持续完善 FashionVideoGen 服饰视频产品化解决方案面向商家和内容场域做更灵活可控和多样化的视频生成产品化能力让AIGC技术充分发挥业务价值。欢迎关注。 ¤ 拓展阅读 ¤ 3DXR技术 | 终端技术 | 音视频技术 服务端技术 | 技术质量 | 数据算法