革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元
虚拟现实技术正在娱乐和教育领域革新体验 #生活知识# #科技生活# #科技改变生活# #科技创新影响#
本文经AIGC Studio公众号授权转载,转载请联系出处。
在这个数字化飞速发展的时代,图像与视频合成技术正以前所未有的速度重塑着我们的生活,尤其在在线零售领域,一场关于购物体验的革命正在悄然上演。想象一下,无需亲自试穿,仅凭一张照片或一段视频,就能精准预览任何心仪服装的上身效果——这听起来仿佛科幻电影中的场景,中山大学和新加坡国立大学提出的基于视觉的虚拟试穿(CatV2TON)技术正将其变为现实。
相关链接
论文:http://arxiv.org/abs/2501.11325v1主页:https://github.com/Zheng-Chong/CatV2TON论文介绍
虚拟试穿 (VTON) 技术因其通过实现图像和视频的逼真服装可视化来改变在线零售的潜力而备受关注。然而,大多数现有方法都难以在图像和视频试穿任务中获得高质量的结果,尤其是在长视频场景中。
CatV2TON是一种简单有效的基于视觉的虚拟试穿 (V2TON) 方法,它使用单个扩散变压器模型支持图像和视频试穿任务。通过在时间上连接服装和人员输入并在混合图像和视频数据集上进行训练,CatV2TON在静态和动态设置中实现了强大的试穿性能。
为了高效地生成长视频,论文还提出了一种基于重叠剪辑的推理策略,该策略使用顺序帧引导和自适应剪辑规范化 (AdaCN) 来保持时间一致性并减少资源需求。还介绍了 ViViD-S,这是一个经过精炼的视频试穿数据集,通过过滤背面帧并应用 3D 蒙版平滑来增强时间一致性。综合实验表明,CatV2TON 在图像和视频试穿任务中均优于现有方法,为跨不同场景的逼真虚拟试穿提供了多功能且可靠的解决方案。
方法
CatV2TON 架构概述。 CatV2TON 使用 DiT 作为主干,第一个 DiT 块被复制为Pose Encoder。人和服装条件在时间上连接为试穿条件。整个可训练部分仅由自注意力层和 Pose Encoder 组成,占总参数的不到 1/5。
基于重叠片段的推理策略说明。(a)一段长视频被分成 n 个重叠片段,每个片段由重复的帧组成。每个片段的最后 k 帧用作生成下一个片段的提示帧。(b)自适应片段归一化 (AdaCN) 用于根据提示帧特征和去噪提示帧的平均值和标准差对整个片段进行归一化,确保生成的视频中各个片段之间的平滑连续性。
结果
在 ViViD 数据集上对连衣裙进行定性比较。我们使用 Stable 和 OOTD 作为 StableVITON 和 OOTDiffusion 的简称。
在 ViViD 数据集上进行定性比较。我们使用 Stable 和 OOTD 作为 StableVITON 和 OOTDiffusion 的缩写。
对 ViViD 数据集进行定性比较。我们使用 Stable 和 OOTD 作为 StableVITON 和 OOTDiffusion 的缩写。
关于 AdaCN 的消融视觉结果。当不使用 AdaCN 进行推理时,试穿结果中的服装部分将出现色差问题,并且通常会随着视频长度的增加而加剧。
结论
CatV2TON是一个简单而高效的扩散变换器框架,适用于图像和视频虚拟试穿任务。通过时间连接服装和人员输入并使用混合图像视频数据集进行训练,模型仅使用 20% 的主干参数作为可训练组件即可获得高质量的结果。为了支持长时间、时间一致的试穿视频生成,引入了一种基于重叠剪辑的推理策略和自适应剪辑规范化 (AdaCN),在保持时间连续性的同时减少了资源需求。
此外论文提出了一个精选的视频试穿数据集 ViViD-S,它是通过过滤后视帧并应用 3D 蒙版平滑来增强蒙版的时间一致性而创建的。大量实验表明,CatV2TON 在定量和定性评估方面均优于基线方法,标志着基于视觉的虚拟试穿研究统一模型向前迈出了重要一步。
网址:革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元 https://www.yuejiaxmz.com/news/view/940583
相关内容
虚拟穿搭:AR试衣与AI技术引领数字化时代服装购物革命AI新纪元:智慧零售的虚拟现实购物
AI虚拟导购:引领商品导购新潮流,为购物体验注入智慧与魔力!
AI技术革新,重塑零售购物体验
智配Store:智能科技,引领您智慧购物的全新体验
趣购购物商城,科技重塑购物体验,引领未来消费潮流的最新动态
探秘未来购物体验:网络商城购物系统革新之旅,你的智能购物伙伴上线了!
VR虚拟场景:重塑沉浸式购物体验的新篇章
重磅推出,智能生活新纪元——线下营销科技产品重塑生活体验之旅
科技巅峰之战,引领生活新纪元的新动态