新余网站建设找谁做淘宝客怎么做自己的网站

张小明 2026/1/2 16:08:40
新余网站建设找谁做,淘宝客怎么做自己的网站,网页版微信可以转账吗,wordpress替代论文链接#xff1a;https://arxiv.org/pdf/2512.08765 项目链接:https://github.com/ali-vilab/Wan-Move亮点直击Wan-Move#xff0c;一个用于图像到视频生成中运动控制的框架。与需要运动编码的现有方法不同#xff0c;它通过编辑条件特征注入运动引导#xff0c;无需添加…论文链接https://arxiv.org/pdf/2512.08765项目链接:https://github.com/ali-vilab/Wan-Move亮点直击Wan-Move一个用于图像到视频生成中运动控制的框架。与需要运动编码的现有方法不同它通过编辑条件特征注入运动引导无需添加新模块从而易于大规模微调基础模型。引入了MoveBench一个全面且精心策划的基准来评估运动控制。一个混合了人工和SAM的标注流程确保了标注质量。在MoveBench和公共数据集上进行的大量实验表明Wan-Move支持多样化的运动控制任务并通过大规模训练提供商业级结果。总结速览解决的问题现有视频生成模型在运动控制方面存在控制粒度粗糙、可扩展性有限的问题导致生成效果难以满足实际应用需求。提出的方案提出了Wan-Move框架通过直接编辑原始条件特征来注入细粒度运动控制。其核心是1用密集点轨迹表示物体运动2将轨迹投影至隐空间并沿轨迹传播首帧特征生成对齐的时空运动特征图3将该特征图作为运动条件无缝集成至现有图像到视频基础模型如Wan-I2V-14B。应用的技术基于密集点轨迹的细粒度运动表示隐空间特征投影与传播技术无需修改架构的即插即用式运动条件注入方法用于基准评估的混合标注流程人工SAM达到的效果实现精确、高质量的运动控制支持多样化控制任务生成5秒480p视频运动控制质量媲美商业级产品如Kling 1.5 Pro Motion Brush无需额外运动编码器大幅提升框架可扩展性支持大规模基础模型微调构建MoveBench评估基准提供高质量、长时长、大数据的运动标注测试集架构方法视频扩散模型在正向过程中向干净数据添加高斯噪声并学习反向过程以去噪和生成视频。为了降低计算成本去噪网络通常在从预训练VAE获得的潜在视频表示上操作。给定输入视频编码器压缩时间和空间维度压缩比分别为时间和空间同时将通道维度扩展到得到。解码器然后从潜在表示重建视频。本文工作专注于运动可控的图像到视频I2V生成其中模型需要根据输入的第一帧图像和运动轨迹生成运动连贯的视频。虽然第一帧将通过VAE编码成条件特征但运动轨迹可以以不同格式表示仍保留在像素空间中。因此关键挑战在于如何有效地将运动轨迹编码成条件特征并将其注入生成模型。为了避免与额外运动编码器和融合模块相关的信号退化和训练困难本文旨在开发一个无需架构修改即可利用现有I2V模型的运动控制框架。潜在轨迹引导为了实现以第一帧为条件的视频生成流行的I2V模型采用的一种有效方法是将潜在噪声和第一帧条件特征沿通道维度拼接起来。通过使用预训练VAE编码器编码第一帧以及零填充的后续帧获得对于运动引导表示本文遵循先前研究采用点轨迹因为它们提供细粒度控制并捕获局部和全局运动。形式上长度为的点轨迹可以表示为其中指定了像素空间中第帧的轨迹位置。现有方法通常采用辅助模块来编码轨迹并将其集成到骨干网络中。然而这种方法可能会在运动编码过程中降低运动信号。此外训练额外的模块增加了大规模微调基础模型的复杂性。这引出了一个关键问题能否在没有辅助模块的情况下注入像素空间运动引导直观地说I2V生成旨在动画化第一帧而运动轨迹指定了每个后续帧中物体的位置。鉴于VAE模型的平移等变性相应轨迹位置的隐空间特征应与第一帧中的特征非常相似。受此启发本文提出通过空间映射直接将轨迹编码到隐空间从而消除对额外运动编码器的需求如如下公式所示第一帧的潜在轨迹位置通过空间映射获得而后续帧的潜在轨迹位置则在每个连续的帧上取平均。这确定性地将像素空间轨迹转换为隐空间。为了注入获得的潜在轨迹本文提取第一帧在初始轨迹点处的隐空间特征并根据将其复制到后续帧中利用隐空间特征的平移等变性如下图2(a)所示。其中表示时间索引、高度和宽度处的特征向量。此操作通过更新有效地将运动引导注入条件特征消除了对显式运动条件特征和注入模块的需求。Wan-Move生成框架的概述如下图2(b)所示。当多个可见点轨迹在给定的时空位置重合时本文随机选择一个轨迹对应的第一帧特征。训练和推理训练数据本文整理了一个高质量的训练数据集该数据集经过严格的两阶段过滤以确保视觉质量和运动一致性。首先手动标注了1,000个样本的视觉质量并使用它们训练了一个专家评分模型进行初步质量评估。为了进一步提高时间连贯性本文引入了运动质量过滤阶段。具体来说对于每个视频本文从第一帧中提取SigLIP特征并计算剩余帧的平均SigLIP特征。这些特征之间的余弦相似度作为本文的稳定性度量。根据对10,000个样本的经验分析本文建立了一个阈值只保留内容与初始帧保持一致的视频。这个两阶段流程最终产生了200万个高质量的720p视频数据集具有强大的视觉质量和运动连贯性。模型训练基于训练数据集本文使用CoTracker来跟踪密集32x32点网格的轨迹。对于每个训练迭代本文从混合分布中采样个轨迹以5%的概率不使用轨迹以95%的概率从1到200中均匀采样。值得注意的是本文保留了5%的概率来放弃运动条件这有效地保留了模型原始的图像到视频生成能力。对于选定的轨迹本文提取第一帧特征并将其复制到后续的零填充帧中如上文公式(3)所述。由于CoTracker区分可见和被遮挡的点轨迹本文只沿着可见轨迹进行特征复制。在训练期间模型参数从I2V模型初始化并进行微调以预测向量场该向量场将样本从噪声分布传输到数据分布其中表示生成条件的联合。Wan-Move的推理推理过程与原始I2V模型非常相似只是增加了一个隐空间特征复制操作。具体来说Wan-Move的生成过程依赖于三个输入条件1文本提示2作为第一帧的输入图像以及3用于运动控制的稀疏或密集点轨迹。预训练的umT5和CLIP模型分别用于编码文本提示和第一帧的全局上下文。生成的图像嵌入和文本嵌入随后通过解耦的交叉注意力注入到DiT骨干网络中。此外VAE用于提取第一帧条件特征该特征将通过隐空间特征复制注入。应用无分类器引导以增强与条件信息的对齐。形式上设无条件向量场以及条件向量场。引导向量场是条件和无条件输出的加权组合其中引导尺度为MoveBench为了对运动控制方法进行严格、全面的评估本文引入了一个名为MoveBench的自由许可基准。与现有基准相比MoveBench提供了更多数据、更大的多样性和可靠的运动标注如上图5所示。具体而言本文设计了一个筛选流程将视频库分为54个内容类别每个类别10-25个视频产生了1000多个案例以确保广泛的场景覆盖。所有视频片段均保持5秒的时长以方便评估长距离动态。每个片段都配有针对单个或多个物体的详细运动标注。它们包括精确的点轨迹和稀疏的分割掩码以适应各种运动控制模型。通过开发一个交互式标注流程结合人工标注和SAM预测本文确保了标注质量兼顾了标注精度和自动化可扩展性。实验实验部分对Wan-Move在视频生成中的运动控制能力进行了全面评估并与多种现有方法进行了比较。实验设置Wan-Move基于最先进的图像到视频生成模型Wan-I2V-14B实现并在一个包含200万个高质量视频的数据集上进行微调。评估指标包括FID、FVD、PSNR、SSIM用于衡量视频质量以及EPE用于评估运动精度。所有评估均在480p分辨率下进行。主要结果单物体运动控制如下表1所示Wan-Move在MoveBench和DAVIS数据集上均显著优于ImageConductor、LeviTor、Tora和MagicMotion等方法在视频质量最高PSNR和SSIM和运动控制精度最低EPE方面表现最佳。多物体运动控制在MoveBench中包含192个多物体运动场景的挑战性设置下如下表2所示Wan-Move相比ImageConductor和Tora实现了更低的FVD和EPE表明其在复杂场景下对运动约束的精确遵守能力。人类研究如下表3所示在与SOTA方法Tora、MagicMotion、LeviTor、Kling 1.5 Pro进行的双向强制选择2AFC人类评估中Wan-Move在运动准确性、运动质量和视觉质量方面均表现出卓越的胜率尤其是与商业模型Kling 1.5 Pro相比Wan-Move在运动质量方面具有竞争性优势。消融研究轨迹引导策略如下表4和下图8所示本文比较了像素复制、随机轨迹嵌入和隐空间特征复制三种策略。结果表明本文提出的隐空间特征复制方法在视频质量和运动控制精度方面均优于其他方法这归因于其能够捕获丰富的局部上下文信息。条件融合策略如下表5所示本文比较了ControlNet和本文的直接拼接方法。结果显示简单的拼接方法在性能上与ControlNet相当但显著降低了推理延迟仅增加了3秒而ControlNet增加了225秒突显了本文方法的高效性。训练期间点轨迹数量如下表6所示本文研究了训练期间最大点轨迹数量对性能的影响。N200时达到最佳性能过多的轨迹反而可能导致EPE上升这可能是训练和评估时轨迹密度不匹配造成的。推理期间点轨迹数量如下表7所示推理时增加点轨迹数量会显著降低EPE提高运动引导和时间连贯性。即使模型在最多200个轨迹下训练也能在多达1024个轨迹下表现出强大的泛化能力。此外无点轨迹的I2V推理如下图9所示的PSNR和SSIM与运动控制生成相当表明模型保留了固有的I2V质量。骨干网络和数据规模如下表8所示在相同骨干网络和数据规模下Wan-Move即使与MagicMotion和Tora等方法相比仍能取得更好的结果这验证了本文方法的优越性。大运动和分布外运动场景如下表9所示在包含高幅度运动和不常见运动的子集上Wan-Move持续优于基线模型性能差距进一步扩大展示了其强大的泛化能力和鲁棒性。运动控制应用Wan-Move支持广泛的运动控制应用如上图1所示包括单/多物体控制、相机控制、原始级别控制例如旋转虚拟球体、运动迁移和3D旋转控制。总结与讨论Wan-Move一个简单且可扩展的框架用于视频生成中精确的运动控制。它通过点轨迹表示运动并通过空间映射将其传输到潜在坐标无需额外的运动编码器。随后通过隐空间特征复制将轨迹引导注入第一帧条件特征在不改变架构的情况下实现了有效的运动控制。为了进行严格评估本文进一步提出了MoveBench一个全面且精心策划的基准其特点是内容类别多样且具有混合验证的标注。在MoveBench和公共数据集上进行的大量实验表明Wan-Move能够生成高质量、长持续时间5秒480p的视频其运动可控性与Kling 1.5 Pro的Motion Brush等商业工具不相上下。本文相信这项开源解决方案为大规模运动可控视频生成提供了一条高效途径并将赋能广泛的创作者。局限性和更广泛的影响Wan-Move使用点轨迹来引导运动当轨迹因遮挡而缺失时其可靠性可能会降低。尽管本文观察到短期遮挡一旦点重新出现即可恢复显示出一定程度的泛化能力但长时间的缺失可能导致控制的丧失参见附录。与其他生成模型一样Wan-Move具有双重用途潜力。它生成逼真、可控视频的能力可以造福创意产业、教育和模拟但也存在被滥用于生成误导性或有害内容的风险。参考文献[1] Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

上海网站建设哪家便宜艺术字转换器花体字

在数字化转型浪潮下,企业对CRM的需求早已突破“销售管理”的单一边界,延伸至销售漏斗、团队协作、数据同步、项目管控、供应链一体化等全链路场景。本文选取超兔一体云、Salesforce、Microsoft Dynamics 365、SAP、金蝶、Zoho、HubSpot CRM7个主流品牌&a…

张小明 2026/1/1 15:16:34 网站建设

杏坛网站制作信阳seo公司

在现代Web开发中,Vue时间轴组件已成为展示时间线数据的首选工具,特别是timeline-vuejs以其极简设计和强大功能脱颖而出。本文将带你从零开始,全面掌握这款Vue时间轴组件的使用方法,让你在短时间内构建出专业级的时间轴效果。 【免…

张小明 2026/1/1 22:35:07 网站建设

深圳设计网站开发学校网站建设作用

HunyuanVideo-Foley技术深度解析:多模态AI如何理解视频动作并生成音效 在短视频日均产量突破千万条的今天,一个尴尬却普遍的现象是:大量内容“有画无声”——画面精致流畅,背景却一片寂静。这种割裂感不仅削弱了沉浸体验&#xff…

张小明 2026/1/1 10:59:02 网站建设

乡镇网站建设工作计划帆布网站做哪个

第一章:3步搞定发票自动整理!Open-AutoGLM零代码接入方案首次公开准备工作:获取API密钥与上传通道 访问 Open-AutoGLM 官方平台,注册企业账户并进入「开发者中心」创建新项目,选择「发票识别」模板,系统将自…

张小明 2026/1/2 7:14:30 网站建设

辽宁住房建设厅网站论坛html模板

背景 TDengine IDMP 产品的客户多为工控场景。在工控体系中,系统自下而上通常划分为现场设备层、现场控制层、过程监控层、生产管理层以及企业资源层。因此,最初的数据来源于现场设备层,这些数据也是后续所有业务驱动的来源。对于TDengine而…

张小明 2026/1/1 12:20:51 网站建设

品牌网站建设浩森宇特上海哪家做网站关键词排名

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快一、接口测试基础理论接口测试:接口测试是测试系统组件间接口的一种测试,主要用于测试系统与外部其他系统之间的接口,以及系统内…

张小明 2026/1/1 22:35:34 网站建设