CVPR 2024丨基于文本可控的图生视频扩散模型

近期视频生成模型 Sora 与 Dream Machine 的火爆,相信你已跃跃欲试,想要生成自己的视频。本文介绍一个开源免费的个性化视频生成模型—PIA(Personalized Image Animator),还有在线应用等你来体验!

论文:

https://arxiv.org/abs/2312.13964

代码:(文末点击阅读原文可直达,欢迎 star)

https://github.com/open-mmlab/PIA

网站:

https://pi-animator.github.io/

在线应用:

https://openxlab.org.cn/apps/detail/zhangyiming/PiaPia

个性化生成技术已经能够让我们可以生成自定义的内容、风格的图像,我们进一步希望给这些生成的精美的个性化图像加上动态。然而这一目标存在两大难点,第一,生成的视频难以还原用户输入图像的细节;第二,生成的视频无法按照用户需要用文本提示词精确控制。

针对这两大难点,PIA 应运而生,PIA 能够还原图像细节、高度响应提示词内容的视频。

方法简介

PIA(Personalized Image Animator)是文本驱动的个性化图生视频模型,它可被插入不同的文生图底模中以生成不同风格、内容的视频。

框架图如下,用户输入的图像会与帧间相似度结合通过条件模块,接着在 UNet 中参与 Cross-Attention 计算以实现根据文本为输入图像添加动效。

它的核心是条件模块与帧间相似度(图中黄色部分),借助这样的设计,PIA 可以生成还原图像细节、高度响应提示词内容的视频。

应用介绍

文本控制动效生成

PIA 可以为你制作你喜欢的人物的表情包。通过不同的文本提示词,可以为人物添加不同的表情、动效。

动效幅度控制

PIA 可以控制生成视频中动效的幅度。通过帧间相似度的设计,可以实现不同幅度动效的生成。

风格迁移

PIA 还能够为你的图像生成不同风格的视频。PIA 可以适应各种风格的底模型,将模型风格迁移到生成的视频中。