科技日报记者 罗云鹏
3月15日,腾讯混元和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click”。
图像到视频生成的技术在电影内容制作、增强现实、游戏制作以及广告等多个行业的AIGC应用上有着广泛前景,是2024年最热门的AI技术之一。
腾讯混元大模型团队相关负责人介绍,该图生视频大模型中,用户输入图片后,仅需点击对应区域,并加上少量提示词,即可让图片中原本静态的区域动起来,并可一键转换成视频。
记者注意到,目前已有的图生视频大模型中,生成方法不仅需要用户在提示词中描述运动区域,且需提供运动指令等详细描述,过程较为复杂。
“从生成的效果来看,现有图像生成视频技术在移动图像的指定部分上缺乏控制,生成的视频往往需要移动整个场景,而不是图像上的某一个区域,精准度和灵活性上有所欠缺。”腾讯混元大模型团队相关负责人介绍。
为解决上述问题,腾讯混元大模型团队、清华和港科大的联合项目组提出更为实用和可控的图像到视频生成模型“Follow-Your-Click”,让图片“一键点,万物动”成为现实。