Meta AI 公布的Make-A-Video,是一个用AI技术从文本生成视频的工具,能仅凭几个单词或者一行文字,生成一段分辨率768 * 768的5秒视频。
Make-A-Video 其实是建立在 Meta 已有的AI图像生成技术之上。今年7月,Meta 公布了自研的文本生成图像 AI 模型 Make-A-Scene。
Make-A-Scene 与现在市场熟知的DALL-E类似,用数百万个示例图片训练AI模型学习图像和文字间的关系,并最终能从输入的文本生成图像。
文本生成视频是在图像生成的基础上更进一步,表面上看是多张 AI 图像堆叠成一段视频。但背后要求 AI 模型能够理解每个像素点正确的运动方式,并且每帧图像的分辨率不能太低,如此才能形成连贯的视频画面。
收起