文本到图像的AI现在是主流,但文本到视频正在等待。这项技术的优势在于,您将能够输入描述并以您喜欢的任何风格生成相应的视频。目前的能力落后于这个梦想,但对于那些追踪技术进步的人来说,AI初创公司Runway今天宣布的一种新的AI视频生成模型仍然值得注意。
Runway提供了一个基于网络的视频编辑器,专门用于背景移除和姿势检测等AI工具。该公司帮助开发了开源文本到图像模型StableDiffusion,并于2月宣布了其首个AI视频编辑模型Gen-1。
Gen-1专注于转换现有的视频片段,让用户输入粗略的3D动画或摇晃的智能手机剪辑并应用AI生成的叠加层。例如,在下面的剪辑中,硬纸板包装的镜头与工业工厂的图像配对,制作出可用于故事板或推介更精美的功能的剪辑。
相比之下,Gen-2似乎更专注于从头开始生成视频,尽管有很多注意事项。首先,Runway分享的演示片段短小、不稳定,而且肯定不逼真,其次,访问受限。彭博社报道称,用户必须通过Runway的Discord注册才能加入Gen-2的候补名单,该公司发言人KelseyRondenet告诉TheVerge,Runway将“在未来几周内提供广泛的访问权限”。
换句话说,我们现在要判断Gen-2的只是一个演示卷轴和一些剪辑(其中大部分已经作为Gen-1的一部分进行广告宣传)。
尽管如此,结果仍然令人着迷,文本到视频AI的前景无疑令人陶醉——既有新的创造性机会,也有可能带来错误信息的新威胁等。将Runway的工作与巨头共享的文本到视频研究进行比较也值得像元和谷歌。这些公司的工作更先进(他们的AI生成的剪辑更长、更连贯),但不一定反映这些公司的大量资源。(相比之下,跑道只有45人的团队。)
换句话说:初创公司继续在生成人工智能方面做令人兴奋的工作,包括尚未探索的文本到视频领域。很快就会看到更多,无论是否由AI生成。