视频AI领域再起风云：谷歌Veo 3.1强势出击，对标Sora 2

1.6K 00

北京时间10月16日，谷歌为应对OpenAI 10月初发布的Sora 2，推出视频模型Veo 3.1和Veo 3.1 Fast。此次发布的Veo 3.1虽有亮点，但与Sora 2相比各有优劣，引发业界对两者谁能在视频生成赛道更胜一筹的探讨。

Veo 3.1迅速迎战Sora 2

就在Sora 2发布半个月后，北京时间10月16日，谷歌火速推出最新视频模型Veo 3.1和Veo 3.1 Fast。谷歌在官方推文中称“Veo正在进行重大升级” 。然而，从国内外各方实测来看，此次升级只是一次小的迭代。就在今年5月，谷歌才发布Veo 3，一度刷屏并占据文生视频模型榜首，但本月初Sora 2的发布迅速抢走了风头。而在10月16日中午，OpenAI也放出了Sora 2的更新，两大巨头竞争火药味颇浓。

Veo 3.1的核心亮点

谷歌这次Veo 3.1更新的核心亮点是更丰富的原生音频生成、更强的电影风格理解与叙事控制，以及更逼真的质感还原。Veo 3.1在多个功能中集成了音频，支持自然对话、音效和环境噪音，能自动根据画面内容生成环境音、动作声及氛围配乐，音频质量更逼真。此外，此次迭代还包括谷歌AI电影制作工具Flow里的多个核心功能升级，如首尾帧（Frames to Video）功能，可让模型根据用户提供的起始和结束两张图像生成平滑过渡画面；视频延展（Extend）功能，支持用户从前一剪辑的最后一秒扩展视频；素材生视频（Ingredients to Video）功能，用户上传多张参考图像，系统自动生成包含指定角色与场景风格的完整视频，还能通过Remove功能移除画面中的物体或者人物。

Veo 3.1与Sora 2的对比

根据网友测试，Veo 3.1与Sora 2两个模型各有优缺点，但Sora 2整体来看得票数更多。Sora 2在微观写实、光影与物理细节上更常被认可，配音方面许多测试显示其音频更加自然，其自动分镜功能对视频叙事帮助显著，而Veo 3.1的镜头变化较为保守，对物理世界的理解也不如Sora 2。在视频长度上，Veo 3.1支持输出最长8秒的视频，更新后的Sora 2普通用户可生成长达15秒的视频。不过，Veo 3.1生成速度比Sora 2快很多，且谷歌在多模态生态上更为成熟，此前发布的图像模型“Nano Banana”引发广泛关注，图像与视频模型的联动可形成完整创作闭环。

Veo 3.1的现状与行业展望

Veo 3.1目前处于预览阶段，用户可以在Gemini API 、Vertex AI、Gemini应用以及Flow上面付费使用。在接口价格方面，Veo 3.1标准版是0.4美元/秒，快速版是0.15美元/秒，对比Sora2的0.1美元/秒和Sora2 - pro的0.3美元/秒，价格吸引力不足。行业认为，Veo3.1未到超越Sora2的地步，但这仅是Veo 3到Veo 3.1的一次微调，行业更期待谷歌在下一次大版本更新中取得突破。谷歌与OpenAI在视频生成赛道的拉锯战从未停止，目前视频生成大战中尚无一家具备绝对统治力，未来行业变数仍然很大。