视频生成模型哪家强豆包可灵通义海螺全面评测评测动画镜头ai

比较贴切的表述是,豆包的视频模型这次的升级,已然将国内AI视频的美学境界拔高了一个档次,让AI视频也开始变得更加实用了。

作者|斗斗

出品|产业家

国内的文生视频领域,也是吃上“细糠”了。

最近,火山引擎宣布豆包大模型正式发布视频生成模型。至此,两大短视频平台在文生视频领域的较量正式开启。

很明显,这生成效果并不亚于Sora。

要知道,Sora在初期的宣传和报道中被赋予了很高的期望。然而,至今为止,Sora尚未真正面向普通人群应用,可以说是实实在在的期货。

为了更加客观的展示豆包文生视频模型的真实能力,产业家申请到即梦AI内测版的豆包视频生成-Seaweed模型测试机会,将其与国内几家主流文生视频模型,进行了同一提示词下的生成效果对比,意外看到了豆包文生视频模型的一些新亮点。

一、复杂指令下,足够听话

众所周知,拍摄电影时,导演会指导演员进行多个镜头的拍摄,然后剪辑成连贯的故事。如果一场戏的角色比较多,导演则需要统筹演员的站位、进场时间以及他们之间的对话、动作等。

只有这样,拍摄出来的画面,才会更加流畅。然而,对于当下的文生视频模型而言,大部分只能完成简单指令单一动作。比如只能生成单一的镜头,无法切换,人物动作也较为单一。

这样生成出来的效果,其实和照片差不多。但是在豆包视频生成模型的平台上,有了新的突破。

提示词:一群朋友在餐厅里聚餐,然后其中一人突然提出一个惊喜的计划。

豆包-Seaweed生成的视频中,涉及诸多人物的动作处理。可以发现每个人物的动作表达、面部表情都较为和谐,虽然一些细节有待优化,但整体上已经十分优异。可以实现多主体多动作的画面生成。

海螺AI在整体画面构图、和光的运用方面一如既往的出色。不过画面中的人物几乎都出现了或多或少的畸变。

可灵AI生成视频,总体来看人的动作较为简单,画面也缺乏一些真实性。

能看到,通义万相人物动作较为简单,真实性、自然流畅性相对较弱。

总体来看,豆包视频生成模型还是十分“听话”的,可以遵从复杂的复杂prompt,解锁时序性多拍动作指令与多个主体间的交互能力,指哪儿打哪儿,打开想象力的大门。

二、推拉摇移跟

画面依旧稳定、一致

豆包文生视频模型,还有一个比较特殊的点,即它生成的视频画面整体的故事性很强。

提示词:男子从明亮的室外走进昏暗的室内,镜头切换要自然,光线变化要平滑。

可以发现,在提示词描述的文本之外,其对于周围环境以及画面的细节衔接和过渡很自然。这本身对应的是模型强力的泛化能力。

例如从下面这组提示词生成的画面来看,豆包生成的视频相对更有画面感、更连贯。

提示词:一名女子奔跑在阴暗潮湿的街道上

画面中地面的石板路,路边的房屋,以及奔跑的女人,在运动逻辑、灯光、流畅度上,都表现的十分优异。

可灵生成画面中的女子的肢体发生了不规则的扭曲。

通义万相生成的视频,整体很不错,但在像地面这种细节的效果处理上,还需要进一步强化。

海螺AI有着通义万相一样的问题,仔细发现人物在奔跑时,路面的生成效果并不稳定,且人物和画面之间的衔接度并不自然。

从几组生成的视频不难看出,豆包文生视频模型,在运用镜头语言时,画面较为稳定,可以保证人物、氛围、环境的一致性,以及镜头的自然切换和运镜的自然。

比如基于豆包-Seaweed,我们可以身临其境的感受肌肉男选美现场。

还可以穿越森林,看到远处壮观的雪山。

可以发现,无论镜头怎么推进和切换,视频中的画面风格、人物、灯光、服饰等都依旧有着一致性。

另外一个更加炸裂的点,在于豆包视频生成模型还能实现主体动作和镜头的切换。这么说可能有点难懂,简而言之就是当画面中的人物在运动过程中,可以实现镜头自然切换。

正如下方豆包文生视频模型生成的视频,先是出现一个跟镜头,继而切换到以人为画面主体的跟镜头。

提示词:生成一段视频,要求镜头跟随主角在森林中探险,包括跳跃过溪流和攀爬岩石。

具体来看,生成的视频中,一个空境交代背景环境,切换到另一个以人物为画面主体的推镜头。这种镜头切换手法,也叫“镜头匹配剪辑”。利用了两个镜头中相似的动作或运动方向来平滑地过渡,从而减少视觉上的跳跃感。

这种技巧需要精心的拍摄和编辑,以确保动作的匹配和视觉的连贯性。

但是豆包的视频生成模型,做到了。

对比可灵AI的生成结果来看,画面中并未出现运镜和镜头切换的痕迹。

海螺AI基于这个提示词的生成效果其实各方面效果着实不错,但是在场景切换时,可以发现,其第一个镜头切换的同时,画面左方出现了一个分身,走出了画面,可见场景切换上还需要优化。

通义万相生成的效果,其实较为充分展现了其在语意理解上的优势,尤其是“跳跃过溪流和攀爬岩石”实现了语义一致性,但未实现多个场景、镜头上的切换,且人物流畅度和自然度也有可以优化的空间。

不得不承认的是,豆包视频生成模型确实是有两把刷子。

据官方介绍,这是因为豆包视频生成模型基于 DiT 架构,通过高效的DiT融合计算单元,让视频在大动态与运镜中自由切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。其全新设计的扩散模型训练方法攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性。

这是豆包视频生成模型独树一帜的技术创新。

三、大场景描绘

光影、镜头、构图美学拉满

在文生视频领域,大场景的生成,由于涉及的元素过度,往往是最容易出现问题的。而经过我们测试,豆包的文生视频模型,也非常不错。

从下面豆包、可灵AI、通义万相以及海螺AI(MiniMax文生视频平台)生成效果对比来看。豆包生成的视频,不仅画面构图、色调十分优异,甚至把清晨湖面的雾气也刻画了出来。

不知道的,还以为是在看《动物世界》。

提示词:清晨,第一缕阳光穿透薄雾,照亮了宁静的森林。一只小鹿在溪边饮水,水波荡漾,反射出金色的光辉。

可灵AI在色调和构图上也可圈可点,但细看鹿的动作连贯性和真实性,就显得有些不足。

通义万相整体观感也不错,语义理解能力较强,例如“反射出金色的光辉”这细节,通义万相刻画的最好,但有点缺乏真实性,更像是动画。

海螺AI的画面,在写实能力上较强。但由于角度和构图的问题,整体来看,主体的灵活性较差,对文本的理解力不足,此外也缺乏一些美感。

其实,豆包视频生成模型,经过剪映、即梦AI等业务场景打磨和持续迭代,在专业级光影布局和色彩调和积累了大量的数据和技术经验,画面视觉呈现上面,可谓是实现了延续,使得豆包处理这种大场景时,既能刻画细节,又极具美感和真实感。

图示:各家视频生成效果表现汇总

四、各种风格、尺寸,都Hold的住

根据介绍能看到,豆包视频生成模型采用的是Transformer深度学习模型的架构,并且进行了优化。这种架构,可以使模型更加强大,泛化能力也会更强。从风格来看,其可以生成3D动画、2D动画、国画、黑白、厚涂等多种不同的艺术风格的视频。

此外,生成的视频可以适应不同设备的屏幕尺寸,包含1:1,3:4,4:3,16:9,9:16,21:9五个比例。无论是电影大屏幕、电视、电脑还是手机,都能观看。

这些视频目前可以被用于电商营销(如产品展示视频)、动画教育(如教学动画)、城市文旅(如旅游宣传视频)、微剧本(如短视频故事)等多种商业用途。

写在最后‍

最后对豆包的文生视频进行一个总结。

首先它是一个语义大师。它不仅听得懂你的指令,还能理解背后的深层含义,让视频里的每个动作都恰到好处。

还是一个镜头切换高手。在切换镜头时,它能保证故事的流畅和一致性,就像一个无缝连接的叙事大师。

更是一个动态捕捉专家。无论是快速的动作还是炫酷的镜头移动,它都能捕捉得生动活泼,让你仿佛置身于真实世界。

也可以是一个视觉艺术家:它创造的视频不仅清晰逼真,还具有专业的色彩和光影,支持多种风格和尺寸,让你的视觉体验丰富多彩。

比较贴切的表述是,豆包的视频模型这次的升级,已然将国内AI视频的美学境界拔高了一个档次,让AI视频也开始变得更加实用了。

在文章的最后,想要强调的一点是,文中所提到的生成的视频都是基于豆包视频生成模型S 2.0的非会员版本。目前,具备更强多主体互动、多镜头切换一致性能力的豆包视频生成模型-PixelDance,正在紧锣密鼓的内测上线中,或许能给大家带来更多惊喜。

豆包,多少是有点不露锋芒,闷声干大事了。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.短视频运镜乱晃?成都树莓教育推拉摇移组合攻略来救场可以建 “运镜素材库”:把每次拍的推拉摇移镜头、组合镜头分类存好,比如 “推镜头 - 蛋糕特写”“拉镜头 - 店铺全景”“组合 - 推 + 拉”,下次拍类似内容,直接参考之前的镜头,不用重新试。别觉得 “运镜要贵设备”,成都树莓教育的很多学员用 “手机 + 几十块的三脚架 + 稳定器”,照样拍出丝滑运镜 —jvzquC41o0ypj~3eqo5b1B:424829=d344832=57
1.李万江老师主讲《年味作品巧拍摄》比如说表现一个人,从前至从正面照,从侧面照,从上面照,从背后照,这种简单的拍法,那你不会感染人啊,有的人呢,是表现一个场景组成的一系列的片子啊,十张八张片就像一张片子,就是说你在表现的时候缺少这种这种场景的变化,我们要学会像影片那种这个表现啊,这个手法,比如说我们用镜头的时候呢,需要推拉摇移,为什么jvzquC41yy}/onnrkct/ew45gorxupq
2.关于不同景别及运动方式组接的基础知识运动镜头的运动方式主要分为:推拉摇移跟升降,其中细致一点分,还可以分为左摇、右摇、左移、右移。 这里说的避免运动方向相反,其实主要就是指尽量不要使用左摇镜头组接右摇镜头,不要使用左移组接右移镜头,不要使用推镜头直接组接拉镜头,大家可以仔细去想一下,如果这样组接,那么镜头组接处是会很跳跃的。 jvzq<84yyy4489iqe0ipo8hqpvkov8741283487214=5;;899a713A:978<:0|mvon
3.短视频推拉摇移技巧,提升你的创作效果短视频推拉摇移:打造精彩内容的艺术 随着社交媒体的蓬勃发展,短视频已成为传播信息、分享创意的重要媒介。尤其在5G时代,短视频的传播速度和质量得到了显著提升,吸引了越来越多的用户参与其中。短视频的拍摄技巧,尤其是“推、拉、摇、移”的四大基本技巧,成为了每一个内容创作者必须掌握的能力。本文将深入探讨这四大技jvzquC41yy}/lrfpiunjvjn0eqs0f87:6:620qyon
4.录播教室系统设计方案6篇(全文)画面之间切换具有120种以上特技功能。系统操作简单,能进行手动(镜头的推拉摇移及放大缩小)干预。真实再现授课情景,可以实时生成流媒体格式的文件,并可以进行后期编辑;通过校园网络实现远程直播、点播,能达到播放流畅、控制方便;系统生成的课程教学录像符合教育部精品课程网上技术标准。具体功能描述:jvzquC41yy}/;B}wgunv0lto1y5gkuj;y9pec‚s0jvsm
5.推拉摇移镜头使用跟移的运动方式常常意味着视点和画面主体的同步变化,在这个特点下镜头可以像人的活动一样自由。“移”最能够表现复杂的环境空间和建筑空间的结构关系。 四、摄影机综合运动和摇臂摄影 摄影机综合运动,在技术支持上通常使用摇臂起重机来完成拍摄。拍摄的画面可以从大全景到大特写,方法上可以综合使用推拉摇移,方向上jvzquC41yy}/fxzdcp4dqv4pqvk04;863;;428
6.《手机摄影后期制作》和小视频制作练习(2)(副本)二、视频的拍摄方式 1.固定摄影 2.运动摄影 第三:后期制作:如织围巾 后期编辑软件:主讲【快影】, 三、课程的核心口诀 方法有两种,固定和运动; 运镜技巧多,推拉摇移跟; 移镜花样多,升降和旋转。 推、拉、摇、移、跟拍摄的视频练习。 1、封面是用照片通过美图秀秀视频美化,变成视频,与拍摄的视频通过快影连接jvzquC41yy}/onnrkct/ew46|d:1v@8
7.人际关系的深度解析:职场八字真言有些时候帮大佬办事,什么东西都没问题。精神病,你应该说啊,我认识张三,我去打听一下,我去问一问,出了事是不是已经给别人啊?很多人上来就大包大揽,这种人都不敢用,这种人一定会出事儿,别把话给说死,明白了吗? 借还送套,推拉摇移,懂了没有?今天就先写到这儿。jvzquC41yy}/onnrkct/ew478gsvmth
8.推拉摇移跟视频推拉摇移跟高清原创视频下载一个视频学会所有运镜和景别远全中近特推拉摇移跟甩推拉摇移跟升降导演推拉摇移推拉摇移拍摄推拉摇移纪录片跟拍海上跟拍海鸥横移线条动画推拉摇纪实婚礼跟拍视频手机夜景跟焦活动现场跟拍视频跟往事干杯轨道式推拉平移系统三维动画跟大树说话摇骰子mg动画一镜推拉公司活动跟拍如何移轴拍摄玩转跟镜头推拉摇移推拉摇移视频jvzquC41yy}/zrsrkctdjjsi0eun1|jcten03;7278
9.视频拍摄技巧通过这种拍摄方式所拍到的画面,称为运动画面。如:由推、拉、摇、移、跟、升降摄像和综合运动摄像形成的推镜头、拉镜头、摇镜头、移镜头、跟镜头、升降镜头和综合运动镜头等。下面重点讲一下在拍摄时用得比较多的推镜头、拉镜头、摇镜头、移镜头这几个方式。 四、视频拍摄基本的手法是“推拉摇移” 1.推镜头:jvzquC41yy}/yjsi35750lto1fud1}trke333;975:6.37mvon
10.中华视讯3D高清虚拟演播室系统稳定功能强大且各个机位之间可以任意切换,可随意调整机位切换的速度即虚拟摄像机推拉摇移的快慢。所有机位均可自行定义每个机位摄像机三维空间运动,可以简单方便地定义每个机位虚拟摄像机的三维动画,产生摇臂的运动拍摄效果。包含摄像机在三维空间的位置、拍摄角度、拍摄焦距和运动方式等变化定义,以及运动过程的时长定义。jvzquC41uw}vzr373uumg7hqo1ipoyfp{pkxumjvckr`59;3797:0qyo
11.《圣鹿之死》一个本来就没有发生的故事!(圣鹿之死)影评3 头发阴毛腋毛的有何象征?头盔手表的隐喻 4 为什么小男孩长大要做心脏病医生,而不做眼科专家? 5 关于镜头推拉摇移的处理如何解读? 戛纳电影节(2017;第70届) 获奖:1 提名:1 获奖·金棕榈奖-最佳编剧奖 女:直接说,这电影我看不懂!剧情也太假了吧,不合情理嘛,怎么获得戛纳奖的呢? jvzquC41oq|jg7iqwdgo0lto1tkwkn|1;5<62B>1
12.3DMax用摇移工具常见问题解答3DMax用摇移工具解决方法与技巧iMac电脑 C4D 没有鼠标滚动滚轮中键,如何平移推拉摇移视图? 共2条回答 > YQ-杨清: iMacC4D移动视图数字1+鼠标左键移动视图也叫平移视图(alt键+鼠标中键)数字2+鼠标左键缩放视图也叫推拉视图(alt键+鼠标右键)数字3+鼠标左键旋转视图也叫摇移视图(alt键+鼠标左键)iMacC4D视图切换fn+(f1透视图)fn+(f2顶视jvzquC41yy}/5m;80eun1jsuygxta{jncvopp8wgnczjqwd334?96>3jvor
13.拍摄视频的技巧推拉摇移跟是什么?它们的区别有哪些?手机软件3. 适用场景不同:推拍和拉拍适用于展示场景、展示时间流逝等场景;摇拍适用于展示周围环境、突出拍摄对象等场景;移拍适用于展示拍摄对象的全貌、突出场景层次感等场景;跟拍适用于展示拍摄对象的动态、增强观众的代入感等场景。 拍摄视频的技巧推拉摇移跟拍,各有特点和适用场景。在实际拍摄过程中,拍摄者可以根据需要jvzquC41yy}/rqu0ep5gcz4:46;9:7mvon
14.动画场景设计图的制作[1]会有穿帮的感觉,见图7-57, 6)故意将场景设计成弧形:因为场景透视发生变形的部分往往成形,所以如果事先就将需要做摇移的场景设计成圆弧形,自然也就不 存在透视变形的问题,见图7-58。 3、综合运动 综合运动就是指推拉摇移镜头的组合使用,这种镜头的处理,在场景的绘制中,难度就更高了。需要各种透视技巧的配合使用, jvzquC41yy}/5?5fqey/pny1fqi06k>79dheh:73ff97c<7f:4h20qyon
15.视频制作的入门知识,根据《剪辑的语法》笔记梳理推拉摇移跟 支架/三角架 滑轨、摇臂、钢缆、斯坦尼康、无人机、稳定云台 拍摄对象 静物或运动 3、镜头类别 简单镜头 镜头不动 摄影机不动 座架不动 简单的拍摄对象移动 作用:组成大量的叙述对话,推动情节发展 复杂镜头 简单镜头不同,则复杂镜头就是动,多个联动 jvzquC41yy}/uyik{0ipo8iqewsfp}4453>50qyon
16.Motion中的音频自动摇移行为选取“左”或“右”可在行为时间长度内提高一个通道的音量并降低另一个通道的音量,从而产生声音从一个方向移到另一个方向的效果。 音量:此弹出式菜单可设定声相移动过程中对音量的影响方式。共有五个选项可供选取: 恒定:不允许音量发生变化的动画曲线。 上升:使音量恒定增大的动画曲线 下降:使音量恒定减小的动画jvzquC41uwvqq{y0crvmg7hqo1€i/ls1iwoeg8rqvkuo1vtvp3>84kj281sbe
17.没有麒麟臂用它也能拍出震撼大片——智云云鹤系统体验随着单反或者微单视频能力进一步提升,从以前的480p到现在的4K 60fps,激发了很多人的创作欲望,养活了一大堆小型工作室;然而拍视频的难点在于并不能用手完成“推拉摇移跟”这些机位或者运动镜头,不是每个人都有能力去购置一套专业的斯坦尼康,我们的创作就要戛然而止了吗?骚年,这里有一套专业的微单稳定器——智云云鹤jvzq<84yyy4jvƒ~0eqs/ew4hqt{n0ymrAoue?ngyvnsgji(vkj>3A578
18.镜头的推拉摇,移,跟,升,甩,小白必备篇移:又称移动拍摄。从广义说,运动拍摄的各种方式都为移动拍摄。但在通常的意义上,移动拍摄专指把摄影、摄像机安放在运载工具上,沿水平面在移动中拍摄对象。移拍与摇拍结合可以形成摇移拍摄方式。 跟:指跟踪拍摄。跟移是一种,还有跟摇、跟推、跟拉、跟升、跟降等,即将跟摄与拉、摇、移、升、降等20多种拍摄jvzquC41yy}/5?5fqe4dp8ftvkimg8664974:h=8::81;:=0jvsm
19.科普触手可及的人工智能科技博览科普博览资讯设想一下,在未来,当你走出校园来到单位的元宇宙办公环境,开启一天的工作时,你看到的可能是多个智能分身让你能够并行处理多项事务;意念控制的交互方式,即想即所得,使你能够迅速完成各种实时应答和管控;数字孪生系统配合裸眼3D屏幕展示,让涉及工作方方面面的关联场景栩栩如生地被推送至眼前,360度切换视角,推拉摇移,虚jvzq<84yyy4bi{neqqv/pny1oqhjnn4pgyy0uqty0rnqArygokj>3B=68