视频进入蒸汽机时代百度长视频知名企业

AI 视频生成行业天花板再次被拉高。

百度杀入 AI 视频生成赛道后,就一直加班加点卷个不停。

7 月初,百度第一次正式官宣蒸汽机 1.0 模型,以极致指令遵循能力惊艳亮相;8 月底,百度又发布全球首个中文音视频一体化模型百度蒸汽机 2.0,实现生成视频中人物口型、表情、动作的毫秒级同步。

而现在,距离上次发布仅短短一个月,百度蒸汽机 2.0 又迎来重磅升级,推出了行业首个通用 AI 长视频生成功能

此次升级,百度蒸汽机不仅突破了 5 秒和 10 秒的生成时长限制,理论上可生成任意长度的长视频,还引入交互式需求表达功能,允许在生成过程中实时更新提示词。这意味着创作者可以随时调整视频内容,创作体验更为灵活高效。

为延长视频时长,业内普遍采用「首尾帧续写」技术,或者视频延长的简单续写能力,虽然能勉强填补时长空白,但容易导致视频缺乏连贯性,画质和细节呈现不稳定,难以承载复杂的创作需求。同时首尾帧续写需要用户每个镜头上传图片以及提示词,一个镜头普遍 1-6 秒,生成几十秒成片可能需要 10 组以上图片和提示词描述,操作门槛非常高,且很难实现无限时生成。

与这一浅层技术方案不同,百度蒸汽机采用流式生成技术,用户只需输入图像和提示词,就能生成任意时长的视频,并可以在生成过程中随时调整提示词,实时续写内容或指定任意帧继续生成,用户无需复杂操作,只需要一张图 + 提示词,即可完成无限时视频生成。如果对于前面的内容不满意,可以马上暂停调整,不需要完整推理过程结束,区别于行业其他长视频技术能力,百度蒸汽机的长视频生成能力不仅仅大幅度提升了创作效率,还可以实现灵活、流畅的创作体验。

首尾帧续写长视频能力

百度蒸汽机流式生成长视频能力

百度蒸汽机的这次迭代升级,不仅是技术上的一次革新,也在商业应用层面带来新的可能性。创作者可以在短时间内完成高质量长视频制作,降低了创作成本,提高内容产出效率,为各行业内容创作提供了新的工具和商业价值。

在下面这段蒸汽机长视频生成的视频中,小鸭子划水、上岸等动作连贯流畅,没有出现卡顿或不自然的现象,水面的涟漪、小鸭子的羽毛等细节也都处理得细腻逼真。

提示词:小鸭子在水中嬉戏,有几只喝水,有几只划水,接下来排着队往前游,游到了岸边,拍打着小翅膀,往前边的草地上走去。

再比如,蒸汽机长视频模型还成功生成了一段西部牛仔风格视频,效果堪比电影大片。

该模型能够精准执行复杂的镜头运动与人物动作,在提示词的指引下,以一镜到底的方式呈现出牛仔走向马车、推门而入等场景转换。

镜头跟随、人物动作以及视角切换的衔接都很丝滑,尤其是在人物向前走和镜头右摇的场景中,模型能够精确控制镜头的角度与人物的位置变化,保持画面的自然过渡。

提示词:1-5s 镜头跟随,牛仔走向右方马车。6-10s 人物向前走,镜头跟随。11-15s 人物向前走,镜头跟随,右摇 16-20s 镜头跟随,牛仔推开门进去。

在另一段长视频中,蒸汽机 2.0 真实还原了水流的动态变化以及小纸船在水面上漂动的轨迹,画面没有任何破绽或失真的情况,细节把控也很到位。提示词:小纸船在小河里漂流。

本次百度蒸汽机还发布了首尾帧功能,支持用户提供首尾帧2张图片和提示词可完成图片的理解和5S视频生成,为创作者提供更便利的视频片段生成能力。

提示词:黄色折纸在工作台上逐步折叠,变形为彩色折纸猴,定格动画逐帧展现折纸过程,固定镜头。

我们只需上传首尾帧图片并输入提示词,蒸汽机 2.0 便能「脑补」出中间的剧情,实现完整的画面衔接。

比如一段电影风格的镜头中,平静的水面突然冒出三个全副武装、手持冲锋枪的士兵,生成的画面几乎可以以假乱真:

提示词:固定镜头,平静的水面荡起波纹,三个士兵慢慢露出水面,他警惕的看着四周。

还有这个动漫风格的镜头,即使二次元小姐姐转个圈也能保持前后人物一致性,角色面部不会崩坏:

提示词:镜头环绕着人物

首尾帧功能特别适用于延时摄影。蒸汽机生成了一段树木从秋季黄叶到冬季积雪的自然变化,季节过渡平滑自然,树叶飘落与雪花覆盖的细节也处理得很细腻。

提示词:固定镜头大延时摄影,天⽓变化到冬天,背景云雾变化。

在商业化场景中,百度蒸汽机还能制作各类广告大片。在下面的案例中,只见镜头慢慢拉远,光泽感十足的耳机被拿在手中,流线型的反射效果显得极具质感,生成的手部非常自然,手指与物体的衔接部分也毫无违和感。

提示词:耳机合上盖子,伸出一只手拿着耳机。

此外,百度蒸汽机在 8 月还率先推出「多人对话音视频一体化生成」能力,也是全球首个中文音视频一体化生成模型,该模型基于多模态信息的精准同步与自然交互,支持多角色自然对话,并保持高画质输出、大师级运镜。依托海量中文语料深度训练,中文语音细节还原度超 98%。

现在,所有用户都可以通过百度搜索、百度 APP 或访问「绘想」平台进行体验。

可交互长视频生成的难点在哪?

现阶段,AI 视频生成虽然发展迅猛,目前行业内视频生成均集中在 5s/10s,且由于视频生成多采用基于 transformer 的扩散模型,在生成时长和实时性方面仍然存在很大的局限(生成时间长,且生成成本随生成时长呈平长级膨胀,不支持实时生成也无法交互)。较短的视频在应用上主要在工具层面,集中在视频片段、视频素材制作上,而互动视频、直播场景对视频时长和实时性都提出了更高的要求。同时,可交互的长视频生成技术可能重塑人类与媒介的互动方式,从「被动消费」转向「共同创作」,甚至催生全新的艺术形式与商业模式。

挑战 1 :时长

漂移的问题:生成过程中误差逐帧累积,导致生成的视觉质量逐渐下降。随着生成时长的增加,简单续写的方式,累积误差问题逐渐加剧,生成视频质量不断衰减,主体一致性逐渐下降。

挑战 2 :成本

由于视频生成模型中 Transformer 的二次复杂度,导致计算成本随着视频生成时长呈平方级增长。直接训练或推理更长视频,对 GPU 显存和计算效率提出更高要求,成本膨胀严重。

蒸汽机的解法与思考:

从分治到全局,引入自回归扩散模型

结合自回归长序列能力和扩散一致性强的优点

从全局整体生成到局部生成

动态缓冲区管理:通过「移动缓冲区」机制实时管理多帧画面,允许模型同时处理模糊草图、半完成帧与高精度画面,实现「边生成边调整」的实时交互。

阶梯独立噪声构造

独立噪声:基于时间步采样,为视频扩散模型的每一帧添加不同强度的噪声。根据噪声调度器曲线,每一个预测 chunk 被分配不同的噪声级别(与推理期间使用的噪声调度保持一致)

2.引入历史参考帧,保障片段生成与前序内容的连续性,让动作像「接力赛」一样流畅

引入 History 序列的训练

「零」噪声片引入:Diffusion Forcing 给了我们启发,基于 noise as masking 的思路。训练过程中可直接将历史参考帧引入与生成目标帧一起训练,提升生成的连续性。

History 增强策略,历史帧越来越多,如何选择好的是核心优化点

多样性与鲁棒性:进行历史帧的概率扰动,提升模型的自我纠错能力,缓解自回归模型的累积误差问题。

历史帧压缩:a) 按时间临近性、帧重要度进行采样,提升全局 history 对当前视频生成的有效控制。b) 注意力门控机制:模型根据当前帧内容动态选择相关历史帧进行参考,避免无关信息的干扰,提升记忆效率。

训练中引入指导帧,引导模型不跑偏,缓解视频遗忘的问题

抗偏移的方法:在生成中同时生成首尾的部分帧,后续一起用来预测后续帧,逐步往后生成。

以上技术的突破让蒸汽机长视频生成能力变得更大,正如百度商业体系商业研发总经理刘林所表示的:长时一致性和实时性问题的解决,使得用户可以随时进行交互,并且在交互过程中,用户可以不断调整输入 prompt,直到生成自己满意的视频为止。

在中文场景适配层面,如前文所述,百度蒸汽机 2.0 在语音还原度上超过 98%,这对用户而言意味着可以获得更自然、更沉浸的交互体验。无论是在长视频配音、虚拟角色对白,还是个性化讲解,用户都能听到几乎与真人无异的中文表达。同时,高精度的语音还原也让情绪(如喜悦、惊讶)传递更加细腻。对于内容创作者而言,这不仅降低了后期配音和剪辑的门槛,还大幅提升了成品的质量与效率。

值得一提的是,百度蒸汽机 2.0 在画质和运镜上也不输专业团队。通过多条件协同建模,端到端人物生成,以及百万级专业运镜数据微调,从而实现电影级画质、大师级复杂运镜。这也意味着过去需要庞大团队与昂贵设备才能实现的镜头效果,如今只需一段提示即可完成。毫不夸张地说,百度蒸汽机 2.0 让人人都能拍电影成为可能。

可以看出,百度蒸汽机 2.0 此次升级,并不是单点突破,而是在多个维度优化与创新的结果,它不仅解决了传统视频生成中短时长、不连贯、缺乏叙事的痛点,还将专业团队级别的影像表现力带到普通创作者手中。

结语

他们推出了香港电视界首部全 AI 生成的青春爱情短剧《在我心中,你是独一无二》,从男女主角到剧情,再到场景,100% 由 AI 生成。由此可见,AI 技术在影视制作中有着巨大潜力和经济价值。

百度蒸汽机长视频能力的升级推出,则进一步推动了这一趋势。

作为行业首个通用 AI 长视频生成模型,蒸汽机打破了时长限制,实现了任意时长的长视频生成。这种跨越式提升,使得 AI 视频生成不再只是炫技式的片段演示,而是真正具备了内容生产力,既能满足广告、影视预演等专业场景的需求,也能为大众创作者释放出前所未有的创作自由度。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.百度蒸汽机2.0视频生成大模型上线百度蒸汽机2.0视频生成大模型上线界面新闻 上海 0 打开网易新闻 体验效果更佳婚前一周,我收到爷爷2500万的房产证,正要告诉男友,他却突然说 行者服不服 打开APP 善解人意的婆婆一席话,怼得爱挑事的女儿哑口无言 大芹菜爱剪辑 1跟贴 打开APP 中企刚买4船美豆,特朗普又变卦,下架大批中货,不准中违约 绝代jvzquC41o07757hqo1|0xrigq1\E8ROV66>/j}rn
1.百度蒸汽机遭假冒网站诈骗,官方声明提醒谨防受骗|百度|蒸汽机近日,有用户反馈称在网络上发现多个假冒“百度蒸汽机(MuseSteamer)”的虚假网站。对此,百度营销于8月19日发布正式声明,提醒公众提高警惕,谨防上当受骗。 百度方面表示,其视频生成模型“百度蒸汽机(MuseSteamer)”已于7月2日正式对外发布。该模型一经推出便引发广泛关注,上线首日即实现每分钟超过百人申请,两周内注册jvzquC41hktbplj0uktb0lto0et0vnhj1tumn8724731:6721fud/rshotglj99724=:0|mvon
2.百度:海外出现大量蒸汽机MuseSteamer虚假网站,谨防受骗IT之家 8 月 19 日消息,百度营销今日发布声明,表示近期海外出现大量关于视频生成模型 —— 百度蒸汽机(MuseSteamer)的虚假网站,紧急提示用户注意甄别,谨防受骗。 百度声明提到,百度蒸汽机(MuseSteamer)于 7 月 2 日正式发布,发布首日平均每分钟超百人申请,2 周内注册用户超 30 万。 jvzquC41vgii0rkgpi4dqv4e1:ry7zj:fe9q
3.效果炸裂!「百度蒸汽机」圆你大片导演梦!今年的7月2日,在百度AI DAY开放日上,百度推出了视频生成模型MuseSteamer(百度蒸汽机)。8月21日,百度正式发布和升级了百度蒸汽机2.0,Turbo版、Lite版、Pro版及有声版本,并宣布全系开放。 直接看效果,下面是《阿凡达》中经典的一幕,男主深情注视着女主: jvzquC41pg}t0ozvwpt/exr1gp5qq|y183613A94
4.百度蒸汽机2.0视频生成大模型上线8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成2.0版本升级,在行业内首次实现多人有声视频一体化生成。其Turbo版、Lite版、Pro版及全系有声版全面开放,用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验,企业用户可在千帆平台享受高性能视频生成服务。jvzquC41hktbplj0uktb0ls14286/9=/435eg}fkn/oohvytzh:559<7:0j/j}rn
5.全球首发!百度蒸汽机2.0视频生成模型上线多人有声版【TechWeb】8月21日消息,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,Turbo版、Lite版、Pro版,及有声版全面开放,在行业内首次实现多人有声音视频一体化生成。 即日起,用户可通过百度搜索“百度蒸汽机”或登录“绘想”平台体验,企业用户可在千帆平台享受高性能视频生成服务。 jvzquC41yy}/vnhjygh/exr0ep5ve€jd1pkxu8nf14?76A:5a3
6.业界首次!百度蒸汽机2.0视频生成模型实现多人有声音视频一体化生成8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,Turbo版、Lite版、Pro版及有声版全面开放,首次在行业内实现多人有声音视频一体化生成。通过五大技术创新,百度蒸汽机可实现“需求即成片”,在生成电影级高清视频画面的同时,实现逼真环境音效、自然人物语音的同步输出。即日起,用户可通过百度搜索“百度蒸jvzquC41yy}/u}ickn/exr1ygh0im}y1463765:1470exsvgpz`5A=8994ivvq
7.百度蒸汽机视频模型升级2.0版本,宣布价格低至行业70%机哥认为,荣耀GT2系列将延续前代机型的高性价比路线,并且在这条路线上免不了要与REDMI K90系列展开竞争,如果不想被完全抢夺先机,那么至少发布时间是需要提前的,比如11月登场,这样就能与K90系列两款机型正面交锋,从而吸引更多追求高性价比的用户。 总的来说,荣耀GT2系列追求的或许不只是顶尖的性能体验,而是在性能jvzq<84vcenfpp3mggvqtxrkug4dp8hngct04977335:9?:9;0yivvq
8.百度蒸汽机2.0视频生成大模型上线,已落地搜索营销等场景  8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成升级,Turbo版、Lite版、Pro版,及有声版全面开放,实现多人有声音视频一体化生成。百度蒸汽机通过五大技术突破实现“需求即成片”,在生成电影级高清视频画面的同时,实现逼真环境音效、自然人物语音的同步输出。即日起,用户可通过百度搜索“百度蒸汽机”或登jvzq<84yyy4ykwmwcpku0lto1vkdj87247694;43:e8e4=h64985gA7c4g9g3B54f2kb:j61e0nuou
9.百度上线蒸汽机2.0视频生成大模型,实现多人有声视频一体化8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成升级,实现了多人有声视频一体化生成。百度蒸汽机是中文音视频一体化生成的I2V模型,其多模态潜在空间规划技术能够自主协调多角色身份、情感与互动逻辑。该系列大模型已经在百度搜索、营销等多个场景落地应用。(第jvzquC41yy}/{rhck0ipo8gtkgl03979:86127mvon
10.快手成了百度最大的对手广告业务是百度当前业绩的核心支撑点,今年二季度,百度核心的在线营销收入为 162 亿人民币,同比锐减 15%,这是近三年多来最严重的季度收入下滑,在线营销业务成为拖累整体营收的关键,这也意味着包括百度蒸汽机在内的 AI 转型,要应对短期变现能力的挑战。 jvzq<84yyy4n{ƒfmgt4dqv4ctvodnn48:c>6g:fd37kd2=74:6