百度发布十大科技前沿发明|百度蒸汽机20视频生成大模型上线_蒸汽拖拉机

百度首席技术官王海峰表示，百度始终站在AI创新前沿，人工智能全领域专利连续7年排名国内第一，生成式AI和大模型专利申请量中国第一、全球领先，深度学习专利申请量全球第一，高级别自动驾驶专利族全球领先。百度重视通过专利保护自主创新成果，也致力于推动成果转化，为产业，为社会创造价值，将AI的便利与价值带给每一个人。

百度首席技术官王海峰

北京市知识产权局党组书记、局长孟波指出，保护知识产权就是保护创新，北京市知识产权局深入贯彻落实国家知识产权战略，整合知识产权资源，不断提升首都知识产权全环节改革力度、全链条保护能力、全领域服务水平，北京市展现出强劲的创新实力和活力。百度凭借人工智能专利申请布局和高活跃度的开源项目，展现了其在科技创新行业中的领先地位和对行业发展的引领担当。希望百度继续加强科技创新，力争推出更多原创性、颠覆性发明，持续走在全国乃至全球技术创新前列，助力北京在人工智能领域率先实现高水平科技自立自强。

当前，国家政策支持AI大模型广泛应用，深入实施“人工智能+”行动方案，人工智能迎来爆发式发展阶段，AI技术加速迭代，应用加速落地效果涌现。百度持续自主创新，攻关人工智能关键核心技术，积累自主知识产权，以前沿创新引领产业的发展趋势。

会上，百度专利事务部总经理崔玲玲发布“2025百度十大科技前沿发明”并表示，每一项成果，都代表着对技术边界的勇敢突破，彰显着百度在创新道路上的坚定决心与不懈追求。这些前沿发明是AI行业新技术趋势的重要反映，多模态、多智能体协同、大规模集群训练、高说服数字人等均是今年最前沿的技术方向。如“大模型训练全流程高效容错技术”攻克集群训练中故障定位与召回恢复两大关键难题，已成功应用于文心大模型系列的高效稳定训练，万卡集群任务训练有效率超98%，处于国际领先水平。“信息流端到端内容理解与序列生成技术”突破现有推荐系统中内容理解与分发模型相互割裂的局限，构建了“理解生成-分发反馈-再理解生成”的自增强闭环，已推动Feed业务大幅增长，并落地百度地图、电商等众多场景。据悉，该发明所在“心流”团队曾于9月获得今年百度最高奖。

十大科技前沿发明中，不少技术已支撑百度AI应用实现效果涌现。“剧本驱动的高说服力数字人技术”，推动数字人技术进入高质量、低成本、广应用的普惠时代，使数字人具备超拟真、高表现力、AI大脑自主决策、剧本智能创作等特性。该技术曾支撑近期爆火的罗永浩数字人直播首秀创下GMV5500万元行业纪录；“兼容端到端轨迹方案的自动驾驶横纵联合控制技术”支撑了Apollo领先的控制技术方案，大幅提升自动驾驶车辆的安全性和乘坐舒适性，助力萝卜快跑全球化落地。萝卜快跑已累计提供超1400万次出行服务，安全行驶里程超2亿公里；“蒸汽机（文心专精）音视频一体化生成大模型技术”支撑百度蒸汽机提供分钟级优质画质与大师级运镜控制能力，同时大幅降低视频生成成本，该技术已在搜索、文小言等业务采用，同时对外赋能，在影视创作、营销推广等场景展现应用潜力。

百度2025十大科技前沿发明，具体如下：

1、自回归统一建模的原生多模态大模型

本发明是新一代文心大模型的核心技术，提出了业界首个能够同时支持语言、图像、视频、音频统一建模的多模态大模型技术框架，实现了多模态原生统一的融合建模，可同时支持任意模态的理解与生成；在此基础上构建了一种面向大模型的奖励系统，为多环境多任务场景提供高质量的强化学习奖励信号。基于本发明的新一代文心大模型，在各模态任务上较上一代模型均有显著提升，可支持更加广泛的应用场景，同时奖励系统显著提升了并发能力并降低响应时间，推动大模型能力的持续快速进化。

2、大模型训练全流程高效容错技术

本发明提出了大模型训练高效容错技术，构建了完备高效的软硬件故障自动召回定位恢复体系，创新性地提出基于大模型通信行为的全场景故障定位方法和零损失训练快照机制，攻克了集群训练中故障定位与召回恢复两大关键难题。同时，通过研制层次清晰、架构合理的容错接入体系及全流程测试框架，在大模型训练过程中实现了高效部署与验证，显著提升故障恢复效率，降低系统故障概率。该发明已成功应用于文心大模型系列的高效稳定训练，万卡集群任务的训练有效率超过98%，处于国际领先水平，显著提升资源利用效率，加速模型训练迭代。

3、剧本驱动的高说服力数字人技术

本发明构建了高说服力数字人方案，依托数字人视频生成大模型基座，设计了多模协同、高表现力、超长时长的数字人视频生产方案，涵盖可控视频生成技术、超拟真唇形驱动技术、剧本智能创作和AI大脑自主决策4个核心能力，突破大表情/大动作、音容话一致、人-物-场复杂交互等一系列业界难题。基于该发明的技术创新，推动数字人技术进入高质量、低成本、广应用的普惠时代，不仅使数字人表现超拟真，还具备了AI大脑，灵活调度助播、场控、运营等角色共同促进转化，真正实现了一个人就是一个营销团队。基于该技术打造的罗永浩数字人直播间，成为业界首个双数字人互动的直播，单场GMV超过5500万元，后验数据全面超真人。

4、基于多智能体协同的AI搜索引擎

该发明创新性地提出了一种AI搜索引擎技术，其核心框架 DeepSearch 以Master-Planner–Executor-Generator 四层智能体体系为技术底座，模拟人类信息处理的 “感知–规划–执行–生成”全流程，动态适配从单轮事实查询到复杂多阶段推理的全场景需求。AI搜索引擎，系统地融合显式任务规划、动态工具调用与实时反思机制，为新一代智能搜索提供了核心技术支撑。该发明已在百度文心助手中全流量落地，支撑文心助手复杂问题拆解、富媒体呈现、MCP调用、个性化满足、深度研究等多项关键能力，显著提升日活跃用户和用户留存；同时，该AI搜索引擎能力已对外开放赋能广大合作伙伴。

5、蒸汽机（文心专精）音视频一体化生成大模型技术

本发明是全球首个中文音视频一体化生成模型，通过多模态信息的精准同步与自然交互，支持分钟级多人有声音视频生成与交互；该发明由自回归扩散建模、有声一体化训练、高性能训推优化三大技术核心构成；通过极致的中文场景高质量数据清洗与结构化描述、训推一致性优化，调教支持长视频生成基座；搭载首创的Latent Multi Modal Planner技术重构生成逻辑，实现视频的全流程有声一体化生成；极致工程优化突破传统扩散模型限制，压缩视频成本，满足生成实时交互。该发明提供分钟级优质画质与大师级运镜控制，大幅降低影视创作、营销推广等场景的制作成本，提升效率。相关技术对内赋能商业内容生产、搜索妙笔、内容生态、feed短篇、文小言、AI助手等业务，推动百度AI视频生态繁荣；对外凭借其长视频实时交互生成能力，将AI视频从“单向生成”引入“双向共创”新阶段，引领视频生成领域创新方向。

6、从芯片到集群的跨层级训推一体AI基建系统性技术

本发明提出了从芯片到集群的跨层级协同优化、训推一体的 AI 基建系统性创新技术，计算架构上，首创 UltraServer 柜级超节点，兼容多卡；自研 XPU Link与PD分离架构，全栈优化软硬件协同；存储系统上，自适应元数据架构突破大规模管理瓶颈，专属KV Cache加速方案适配 AI业务；网络技术上，推理专属 2 跳可达架构+弹性 eRDMA，构建低时延传输通道；云原生能力上，全链路智能运维（异常自感知/诊断/恢复），AI网关增LLM智能路由。基于本发明成功构建起完备的AI基础设施技术体系，在计算方面，XPU Link带宽提升8倍，MoE单节点性能提升5-10倍；PD分离使 Decode/Prefill阶段的整体性能预计可分别提升95%和36%；在存储方面，支持千亿级文件，空间利用率超90%；网络时延压至4微秒；实现5000节点集群分钟级故障自愈。

7、兼容端到端轨迹方案的自动驾驶横纵联合控制技术

本发明提出了一种可兼容端到端轨迹方案的自动驾驶横纵联合控制技术，基于车辆的横纵耦合动力学，设计线性时变模型预测控制器，实现车辆运动的横、纵向联合协同控制，模型假设近似更少，对上游数据依赖更少，横纵向指令更加稳定，实现对传统方案的升级和超越。该发明可完美适配Apollo ADFM的端到端上游轨迹方案，大幅提升安全性和乘坐舒适性，对于低速横向晃动幅度可优化70%，100%消除弯道横向抽动的控制问题，使自动驾驶车辆的动态响应更加接近经验丰富的驾驶员的操作习惯，实现了真正意义上的拟人化控制，保证了Apollo控制技术的领先，有效支撑萝卜快跑全球化战略，助力萝卜快跑驶入香港、迪拜、阿布扎比等全球16座城市，截止8月，萝卜快跑累计提供超1400万次服务，安全行驶里程超2亿公里。

8、信息流端到端内容理解与序列生成技术

本发明突破了现有推荐系统中内容理解与分发模型相互割裂的局限，首创端到端多模态内容理解与序列生成技术，构建了“理解生成-分发反馈-再理解生成”的自增强闭环。通过全新的多模态语义对齐和动态Token统一量化技术，融合用户快慢反馈，将多模态知识对齐与生成式行为建模深度融合，实现Feed信息流系统从记忆检索，迈向深度理解生成推理的新阶段。该发明已应用于信息流推荐业务，完成了生成式信息流系统重构，全面提升了对内容资源的多模态理解能力与个性化生成效果，大幅推动Feed业务增长；并落地百度地图、电商、搜索等众多场景。

9、飞桨科学计算高效求解技术

本发明基于飞桨的科学计算核心技术，通过组合算子拆分、高阶自动微分、符号表达式的推理和神经网络编译器技术，实现了微分方程的高效求解，解决了科学计算场景高阶微分方程求解的难题。本发明的微分方程求解速度较传统方法提升2到4个数量级，比PyTorch提速115%，被国际知名微分方程求解库DeepXDE唯一推荐；已在飞桨框架中实现，集成于PaddleScience、PaddleCFD等产品，并实现产业化应用。本发明技术支持中科院力学所、大气物理所、苏州实验室等近20所高校与科研机构协同创新，应用于上海交通大学支撑其“AI for Science”科学数据开源开放平台建设；应用于中车集团“斫轮”大模型，研制出空气动力学仿真大模型“斫轮·风驰”，加速科学计算领域的创新发展。

10、基于智能体的自进化应用生成技术

本发明以大模型与强化学习为核心，构建了由“需求模型、代码模型、创意模型”组成的三重自进化学习架构，通过自然语言理解用户需求，经由代码模型实现高质量代码生成，并在用户反馈与强化学习机制下形成持续优化的数据飞轮。基于该发明技术的系统不仅能执行代码生成任务，更能在实践中自我学习、逐步提升智能水平，真正实现“越用越聪明”的AI开发助手；其多模型协同机制与端到端轨迹学习技术，打破了传统无代码平台的静态瓶颈，形成可持续演化的智能体编程体系。单应用从开发到上线，由传统的大约4人周、2万元缩减到小于1小时、低于50元，纯无代码生成应用已达到38万。

THE END

百度发布十大科技前沿发明

早报腾讯云odeuddy国内版开启公测；pen首席财务官：将考虑在未来某个时间点上市

百度蒸汽机视频大模型折价入局

干翻ora！百度蒸汽机实时流式生成，把生视频玩出花儿长视频sora知名企业

百度蒸汽机视频生成大模型升级版本，价格低至行业

百度发布十大科技前沿发明

创历史！百度“蒸汽机”让视频可“边改边看”！科创人工智能华夏盘初弱势震荡，芯片算力方向成盘中亮点！

多人有声视频一体生成！百度最新生成营销视频，现在元秒引擎蒸汽机ai生成网络信息知名企业