百度发布十大科技前沿发明

百度首席技术官王海峰表示,百度始终站在AI创新前沿,人工智能全领域专利连续7年排名国内第一,生成式AI和大模型专利申请量中国第一、全球领先,深度学习专利申请量全球第一,高级别自动驾驶专利族全球领先。百度重视通过专利保护自主创新成果,也致力于推动成果转化,为产业,为社会创造价值,将AI的便利与价值带给每一个人。

百度首席技术官王海峰

北京市知识产权局党组书记、局长孟波指出,保护知识产权就是保护创新,北京市知识产权局深入贯彻落实国家知识产权战略,整合知识产权资源,不断提升首都知识产权全环节改革力度、全链条保护能力、全领域服务水平,北京市展现出强劲的创新实力和活力。百度凭借人工智能专利申请布局和高活跃度的开源项目,展现了其在科技创新行业中的领先地位和对行业发展的引领担当。希望百度继续加强科技创新,力争推出更多原创性、颠覆性发明,持续走在全国乃至全球技术创新前列,助力北京在人工智能领域率先实现高水平科技自立自强。

当前,国家政策支持AI大模型广泛应用,深入实施“人工智能+”行动方案,人工智能迎来爆发式发展阶段,AI技术加速迭代,应用加速落地效果涌现。百度持续自主创新,攻关人工智能关键核心技术,积累自主知识产权,以前沿创新引领产业的发展趋势。

会上,百度专利事务部总经理崔玲玲发布“2025百度十大科技前沿发明”并表示,每一项成果,都代表着对技术边界的勇敢突破,彰显着百度在创新道路上的坚定决心与不懈追求。这些前沿发明是AI行业新技术趋势的重要反映,多模态、多智能体协同、大规模集群训练、高说服数字人等均是今年最前沿的技术方向。如“大模型训练全流程高效容错技术”攻克集群训练中故障定位与召回恢复两大关键难题,已成功应用于文心大模型系列的高效稳定训练,万卡集群任务训练有效率超98%,处于国际领先水平。“信息流端到端内容理解与序列生成技术”突破现有推荐系统中内容理解与分发模型相互割裂的局限,构建了“理解生成-分发反馈-再理解生成”的自增强闭环,已推动Feed业务大幅增长,并落地百度地图、电商等众多场景。据悉,该发明所在“心流”团队曾于9月获得今年百度最高奖。

十大科技前沿发明中,不少技术已支撑百度AI应用实现效果涌现。“剧本驱动的高说服力数字人技术”,推动数字人技术进入高质量、低成本、广应用的普惠时代,使数字人具备超拟真、高表现力、AI大脑自主决策、剧本智能创作等特性。该技术曾支撑近期爆火的罗永浩数字人直播首秀创下GMV5500万元行业纪录;“兼容端到端轨迹方案的自动驾驶横纵联合控制技术”支撑了Apollo领先的控制技术方案,大幅提升自动驾驶车辆的安全性和乘坐舒适性,助力萝卜快跑全球化落地。萝卜快跑已累计提供超1400万次出行服务,安全行驶里程超2亿公里;“蒸汽机(文心专精)音视频一体化生成大模型技术”支撑百度蒸汽机提供分钟级优质画质与大师级运镜控制能力,同时大幅降低视频生成成本,该技术已在搜索、文小言等业务采用,同时对外赋能,在影视创作、营销推广等场景展现应用潜力。

百度2025十大科技前沿发明,具体如下:

1、自回归统一建模的原生多模态大模型

本发明是新一代文心大模型的核心技术,提出了业界首个能够同时支持语言、图像、视频、音频统一建模的多模态大模型技术框架,实现了多模态原生统一的融合建模,可同时支持任意模态的理解与生成;在此基础上构建了一种面向大模型的奖励系统,为多环境多任务场景提供高质量的强化学习奖励信号。基于本发明的新一代文心大模型,在各模态任务上较上一代模型均有显著提升,可支持更加广泛的应用场景,同时奖励系统显著提升了并发能力并降低响应时间,推动大模型能力的持续快速进化。

2、大模型训练全流程高效容错技术

本发明提出了大模型训练高效容错技术,构建了完备高效的软硬件故障自动召回定位恢复体系,创新性地提出基于大模型通信行为的全场景故障定位方法和零损失训练快照机制,攻克了集群训练中故障定位与召回恢复两大关键难题。同时,通过研制层次清晰、架构合理的容错接入体系及全流程测试框架,在大模型训练过程中实现了高效部署与验证,显著提升故障恢复效率,降低系统故障概率。该发明已成功应用于文心大模型系列的高效稳定训练,万卡集群任务的训练有效率超过98%,处于国际领先水平,显著提升资源利用效率,加速模型训练迭代。

3、剧本驱动的高说服力数字人技术

本发明构建了高说服力数字人方案,依托数字人视频生成大模型基座,设计了多模协同、高表现力、超长时长的数字人视频生产方案,涵盖可控视频生成技术、超拟真唇形驱动技术、剧本智能创作和AI大脑自主决策4个核心能力,突破大表情/大动作、音容话一致、人-物-场复杂交互等一系列业界难题。基于该发明的技术创新,推动数字人技术进入高质量、低成本、广应用的普惠时代,不仅使数字人表现超拟真,还具备了AI大脑,灵活调度助播、场控、运营等角色共同促进转化,真正实现了一个人就是一个营销团队。基于该技术打造的罗永浩数字人直播间,成为业界首个双数字人互动的直播,单场GMV超过5500万元,后验数据全面超真人。

4、基于多智能体协同的AI搜索引擎

该发明创新性地提出了一种AI搜索引擎技术,其核心框架 DeepSearch 以Master-Planner–Executor-Generator 四层智能体体系为技术底座,模拟人类信息处理的 “感知–规划–执行–生成”全流程,动态适配从单轮事实查询到复杂多阶段推理的全场景需求。AI搜索引擎,系统地融合显式任务规划、动态工具调用与实时反思机制,为新一代智能搜索提供了核心技术支撑。该发明已在百度文心助手中全流量落地,支撑文心助手复杂问题拆解、富媒体呈现、MCP调用、个性化满足、深度研究等多项关键能力,显著提升日活跃用户和用户留存;同时,该AI搜索引擎能力已对外开放赋能广大合作伙伴。

5、蒸汽机(文心专精)音视频一体化生成大模型技术

本发明是全球首个中文音视频一体化生成模型,通过多模态信息的精准同步与自然交互,支持分钟级多人有声音视频生成与交互;该发明由自回归扩散建模、有声一体化训练、高性能训推优化三大技术核心构成;通过极致的中文场景高质量数据清洗与结构化描述、训推一致性优化,调教支持长视频生成基座;搭载首创的Latent Multi Modal Planner技术重构生成逻辑,实现视频的全流程有声一体化生成;极致工程优化突破传统扩散模型限制,压缩视频成本,满足生成实时交互。该发明提供分钟级优质画质与大师级运镜控制,大幅降低影视创作、营销推广等场景的制作成本,提升效率。相关技术对内赋能商业内容生产、搜索妙笔、内容生态、feed短篇、文小言、AI助手等业务,推动百度AI视频生态繁荣;对外凭借其长视频实时交互生成能力,将AI视频从“单向生成”引入“双向共创”新阶段,引领视频生成领域创新方向。

6、从芯片到集群的跨层级训推一体AI基建系统性技术

本发明提出了从芯片到集群的跨层级协同优化、训推一体的 AI 基建系统性创新技术,计算架构上,首创 UltraServer 柜级超节点,兼容多卡;自研 XPU Link与PD分离架构,全栈优化软硬件协同;存储系统上,自适应元数据架构突破大规模管理瓶颈,专属KV Cache加速方案适配 AI业务;网络技术上,推理专属 2 跳可达架构+弹性 eRDMA,构建低时延传输通道;云原生能力上,全链路智能运维(异常自感知/诊断/恢复),AI网关增LLM智能路由。基于本发明成功构建起完备的AI基础设施技术体系,在计算方面,XPU Link带宽提升8倍,MoE单节点性能提升5-10倍;PD分离使 Decode/Prefill阶段的整体性能预计可分别提升95%和36%;在存储方面,支持千亿级文件,空间利用率超90%;网络时延压至4微秒;实现5000节点集群分钟级故障自愈。

7、兼容端到端轨迹方案的自动驾驶横纵联合控制技术

本发明提出了一种可兼容端到端轨迹方案的自动驾驶横纵联合控制技术,基于车辆的横纵耦合动力学,设计线性时变模型预测控制器,实现车辆运动的横、纵向联合协同控制,模型假设近似更少,对上游数据依赖更少,横纵向指令更加稳定,实现对传统方案的升级和超越。该发明可完美适配Apollo ADFM的端到端上游轨迹方案,大幅提升安全性和乘坐舒适性,对于低速横向晃动幅度可优化70%,100%消除弯道横向抽动的控制问题,使自动驾驶车辆的动态响应更加接近经验丰富的驾驶员的操作习惯,实现了真正意义上的拟人化控制,保证了Apollo控制技术的领先,有效支撑萝卜快跑全球化战略,助力萝卜快跑驶入香港、迪拜、阿布扎比等全球16座城市,截止8月,萝卜快跑累计提供超1400万次服务,安全行驶里程超2亿公里。

8、信息流端到端内容理解与序列生成技术

本发明突破了现有推荐系统中内容理解与分发模型相互割裂的局限,首创端到端多模态内容理解与序列生成技术,构建了“理解生成-分发反馈-再理解生成”的自增强闭环。通过全新的多模态语义对齐和动态Token统一量化技术,融合用户快慢反馈,将多模态知识对齐与生成式行为建模深度融合,实现Feed信息流系统从记忆检索,迈向深度理解生成推理的新阶段。该发明已应用于信息流推荐业务,完成了生成式信息流系统重构,全面提升了对内容资源的多模态理解能力与个性化生成效果,大幅推动Feed业务增长;并落地百度地图、电商、搜索等众多场景。

9、飞桨科学计算高效求解技术

本发明基于飞桨的科学计算核心技术,通过组合算子拆分、高阶自动微分、符号表达式的推理和神经网络编译器技术,实现了微分方程的高效求解,解决了科学计算场景高阶微分方程求解的难题。本发明的微分方程求解速度较传统方法提升2到4个数量级,比PyTorch提速115%,被国际知名微分方程求解库DeepXDE唯一推荐;已在飞桨框架中实现,集成于PaddleScience、PaddleCFD等产品,并实现产业化应用。本发明技术支持中科院力学所、大气物理所、苏州实验室等近20所高校与科研机构协同创新,应用于上海交通大学支撑其“AI for Science”科学数据开源开放平台建设;应用于中车集团“斫轮”大模型,研制出空气动力学仿真大模型“斫轮·风驰”,加速科学计算领域的创新发展。

10、基于智能体的自进化应用生成技术

本发明以大模型与强化学习为核心,构建了由“需求模型、代码模型、创意模型”组成的三重自进化学习架构,通过自然语言理解用户需求,经由代码模型实现高质量代码生成,并在用户反馈与强化学习机制下形成持续优化的数据飞轮。基于该发明技术的系统不仅能执行代码生成任务,更能在实践中自我学习、逐步提升智能水平,真正实现“越用越聪明”的AI开发助手;其多模型协同机制与端到端轨迹学习技术,打破了传统无代码平台的静态瓶颈,形成可持续演化的智能体编程体系。单应用从开发到上线,由传统的大约4人周、2万元缩减到小于1小时、低于50元,纯无代码生成应用已达到38万。

THE END
0.《百度视频生成模型蒸汽机上线手机网页版,8月将行业首发多人有声7月22日,百度商业自研的AIGC视频生成模型蒸汽机正式上线手机网页版,支持用户通过移动端一键生成电影级视频。据悉,该模型自上线2周,注册用户量突破30万,单小时任务提交量达18,000次,累计生成内容超200万条。 此外,当前 Turbo版限时免费公测中,8月还将上线Lite/Pro及全系列有声版本,实现行业首次支持单人人声、双人对jvzq<84dk|4jhnsi0eun1l4:nF{L9_Z4I
1.百度视频生成模型蒸汽机上线手机网页版36氪获悉,7月22日,百度商业自研的AIGC视频生成模型蒸汽机正式上线手机网页版,支持用户通过移动端一键生成电影级视频。据了解,该模型自上线2周,注册用户量突破30万,单小时任务提交量达18000次,累计生成内容超200万条。此外,当前Turbo版限时免费公测中,8月还将上线Lite/Pro及全系列有声版本,实现行业首次支持单人人声、双人对话视频生成。该模型基于亿级中文多模态数据训练,采用多jvzquC4158qs0lto1pkxuoqcujkt1<8:;9?4:@6963668
2.百度蒸汽机视频生成大模型升级2.0版本,定价低至行业70%百度蒸汽机视频生成大模型升级2.0版本,定价低至行业70% 8月21日,百度旗下视频生成大模型—“蒸汽机”发布最新版本,在行业内首次实现多人有声视频一体化生成。据记者了解,该系列大模型已经在百度搜索、营销等多个场景落地应用,定价低至行业70%。 责任编辑: 郑灶金 百度 视频生成大模型 蒸汽机jvzquC41yy}/u}hp0eun1jwvkerf1mjvckr05;745;:/j}rn
3.百度大涨,AIGC视频生成模型蒸汽机将会给百度带来什么?百度7月23日盘中表现强势,盘中一度涨4.49%。消息面上,百度旗下百度商业研发团队自研的AIGC视频生成模型蒸汽机(MuseSteamer)正式上线手机网页版,支持用户通过移动端一键生成电影级视频。百度的大涨我们该怎么分析? 首先,百度股价的上涨反映了市场对其新推出的AIGC视频生成模型蒸汽机的高度认可和期待。这款模型能够支持jvzquC41yy}/rltpnktf0lto0et0cr4ctvodnn4356637>3jvor
4.百度MuseSteamer视频生成模型开放H5体验电影级创作触手可及7月22日,百度商业宣布正式开放自研视频生成模型"MuseSteamer蒸汽机"的H5体验入口,让普通用户也能通过手机端体验AI电影级视频创作。这一举措标志着百度在生成式AI领域的又一重要落地应用。 打开网易新闻 查看精彩图片 早在7月2日的百度AI Day上,百度商业研发团队就重磅推出了MuseSteamer及配套创作平台"绘想"。该模型jvzquC41o07757hqo1jz1jwvkerf1T:5;:ZWR9:78C_Q\7mvon
5.从百万预算到几分钟成片:百度蒸汽机为品牌视频开了挂8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型完成重大升级,在行业内首次实现多人有声音视频一体化生成。创作者输入脚本,几分钟后你就能收获一条有角色、有对白、有情感、有镜头语言的视频成片。更重要的是,它不是实验室里的“炫技模型”,而是已经在一汽-大众、伊利倍畅等品牌的真实营销案例中落地,帮他们把原本jvzquC41zwkrk~3eqo525;;253<13886;38:4:5
6.百度蒸汽机视频模型升级2.0版本实现多人有声视频一体化生成8月21日,百度蒸汽机(MuseSteamer)音视频一体化模型宣布完成升级,业内首次实现多人有声视频一体化生成。其Turbo版、Lite版、Pro版及全系有声版全面开放,用户可通过百度搜索或登录相关平台体验。 据悉,百度蒸汽机是全球首个中文音视频一体化生成的I2V模型,首创多模态潜在空间规划技术,能够自主协调多角色身份、情感与jvzquC41i0vdqwqkpg4dqv3ep1~03B;813?78?5;40nuou
7.视频生成模型百度蒸汽机推出可实时交互长视频功能钛媒体App 10月15日消息,视频生成模型百度蒸汽机(文心专精)宣布升级,行业首次实现AI长视频实时交互生成。该功能升级依托流式视频技术实现“无限时长”生成,突破传统AI视频生成10秒左右的时长限制,生成速度超越主流中国视频生成模型。据悉,用户只需上传单张图片与一段jvzquC41o0znvytuv0ipo8skevgukxs199834@>0jvsm
8.百度蒸汽机,盯上长视频生成实时交互近期,Open AI发布最新多模态视频生成模型Sora 2,国内一众AI视频玩家,亦频频更新动态。 10月15日,百度旗下视频生成模型,百度蒸汽机(文心专精)再次升级,这一次的重点,放在了交互体验上。 百度称,蒸汽机模型实现实时交互生成AI长视频,突破传统10秒左右的时长限制。 jvzquC41yy}/4:okpipj0lto1cxuklqg14637:5391nftjqf16i429>4d7h47m5675g4h>;e39=e:lk540nuou
9.百度蒸汽机突破AI视频5秒限制,全球首发无限长视频生成功能【#百度蒸汽机打破AI视频5秒魔咒#长视频生成能力率先上线】9月25日,全球首个中文音视频一体化视频生成模型百度蒸汽机升级,发布通用AI长视频生成功能,支持用户生成无限长度的AI视频,本次升级在行业尚属首次,突破了此前AI仅能生成5秒、10秒短视频,或依赖首尾帧控制续写时长的局限,采用流式生成技术实现在通用长视频上的“无限”生成能力, jvzquC41ecogwqfq0ggtvvtpg{4dqv4pgyy049772;872:9548=15=82396
10.行业首次百度蒸汽机实现AI长视频实时交互【行业首次 百度蒸汽机实现AI长视频实时交互】财联社10月15日电,百度宣布视频生成模型百度蒸汽机(文心专精)再次升级。该模型突破传统AI视频生成10秒左右的时长限制,行业首次实现AI长视频实时交互生成,生成速度超越国内主流视频生成模型。据悉,用户只需上传单张图片与一段提示词即可启动视频生成流程,并能实时预览模型推理jvzquC41hktbplj0khkoi7hqo1i0:wYWQ6g{y:7
11.百度蒸汽机视频模型升级2.0版本,宣布价格低至行业70%产品经理决策点:与架构师紧密沟通,明确系统设计是优先支持横向扩展还是纵向扩展。这直接影响初期采购/租赁策略(买大机器vs买多小机器)和长期成本模型。 三、服务器配置 服务器配置(CPU、内存、存储、网络)是性能的基石,也是成本的大头。产品经理需在满足性能需求、控制预算、预留未来扩展空间三者间找到最佳平衡点。 jvzq<84nkw€iq~3|jgth|qtwujkoiof0eqs0ulfng17:7980ujznn
12.百度视频生成模型MuseSteamer开放H5体验入口【TechWeb】7月22日消息,百度商业自研的 MuseSteamer 蒸汽机正式开放 H5 体验入口(https://huixiang.baidu.com/mobile)。 在7月2日的百度AI Day开放日上,百度商业研发团队自研的视频生成模型“MuseSteamer”及创作平台“绘想”重磅推出,直接把AI视频创作拉入电影级水准。用户仅需上传1张图片,MuseSteamer即可生成10jvzquC41yy}/vnhjygh/exr0ep5ve€jd1pkxu8nf14?75>;7
13.百度蒸汽机2.0发布:成本降至七成,AIGC视频将进入普惠时代AI视频生成正成为大模型竞争的核心战场,成本与质量的平衡逐渐成为行业比拼的关键。 8月21日,百度在“热AI大会”上发布蒸汽机2.0,Turbo、Lite、Pro及有声版同步上线。新版本在语音与画面同步、多角色对话生成、中文场景适配等方面进行了升级,并将定价大幅下调,刊例价相比同类产品下降至70%,让好莱坞百万级特效成本降至jvzquC41uvudm762lsqb0lto0et049772:841l;927?5;:70ujznn
14.百度辟谣蒸汽机视频生成模型多个海外仿冒网址百度营销发布官方声明,表示近期海外出现大量关于视频生成模型——百度蒸汽机(MuseSteamer)的虚假网站,紧急提示用户注意甄别,谨防受骗。声明同时提到,百度蒸汽机(MuseSteamer)自上线以来受到各方关注,将于8月21日举办升级发布会,全新推出百度蒸汽机 2.0 版本,包括Turbo、Lite、Pro和有声版全系模型。jvzquC41o0jejn0eqs0pn|u13639A69624ivvq
15.百度蒸汽机视频模型升级2.0版本,宣布价格低至行业70%B站不同于其他视频平台,当年想要成为注册会员可是要经过“入学考试”的,100道题目难度不小,当年的老二次元们很多都是一边搜索一边答题的。现在B站的题目虽然没那么难了,但是对于60后来说,弹幕礼仪、二次元文化等相关内容,想要拿到高分依然不简单。 魏建军也分享了自己B站考试的内容,自己答错的题目也十分坦诚地公布了jvzq<84zkcthvjs0ufqvcrxqw0io1zzknv572:<:7;4tj}rn
16.百度蒸汽机视频模型升级2.0版本,宣布价格低至行业70%利用Transformer网络对输入的不完整点云数据进行补全。这一过程通常包括将预处理后的点云数据输入到Transformer网络中,经过一系列的Transformer层进行特征提取和重建。最终,模型会生成完整的点云数据,填补了原始数据中的缺失部分。 在计算机视觉领域中,微云全息提出的一种基于TNet的增强型点云补全方法,标志着对于处 jvzq<84{cct/umpwckypw7hp1|uocu4424;238<5:6>567xjvor
17.对话百度蒸汽机团队:国内视频生成模型赛道非常“卷”,Sora2发布后团队都10月1日,OpenAI 推出新一代视频生成大模型 Sora2,凭借10秒有声一体化视频及社交化玩法迅速引爆网络,不仅让用户可对生成内容进行分享、点赞、评论,形成病毒式传播,更直接加剧了国内视频模型赛道的技术竞赛压力。 面对Sora2的“破圈”,国内的视频生成模型团队迅速响应。近期,百度蒸汽机团队在接受《中国经营报》等媒体jvzq<84yyy4dd7hqo0io1rsfgz5tjx|1|l5dx8hx35;44@6434<3
18.百度蒸汽机推出可实时交互长视频功能,支持打断改写续写10月15日,百度视频生成模型蒸汽机(文心专精)再次升级,实现了AI长视频实时交互生成。 该功能升级依托流式视频技术实现“无限时长”生成,突破传统AI视频生成10秒左右的时长限制,生成速度超越国内主流视频生成模型。 在百度蒸汽机中,用户只需上传单张图片与一段提示词即可启动视频生成流程,并能实时预览模型推理全部内容。jvzq<84yyy4dd7hqo0io1rsfgz5tjx|1iu70e4ex3866=<;3392
19.百度蒸汽机视频生成大模型升级2.0版本,定价低至行业70%百度蒸汽机视频生成大模型升级2.0版本,定价低至行业70% 人民财讯8月21日电,8月21日,百度旗下视频生成大模型—“蒸汽机”发布最新版本,在行业内首次实现多人有声视频一体化生成。据记者了解,该系列大模型已经在百度搜索、营销等多个场景落地应用,定价低至行业70%。 海量资讯、精准解读,尽在新浪财经APPjvzq<84hkpgoen3ukpg/exr0ep5kl|14286/9=/435eql2kphsutk666686@3ujvsm
20.视频生成模型大幅降价,百度为何如此激进?蒸汽机新浪财经百度旗下的视频生成模型蒸汽机完成了一次大幅度升级,这距离该模型上线仅仅有50天。 在模型能力上,蒸汽机模型最大的变化是实现了多人有声音视频一体化生成,模型生成的视频不需要再进行后期配音,人物的声音和表情、动作以及嘴型实现同步,即使在复杂场景下也能够保持稳定。同时,生成视频的画面清晰度和流畅度也有了明显提jvzq<84hkpgoen3ukpg/exr0ep5tvxhm1v532;:/2:3358iqe/oohv}vrh:3;?;:40yivvq