当前位置:首页 > 站长资讯 > 正文内容

智元发布 SOP:面向真实世界部署的在线后训练系统

a811625534周前 (01-06)站长资讯11

智元具身智能研究中心正式发布 sop(scalable online post-training)——一套专为真实物理场景部署而设计的在线后训练系统。这也是全球范围内首次在现实世界中面向视觉-语言-动作模型(vla)的后训练,系统性整合在线学习机制、分布式计算架构与多任务通用能力,使机器人集群可在真实环境中自主持续进化,并实现个体经验在群体层面的高效共享与复用,真正将“规模优势”转化为“智能跃迁”。

据官方介绍,SOP 的核心使命,是推动机器人在开放物理世界中完成分布式、不间断的在线学习。研发团队彻底重构了传统 VLA 后训练范式,将其从“离线化、单机化、串行化”升级为“在线化、集群化、并行化”,构建起一个低时延、高响应的闭环学习通路:多机器人同步执行 → 云端实时联合更新 → 模型参数秒级回传

SOP 基于经典的 Actor–Learner 异步协同架构:

  • Actor(执行端)——并行采集真实经验
    多台搭载统一策略模型的机器人(Actors)在异构环境(如商超、家庭、工厂)中同步开展多样化任务,持续收集成功执行、失败尝试及人类干预等高质量交互数据。各节点采集的经验被统一汇聚至云端 Experience Buffer,形成动态增长的经验池。

  • Learner(学习端)——云端实时增量优化
    所有轨迹数据流式上传至云端 Learner,构建融合在线真实交互与离线专家示范的混合数据集。系统引入动态重采样机制,依据各任务当前性能反馈,自动调节在线数据与离线数据的采样权重,从而更精准地聚焦真实世界中的关键难点与长尾分布。

  • 毫秒级参数同步
    更新后的模型参数可在分钟级内完成全集群下发,确保所有机器人始终运行最新策略,既保障群体协同进化的一致性,又维持在线训练过程的鲁棒性与收敛稳定性。

SOP 是一个高度解耦、即插即用的通用框架,兼容任意主流后训练算法,赋能 VLA 模型从持续产生的在线数据中自主获益。项目团队以 HG-DAgger(人机协同模仿学习)与 RECAP(离线强化学习增强框架)为典型代表,将其无缝嵌入 SOP 架构,实现从单点优化到集群智能的范式升级。

核心突破

  • 广域状态空间覆盖
    多机器人地理分散、任务并发的协同探索模式,极大拓展了状态–动作空间的覆盖密度,有效规避单机在线学习易陷入局部、覆盖稀疏的固有缺陷。

  • 抑制策略分布漂移
    所有机器人始终基于低延迟同步的最新策略进行推理与交互,显著缓解因策略滞后引发的数据分布偏移问题,提升训练过程的稳定性与泛化一致性。

  • 兼顾特化性能与通用能力
    区别于传统单机在线训练易导致模型窄化为单一任务“专才”的倾向,SOP 通过空间维度的并行学习而非时间维度的顺序微调,在持续提升各项任务表现的同时,完整保留 VLA 模型的跨任务理解与泛化潜力,杜绝能力退化。

实验验证显示,在多种复杂现实场景下,集成 SOP 的后训练方案均取得突破性进展。相较于基线预训练模型,采用 SOP-HG-DAgger 的方案在商品密集、光照多变、遮挡频繁的商超环境中,综合任务性能提升达 33%。在高精度灵巧操作任务(如衣物折叠、纸盒装配)中,SOP 不仅显著提高任务成功率,更通过在线学习捕获大量异常恢复行为,大幅增强策略的实际吞吐效率。

具体而言,SOP-HG-DAgger 在衣物折叠任务中相较标准 HG-DAgger 实现吞吐量激增 114%;多任务通用能力全面提升至接近理想水平——各类任务成功率稳定超过 94%,其中纸盒装配任务成功率达 98%。

你好星识

你的全能AI工作空间

下载

在总训练时长严格限定为 3 小时的前提下,四机器人并行学习的最终任务成功率高达 92.5%,较单机方案高出 12 个百分点。多机协同采集有效打破了单设备环境偏差带来的过拟合风险。更重要的是,SOP 成功将硬件资源的线性扩展,转化为学习效率的非线性跃升:四机集群相较单机,达成同等目标性能所需的训练时间缩短至原来的 41.7%,即加速比达 2.4 倍。

研究还深入分析了 SOP 与预训练基础之间的耦合关系。团队将总计 160 小时的多任务预训练数据划分为三组(20h / 80h / 160h),分别初始化三类基座模型后接入 SOP 进行在线演进。结果表明:预训练规模直接决定了初始能力基线与后续 SOP 提升的潜力曲线。SOP 对所有起点模型均能提供稳定、可预期的性能增益,且最终上限与预训练质量呈正相关。

进一步对比 80 小时与 160 小时预训练组可见,在应对特定失败模式(如物体滑脱、姿态误判)时,在轨策略积累的真实经验展现出极强的边际增益。仅需 3 小时真实场景运行数据,SOP 即带来约 30% 的性能跃升;而额外增加 80 小时人工标注专家数据,仅贡献 4% 的提升。这清晰印证:当预训练进入收益递减区间后,SOP 可成为突破 VLA 当前性能天花板的关键路径。

源码地址:点击下载

扫描二维码推送至手机访问。

版权声明:本文由2345好导航站长资讯发布,如需转载请注明出处。

本文链接:http://2345hao.cn/blog/index.php/post/27581.html

分享给朋友:

“智元发布 SOP:面向真实世界部署的在线后训练系统” 的相关文章

高强度竞争领域注定容不下安逸,等待敲锣的协和电子正走在掉队的路上?

高强度竞争领域注定容不下安逸,等待敲锣的协和电子正走在掉队的路上?

  扎根印制电路板技术研发二十年,专注于汽车电子、高频通讯等中高端领域的协和电子(605258)本周启动招股,下周四(11月19日)即将网上申购。   多年的沉淀,令其收获了一批优质客户。不过随着行业规模增长放缓、各类成本抬升以及行业龙头集中度提高,协和电子往日优势逐渐消退,利润水平也逐年降低,此...

威腾电气IPO观察:自夸“头部企业”被打回原形 拿投资者4个亿只为“试试水”?

威腾电气IPO观察:自夸“头部企业”被打回原形 拿投资者4个亿只为“试试水”?

  威腾电气,一家缺乏科创属性、爱夸夸其谈还带着问题供应商的公司,正在冲击科创板市场。   2021年1月14日,以输配电中母线产品研发、制造及销售为主业的威腾电气,正式通过上市委会议,距离科创板上市又近了一步。   但这对投资者而言,可能并不是一件好事。   由于身在传统电力行业,科研步伐又...

市占率不足0.1% 造血能力不足 罗普特科创上市谋续命?

市占率不足0.1% 造血能力不足 罗普特科创上市谋续命?

  钱流不进口袋的企业,真的算是赚钱企业吗?   盈利,是大部分投资者最关心的问题。但企业盈利的有效性,是有前提的,现金流就是这个前提。但这部分,往往会被许多投资者忽略,正如巴菲特的那句著名评论:“现金是氧气,99%的时间你不会注意它,直到它没有了”。   没有现金流入的盈利只是纸面数字,纸面数...

19%市占率换不来业绩体量的和林微纳 新业务0.24%市占率又该如何期待?

19%市占率换不来业绩体量的和林微纳 新业务0.24%市占率又该如何期待?

  以19%市占率位居精微屏蔽罩市场头部玩家的和林微纳,即将亮相科创板。   2021年3月9日,主要产品为微机电(MEMS)精微电子零部件的和林微纳,开启了科创板招股。公司与楼氏电子、瑞声科技、裕元电子和银河机械,一同成为精微屏蔽罩市场的主要玩家,2019年五家企业合计占到全球市场总份额的80%...

新风光:核心材料严重依赖进口 毛利率下滑市场“风光”不再 |

新风光:核心材料严重依赖进口 毛利率下滑市场“风光”不再 |

  作为“光伏、风电”等大热门行业上游关键零部件供应商的新风光,即将登陆科创资本市场。   2021年3月24日,以大功率电力电子节能控制技术为核心技术平台,构筑电气控制装备产品体系的新风光,在科创板开启招股环节。   招股资料显示,新风光本次共计将募资5.9亿元,其中1.5亿元用于变频器和SV...

上声电子:四年净利仅剩30% 研发低产能又“空置” 三角股权难解丨

上声电子:四年净利仅剩30% 研发低产能又“空置” 三角股权难解丨

  历时四年发展,归母净利润反缩水近7成的上声电子,即将登陆科创板,寻求资本助力。   作为国内前装市场汽车声学产品方案供应商的上声电子,于2021年3月29日在科创板启动招股环节。公司计划募集4.47亿元资金,其中2.47亿元用于扩产扬声器项目,1.49亿元用于扩产汽车电子项目,剩余5000万元...