随州网站建设全包wordpress 批量文章-Seo优化-扬州市网站建设公司

随州网站建设全包,wordpress 批量文章,关键词排名的排名优化,网站建设中正在为您转这是一个关于机器人学习的故事#xff0c;而且它的灵感来自一个看似简单但深刻的观察#xff1a;小孩子是如何学会拿东西的。想象一个婴儿坐在地板上#xff0c;周围散放着各种玩具。他不是一开始就能精准地拿起任何东西#xff0c;而是通过反复玩耍几个简单的玩具——积木…这是一个关于机器人学习的故事而且它的灵感来自一个看似简单但深刻的观察小孩子是如何学会拿东西的。想象一个婴儿坐在地板上周围散放着各种玩具。他不是一开始就能精准地拿起任何东西而是通过反复玩耍几个简单的玩具——积木、球、铃铛——慢慢理解了物体的形状、大小和重量。一旦掌握了这些基础他就能够拿起从未见过的新东西。这个过程看起来很自然但其中蕴含的学习原理却深刻得令人惊讶。加州大学伯克利分校的一个研究团队包括Dantong Niu、Yuvan Sharma、Baifeng Shi、Rachel Ding、Matteo Gioia、Haoru Xue、Henry Tsai、Konstantinos Kallidromitis、Anirudh Pai、Shankar Shastry、Trevor Darrell、Jitendra Malik和Roei Herzig等研究者决定用这个简单的观察来解决机器人领域一个长期存在的难题。他们的研究成果发表在2025年10月论文编号为arXiv:2510.12866v1。这项研究提出了一个名为LEGO的框架其核心思想是机器人也可以通过在简单玩具上的训练学会抓取真实世界中的各种物体。一、问题的根源机器人为什么不能像人一样学习机器人在执行抓取任务时面临一个根本性的困境。当工程师们训练一个机器人在某些特定物体上抓取时这个机器人往往无法处理与训练对象不同的新物体。这就像一个学生只在教科书上学过如何计算正方形的面积突然被要求计算圆形的面积时就完全懵了。这种现象在机器学习中被称为泛化能力差。为什么会这样呢原因在于机器人的视觉系统学到的往往是非常具体的特征。当它看到一个红色的立方体时它学到的可能是这个红色的东西而不是立方体这个形状。所以当它看到一个蓝色的立方体时它就不认识了。这就像一个人只见过红色的苹果突然看到绿色的苹果时会感到困惑一样。更糟的是现有的解决方案往往需要大量的数据。一些最先进的机器人模型需要数百万个训练样本才能学会基本的抓取技能。这就像为了让一个学生掌握乘法你需要给他做一百万道乘法题这显然不符合学习的自然规律。二、灵感来源向孩子们学习研究团队的突破性想法来自认知科学的研究。心理学家们发现婴幼儿并不是通过接触成千上万种不同物体来学习操纵技能的。相反他们通过掌握少数几个简单玩具的特性然后将这些知识应用到新物体上。这个过程被称为原型学习。这个观察给了研究团队一个启发如果机器人也能以类似的方式学习呢不是用真实世界的物体进行训练而是用一些简单的、有代表性的形状进行训练。这就引出了他们研究的核心创新——塞尚玩具的概念。这个名字来自著名画家保罗·塞尚的一句话用圆柱体、球体、圆锥体来对待自然一切都要放在适当的透视中。塞尚认为复杂的物体实际上可以分解为几个简单的基本形状。研究团队决定用这个艺术原理来指导他们的机器人训练。三、玩具的设计四个简单形状的无限组合研究团队选择了四个基本的几何形状作为他们的积木球体、立方体、圆柱体和圆环。这些形状看起来非常简单但它们的组合方式却能创造出令人惊讶的多样性。具体来说他们随机地将这些形状组合在一起。一个玩具可能由一个球体和一个立方体组成另一个可能由三个圆柱体和两个环组成。每个形状的大小也会随机变化——球体的直径可以从1厘米到8厘米立方体的尺寸可以在各个维度上变化很大。此外每个玩具还会被随机着色可能是蓝色、红色、绿色或黄色。通过这种方式研究团队生成了250个独特的玩具。这些玩具看起来都很奇怪不像任何真实世界中的物体。这正是设计的妙处——这些玩具足够不同寻常以至于机器人无法通过简单的记忆来学习但又足够有结构性使得机器人可以学到关于形状、大小和组合的通用原理。四、数据收集从虚拟到真实研究团队在两个环境中收集了机器人抓取这些玩具的数据。首先他们在一个名为ManiSkill的虚拟模拟器中进行了实验使用一个模拟的Franka机械臂和夹爪。这就像在电脑游戏中进行练习一样。他们收集了2500个虚拟抓取演示。但虚拟世界和真实世界之间总是存在差异。所以研究团队还进行了真实世界的实验。他们用3D打印机制造了这250个玩具的物理版本然后使用真实的Franka机械臂通过远程操纵收集了1500个真实的抓取演示。此外他们还用一个名为Unitree H1-2的人形机器人配备了灵巧的机械手收集了500个额外的演示。这个数据收集过程非常重要。通过让人类操作者远程控制机器人进行抓取研究团队确保了收集到的数据质量很高同时也确保了每个玩具都有多种不同的抓取方式被记录下来。毕竟一个物体可以用许多不同的方式被抓取机器人需要学会这种多样性。五、核心创新检测池化机制现在我们来到了这项研究最精妙的部分——一个名为检测池化Detection Pooling简称DetPool的新技术。这个技术看起来很复杂但其核心思想其实很简单。想象你在一个嘈杂的餐厅里试图听某个特定的人说话。周围有很多噪音——其他人的谈话声、碗碟的碰撞声、背景音乐。你的大脑做的一件事是自动地将注意力集中在那个人的声音上忽略其他的声音。这就是所谓的选择性注意。检测池化对机器人的视觉系统做的就是类似的事情。当机器人看一张图片时它需要识别出要抓取的目标物体然后集中所有的注意力在那个物体上忽略背景、其他物体甚至桌子或房间的其他部分。技术上这是这样工作的首先研究团队使用一个名为SAM 2的图像分割模型来识别目标物体在图像中的位置并创建一个掩码——本质上是一个标记出物体所在区域的地图。然后他们修改了视觉编码器一个处理图像的神经网络的注意力机制使其只关注物体对应的像素区域而完全忽略其他区域。最后他们对物体区域的所有特征进行平均得到一个专注于物体本身的视觉表示。这个看似简单的改变实际上非常强大。它确保了机器人学到的不是这个特定背景下的红色立方体而是立方体这个形状。这就是为什么机器人能够泛化到完全不同的物体上。六、完整的学习系统研究团队构建的完整系统包括几个相互配合的部分。在视觉处理方面他们使用了一个预训练的视觉编码器称为MVP它已经在大量图像上学过如何识别视觉特征。这个编码器与检测池化机制结合产生了一个专注于物体的视觉表示。然后这个视觉表示被输入到一个基于Transformer的策略网络中。Transformer是现代深度学习中的一种强大架构它能够处理序列数据并学会复杂的时间依赖关系。在这个案例中Transformer接收过去16个时间步的视觉和本体感觉信息关于机器人自身位置和姿态的信息然后预测接下来16个时间步的动作。整个系统使用行为克隆进行训练这是一种模仿学习的方法。简单来说机器人就是在学习模仿人类操作者的动作。训练目标是最小化预测动作和真实动作之间的差异。七、模拟环境中的测试令人惊讶的结果研究团队首先在虚拟环境中测试了他们的方法。他们在一个包含65个真实物体的测试集上评估了他们的模型这些物体来自YCB数据集这是机器人操纵研究中的一个标准基准。结果令人印象深刻。当使用2500个演示进行训练时他们的模型在模拟中达到了80%的成功率。更重要的是他们与两个最先进的基线进行了比较π0-FAST和OpenVLA-OFT。这两个模型都是大规模预训练的视觉-语言-动作模型参数数量分别为30亿和70亿远大于LEGO的8600万参数。令人惊讶的是LEGO不仅超越了这两个更大的模型而且表现出了更好的数据效率。当数据量增加时LEGO的性能稳定地提高而OpenVLA-OFT实际上在更多数据上表现更差这表明它过度拟合了。π0-FAST则根本无法从这个相对较小的数据集中学到有用的东西。这个结果的含义是深刻的。它表明仅仅拥有更多参数和更多预训练数据并不总是更好。有时候正确的架构设计和学习策略可以用更少的资源实现更好的结果。八、真实机器人的验证从虚拟到现实但模拟中的成功并不能保证真实世界中的成功。这就是所谓的现实差距问题——在虚拟环境中学到的东西在真实世界中往往表现不佳。所以研究团队进行了真实机器人实验。在第一组真实机器人实验中他们使用了一个Franka Emika Panda机械臂配备了一个Robotiq夹爪。这是一个标准的工业机械臂有7个关节。他们在64个真实YCB物体上测试了他们的模型每个物体测试16次。结果是66.67%的成功率。这是一个很好的成功率特别是考虑到他们只用1500个真实演示进行训练。为了进行比较他们还测试了其他方法。OpenVLA-OFT只达到了9.47%的成功率。ShapeGrasp一个基于大型语言模型的方法达到了26.56%。π0-FAST在零样本设置下达到了61.82%但当在他们的数据上微调时达到了76.56%。LEGO的66.67%成功率排在第二位仅次于微调后的π0-FAST。但这个比较很重要π0-FAST是在一个包含75000个演示的大型机器人数据集上预训练的然后在他们的1500个演示上进行微调。相比之下LEGO完全是从零开始训练的没有任何预训练。这表明LEGO的数据效率是非常高的。九、灵巧手的挑战更复杂的机器人为了进一步验证他们方法的通用性研究团队还在一个更复杂的机器人系统上进行了测试Unitree H1-2人形机器人配备了Inspire RH56DFTP灵巧手。这种手有6个自由度总共12个关节能够执行非常精细的操纵任务。这是一个更具挑战性的设置因为灵巧手的控制比简单的夹爪复杂得多。研究团队在13个日常物体上测试了他们的模型每个物体测试5次。结果是50.77%的成功率。虽然这个数字低于Franka实验但这是可以预期的因为任务更加困难。更重要的是LEGO再次超越了其他基线。π0-FAST只达到了26.15%OpenVLA-OFT只达到了18.46%。这再次证明了LEGO方法的有效性和通用性。十、深入理解消融研究揭示了什么为了真正理解他们的方法为什么有效研究团队进行了一系列的消融研究——这是一种通过逐步移除系统的不同部分来理解每个部分的重要性的方法。首先他们研究了检测池化的重要性。他们将DetPool与其他池化方法进行了比较包括注意力池化、CLS池化和简单的平均池化。结果非常清楚DetPool显著优于所有其他方法性能提升22%到48%。这证实了他们的核心创新确实是关键。接下来他们研究了训练数据的两个关键方面演示的数量和玩具多样性的影响。他们训练了多个模型使用1、25、125、250、500和1000个不同的玩具每个模型使用不同数量的演示。结果表明增加玩具的多样性确实有帮助但效果有递减。然而演示的数量有更强的影响。这与认知科学的发现一致即重复练习对学习的影响往往大于接触多样的例子。他们还研究了模型大小的影响。他们尝试了不同大小的Transformer骨干网络从小到大。结果表明ViT-Base8600万参数是最优的选择它在性能和计算效率之间达到了很好的平衡。更大的模型并不一定更好有时甚至更差。此外他们研究了每个基本形状的重要性。通过逐个移除四种形状中的每一种他们发现球体是最关键的移除它会导致最大的性能下降。环和圆柱体的重要性相对较低。这很有趣因为它表明并非所有的基本形状对学习都同样重要。最后他们研究了玩具复杂性的影响。他们发现由两个原始形状组成的玩具对性能的贡献最大而由五个形状组成的更复杂的玩具的贡献较小。这可能是因为测试集中的真实物体往往有相对简单的结构。十一、为什么这一切都有效泛化的秘密现在让我们退一步思考为什么这个方法有效。核心在于一个关键的洞察物体识别和操纵的关键不在于物体的具体外观而在于其结构特性。当机器人学会了如何抓取各种由四个基本形状组成的随机组合时它实际上学到了关于形状、大小和结构的深层原理。这些原理是通用的。当机器人看到一个真实的物体比如一个杯子时它能够识别出杯子具有圆柱形的主体和某种形式的把手然后应用它从玩具中学到的关于如何抓取圆柱形物体的知识。检测池化的作用是确保机器人学到的是这些结构特性而不是特定的视觉外观。通过强制视觉系统只关注物体本身而忽略背景和其他干扰机器人被迫学到关于物体形状和结构的信息而不是关于特定像素模式的信息。这就像学习一门语言时的区别。如果你只在一个特定的教室里学英语你可能会学到在这个教室里说英语。但如果你在各种不同的环境中学习你会学到英语本身然后你就可以在任何地方使用它。十二、实际意义这对机器人学意味着什么这项研究的实际意义是深远的。首先它表明我们不需要收集数百万个真实机器人演示来训练有效的操纵策略。仅仅1500个演示就足以实现强大的泛化性能。这大大降低了开发机器人系统的成本和时间。其次它提供了一个新的思考方式来思考机器人学习。与其试图用越来越多的数据和越来越大的模型来解决问题我们可以思考如何设计更好的学习环境和更好的架构来促进泛化。第三这项研究与认知科学的联系表明我们可以从人类和动物学习的方式中获得灵感来改进机器学习。这是一个重要的跨学科见解。第四检测池化机制是一个通用的技术可以应用于任何使用视觉Transformer的机器人学习系统。它不仅仅局限于抓取任务还可以应用于其他需要物体识别和操纵的任务。十三、局限性和未来方向研究团队也诚实地讨论了他们工作的局限性。首先他们的方法主要关注刚体物体。对于具有不同物理特性的物体比如柔软的布料或易碎的陶瓷性能可能会下降。其次他们的工作专注于单步抓取任务。许多真实世界的操纵任务涉及多个步骤比如拿起一个物体移动它然后放下它。扩展到这些更复杂的任务是一个重要的未来方向。第三虽然他们的模型相对较小但在资源受限的机器人上部署仍然可能很困难。进一步优化模型的计算效率是一个实际的需求。尽管有这些局限性这项研究代表了机器人学习领域的一个重要进步。它表明通过正确的设计和灵感来自认知科学我们可以构建更有效、更高效的机器人学习系统。十四、更广泛的影响机器人的未来这项研究的意义超越了学术界。在现实世界中机器人正在越来越多的领域被部署——从制造业到物流从医疗保健到家庭服务。这些应用中的许多都涉及操纵各种不同的物体。如果我们能够用更少的数据和更少的计算资源训练机器人执行这些任务那么机器人技术就会变得更加可及和实用。一个小公司或初创企业可能无法负担收集数百万个机器人演示的成本但他们可能能够负担收集几千个演示的成本。此外这项研究表明机器人学习不一定需要大型的预训练模型。这意味着组织可以在自己的特定任务上训练定制的模型而不必依赖于大型科技公司提供的通用模型。这可能会导致更多样化和分散的机器人生态系统。最后这项研究表明认知科学和机器学习之间的交叉可以产生强大的见解。也许我们对人类和动物学习的理解可以指导我们如何构建更好的人工智能系统。反过来机器学习的进步可能也会为认知科学提供新的见解。##########QAQ1什么是塞尚玩具为什么研究团队选择用这些简单的形状来训练机器人A塞尚玩具是由四个基本几何形状球体、立方体、圆柱体和圆环随机组合而成的训练物体。研究团队受到画家塞尚的启发他认为复杂物体可以分解为简单形状。这些玩具足够不同寻常使机器人无法通过简单记忆学习但又有足够的结构性让机器人学到关于形状和组合的通用原理从而能够泛化到真实物体。Q2检测池化DetPool机制具体是如何工作的为什么它对机器人的泛化能力如此重要A检测池化首先识别目标物体的位置并创建一个掩码然后修改视觉编码器的注意力机制使其只关注物体区域而忽略背景。最后对物体特征进行平均。这很重要是因为它强制机器人学到物体的结构特性如形状而非特定的视觉外观这样机器人就能识别和操纵从未见过的新物体。Q3LEGO方法与其他大型预训练模型相比有什么优势ALEGO仅用1500个真实演示就能在YCB数据集上达到67%的成功率而OpenVLA-OFT和π0-FAST这样的大型模型虽然参数量大得多且经过大规模预训练但在相同任务上表现更差。这表明LEGO具有更高的数据效率不需要大量预训练数据就能实现强大的泛化性能。

随州网站建设全包wordpress 批量文章

人像摄影作品刷百度关键词排名优化

app在线制作网站成都建网页

互联网销售平台福州seo排名外包

网站建设所需要的技术微信里怎么进入自己的公众号

中山有网站建设公司吗兄弟网站制作

wordpress所有版本信息流广告优化