比特派官网app下载|有了GPT-4之后,机器人把转笔、盘核桃都学会了 -

作者:admin 2025-05-26 浏览:17
导读: 原创 机器之心修正:张倩、陈萍GPT-4 和强化学习强强联合,机器人的未来将是什么姿态?在学习方面,GPT-4 是一个凶猛的学生。在消化了许多人类数据后,它把握了各门常识,乃至在谈天中能给数学家陶哲轩带来启示。与此一起,它也成为了一名优异的教师,而且不光是教书本常识,还能教机器人转笔。这个机器人名叫...

原创 机器之心

修正:张倩、陈萍

GPT-4 和强化学习强强联合,机器人的未来将是什么姿态?

在学习方面,GPT-4 是一个凶猛的学生。在消化了许多人类数据后,它把握了各门常识,乃至在谈天中能给数学家陶哲轩带来启示。

与此一起,它也成为了一名优异的教师,而且不光是教书本常识,还能教机器人转笔。

这个机器人名叫 Eureka,是来自英伟达、宾夕法尼亚大学、加州理工学院和得克萨斯大学奥斯汀分校的一项研讨。这项研讨结合了大型言语模型和强化学习的研讨效果:用 GPT-4 来完善奖赏函数,用强化学习来练习机器人控制器。

凭借 GPT-4 写代码的才能,Eureka 具有了超卓的奖赏函数规划才能,它自主生成的奖赏在 83% 的使命中优于人类专家的奖赏。这种才能能够让机器人完结许多之前不容易完结的使命,比方转笔、翻开抽屉和柜子、抛球接球和盘球、操作剪刀等。不过,这一切暂时都是在虚拟环境中完结的。

此外,Eureka 还完结了一种新式的 in-context RLHF,它能够将人类操作员的天然言语反应归入其间,以引导和对齐奖赏函数。它可认为机器人工程师供给强壮的辅佐功用,协助工程师规划杂乱的运动行为。英伟达高档 AI 科学家 Jim Fan 也是该论文的作者之一,他将这项研讨比喻为「物理模仿器 API 空间中的旅行者号(美国研发并制作的外层星系空间探测器)」。

值得一提的是,这项研讨是彻底开源的,开源地址如下:

论文链接:https://arxiv.org/pdf/2310.12931.pdf

项目链接:https://eureka-research.github.io/

代码链接:https://github.com/eureka-research/Eureka

论文概览

大型言语模型(LLM)在机器人使命的高档语义规划方面体现超卓(比方谷歌的 SayCan、RT-2 机器人),但它们是否能够用于学习杂乱的初级操作使命,如转笔,仍然是一个悬而未决的问题。现有的测验需求许多的范畴专业常识来构建使命提示或只学习简略的技术,远远达不到人类水平的灵活性。

谷歌的 RT-2 机器人

另一方面,强化学习(RL)在灵活性以及其他许多方面取得了令人形象深入的效果(比方 OpenAI 会玩魔方的机械手),但需求人类规划师细心构建奖赏函数,精确地编纂并供给所需行为的学习信号。因为许多实际国际的强化学习使命只供给难以用于学习的稀少奖赏,因此在实践中需求奖赏刻画(reward shaping),以供给渐进的学习信号。尽管奖赏函数十分重要,但众所周知,它很难规划。最近的一项查询发现,92% 的强化学习受访研讨人员和从业者标明,他们在规划奖赏时进行了人工试错,89% 的人标明他们规划的奖赏是次优的,会导致非预期行为。

鉴于奖赏规划如此重要,咱们不由要问,是否有或许运用最先进的编码 LLM(如 GPT-4)来开发一种通用的奖赏编程算法?这些 LLM 在代码编写、零样本生成以及 in-context learning 等方面体现超卓,从前大大提高了编程智能体的功能。抱负情况下,这种奖赏规划算法应具有人类水平的奖赏生成才能,可扩展到广泛的使命规模,在没有人类监督的情况下主动完结庸俗的试错进程,一起与人类监督兼容,以保证安全性和一致性。

这篇论文提出了一种由 LLM 驱动的奖赏规划算法 EUREKA(全称是 Evolution-driven Universal REward Kit for Agent)。该算法达成了以下成果:

1、在 29 种不同的开源 RL 环境中,奖赏规划的功能到达了人类水平,这些环境包含 10 种不同的机器人形状(四足机器人、四旋翼机器人、双足机器人、机械手以及几种灵活手,见图 1。在没有任何特定使命提示或奖赏模板的情况下,EUREKA 自主生成的奖赏在 83% 的使命中优于人类专家的奖赏,并完结了 52% 的均匀归一化改善。

2、处理了曾经无法经过人工奖赏工程完结的灵活操作使命。以转笔问题为例,在这种情况下,一只要五根手指的手需求依照预先设定的旋转装备快速旋转钢笔,并尽或许多地旋转几个周期。经过将 EUREKA 与课程学习相结合,研讨者初次在模仿拟人「Shadow Hand」上演示了快速转笔的操作(见图 1 底部)。

3、为根据人类反应的强化学习(RLHF)供给了一种新的无梯度上下文学习办法,能够根据各种方法的人类输入生成更高效、与人类对齐程度更高的奖赏函数。论文标明,EUREKA 能够从现有的人类奖赏函数中获益并加以改善。相同,研讨者还展现了 EUREKA 运用人类文本反应来辅佐规划奖赏函数的才能,这有助于捕捉到人类的纤细偏好。

与之前运用 LLM 辅佐奖赏规划的 L2R 作业不同,EUREKA 彻底没有特定使命提示、奖赏模板以及少数示例。在试验中,EUREKA 的体现显着优于 L2R,这得益于它能够生成和完善自在方法、表达才能强的奖赏程序。

EUREKA 的通用性得益于三个要害的算法规划挑选:将环境作为上下文、进化查找和奖赏反思(reward reflection)。

首要,经过将环境源代码作为上下文,EUREKA 能够从骨干编码 LLM(GPT-4)中零样本生成可履行的奖赏函数。然后,EUREKA 经过履行进化查找,迭代地提出奖赏候选批次,并在 LLM 上下文窗口中精粹最有期望的奖赏,然后大大提高了奖赏的质量。这种 in-context 的改善经过奖赏反思来完结,奖赏反思是根据战略练习统计数据的奖赏质量文本总结,可完结主动和有针对性的奖赏修正。

图 3 为 EUREKA 零样本奖赏示例,以及优化进程中堆集的各项改善。为了保证 EUREKA 能够将其奖赏查找扩展到最大潜力,EUREKA 在 IsaacGym 上运用 GPU 加快的散布式强化学习来评价中心奖赏,这在战略学习速度上供给了高达三个数量级的提高,使 EUREKA 成为一个广泛的算法,跟着核算量的添加而天然扩展。

如图 2 所示。研讨者致力于开源一切提示、环境和生成的奖赏函数,以促进根据 LLM 的奖赏规划的进一步研讨。

办法介绍

EUREKA 能够自主的编写奖赏算法,具体是怎么完结的,咱们接着往下看。

EUREKA 由三个算法组件组成:1)将环境作为上下文,然后支撑零样本生成可履行奖赏;2)进化查找,迭代地提出和完善奖赏候选;3)奖赏反思,支撑细粒度的奖赏改善。

环境作为上下文

本文主张直接供给原始环境代码作为上下文。仅经过最少的指令,EUREKA 就能够在不同的环境中零样本地生成奖赏。EUREKA 输出示例如图 3 所示。EUREKA 在供给的环境代码中熟练地组合了现有的调查变量 (例如,指尖方位),并发生了一个有用的奖赏代码 —— 一切这些都没有任何特定于环境的提示工程或奖赏模板。

但是,在第一次测验时,生成的奖赏或许并不总是可履行的,即便它是可履行的,也或许是次优的。这就呈现了一个疑问,即怎么有用地战胜单样本奖赏生成的次优性?

进化查找

接着,论文介绍了进化查找是怎么处理上述说到的次优处理方案等问题的。他们是这样完善的,即在每次迭代中,EUREKA 对 LLM 的几个独立输出进行采样(算法 1 中的第 5 行)。因为每次迭代(generations)都是独立同散布的,这样一来跟着样本数量的添加,迭代中一切奖赏函数呈现过错的概率呈指数下降。

奖赏反思

为了供给更杂乱、更有针对性的奖赏剖析,本文主张构建主动反应来总结文本中的战略练习动态。具体来说,考虑到 EUREKA 奖赏函数需求奖赏程序中的各个组件(例如图 3 中的奖赏组件),因此本文在整个练习进程中盯梢中心战略检查点处一切奖赏组件的标量值。

构建这种奖赏反思进程尽管很简略,但因为奖赏优化算法存在依赖性,因此这种构建方法就显得很重要。也就是说,奖赏函数是否有用遭到 RL 算法的特定挑选的影响,而且即便在给定超参数差异的相同优化器下,相同的奖赏也或许体现得十分不同。经过具体阐明 RL 算法怎么优化各个奖赏组件,奖赏反思使 EUREKA 能够发生更有针对性的奖赏修正并组成奖赏函数,然后更好地与固定 RL 算法协同。

比特派官网app下载|有了GPT-4之后,机器人把转笔、盘核桃都学会了 -

试验

试验部分对 Eureka 进行了全面的评价,包含生成奖赏函数的才能、处理新使命的才能以及对人类各种输入的整合才能。

试验环境包含 10 个不同的机器人以及 29 个使命,其间,这 29 个使命由 IsaacGym 模仿器完结。试验采用了 IsaacGym (Isaac) 的 9 个原始环境,包括从四足、双足、四旋翼、机械手到机器人的灵活手的各种机器人形状。除此以外,本文还经过归入 Dexterity 基准测验中的 20 项使命来保证评价的深度。

Eureka 能够发生超人类水平的奖赏函数。在 29 项使命中,Eureka 给出的奖赏函数在 83% 的使命上比专家编写的奖赏体现得更好,均匀提高了 52%。特别是,Eureka 在高维 Dexterity 基准测验环境中完结了更大的收益。

Eureka 能够进化奖赏查找,使奖赏跟着时刻的推移而不断改善。Eureka 经过结合大规模的奖赏查找和具体的奖赏反思反应,逐渐发生更好的奖赏,终究超越人类的水平。

Eureka 还能发生新颖的奖赏。本文经过核算一切 Isaac 使命上的 Eureka 奖赏和人类奖赏之间的相关性来评价 Eureka 奖赏的新颖性。如图所示,Eureka 首要生成弱相关的奖赏函数,其体现优于人类的奖赏函数。此外,本文还调查到使命越难,Eureka 奖赏的相关性就越小。在某些情况下,Eureka 奖赏乃至与人类奖赏呈负相关,但体现却显着优于人类奖赏。

想要完结机器人的灵活手能够不断的转笔,需求操作程序有尽或许多的循环。本文经过以下方法处理此使命:(1) 辅导 Eureka 生成奖赏函数,用来将笔从头定向到随机方针装备,然后 (2) 运用 Eureka 奖赏微调此预练习战略以到达所需的笔序列 - 旋转装备。如图所示,Eureka 微调很快就习惯了战略,成功地接连旋转了许多周期。相比之下,预练习或从头开端学习的战略都无法完结单个周期的旋转。

本文还研讨了从人类奖赏函数初始化开端是否对 Eureka 有利。如图所示,不管人类奖赏的质量怎么,Eureka 都会从人类奖赏中改善并获益。

Eureka 还完结了 RLHF,其能够结合人类的反应来修正奖赏,然后逐渐辅导智能体完结更安全、更契合人类的行为。示例展现了 Eureka 怎么经过一些人类反应来教人形机器人直立奔驰,这些反应替代了之前的主动奖赏反思。

人形机器人经过 Eureka 学习跑步步态

了解更多内容,请参阅原论文。

转载请注明出处:admin,如有疑问,请联系(12345678)。
本文地址:https://www.lnuwa.com/?id=223

添加回复:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。