OmniRL: Large-Scale Meta-Training in Randomized Worlds [回到主目录] [ENG]
OmniRL:基于随机世界中大规模元训练的上下文强化学习
OmniRL: Large-Scale Meta-Training in Randomized Worlds
授AI以鱼,不如授AI以渔
[Paper]
[Code]

OmniRL简介

OmniRL:实时上下文强化学习基座模型

预训练和元训练:授模型以鱼和授模型以渔


训练最早以教会模型完成多种多样的任务为出发点,在大规模预训练中,模型除了记住这些训练任务本身,涌现出的最重要的能力就是上下文学习(In-Context Learning),这种能力能够帮助大模型通过提示信息来构建完成新任务的能力。
OmniRL提出大规模元训练,和预训练不同之处在于,OmniRL目标不是记忆训练任务的技能本身,而是学习如何进行强化学习的过程。元学习,又叫学习学习的方法(Learning To Learn),早在80年代被提出。但OmniRL论文认为,缺乏大规模任务和长序列支撑的元学习,容易实际陷入“任务识别”的模式:模型只是记住了训练的环境,在推理时通过识别处于哪一个环境“激活”对应的技能。这种模式不具备对未见任务和分布外任务的泛化性。

随机世界:AnyMDP


AnyMDP生成的随机世界示例

AnyMDP生成的随机世界示例。点的颜色标识状态的平均奖励,线的深度标识状态之间的平均转移概率

AnyMDP基于马尔科夫决策过程(Markov Decision Process, MDP)构建随机迁移概率和奖励函数,能够迅速低成本生成海量的,可规模化的环境用于元强化学习。我们生成了共计超过50万个不同任务,并基于这些任务合成了超过100亿时间步的数据用于元训练。单个序列的时间步长最长超过100万。

首次利用上下文学习统一多强化学习和模仿学习


OmniRL提出同时利用先验信息和后验奖励(Feedback)进行上下文学习,使得该模型可以自己在不同学习模式间根据需求切换。图2展示了在随机世界中训练的OmniRL模型,仅通过上下文学习,不依赖于任何梯度优化,在冷启动,或者预先给定一段演示轨迹(包括专家演示,以及较差的演示),能通过在线强化学习(Online-RL),离线强化学习 (Offline-RL),模仿学习 (IL)的自主切换,达到较好表现,证明上下文学习有巨大的灵活性。进一步,还能在演示的基础上,进一步通过自主探索持续提升自身能力。
Cliff Lake Pendulum Switch
gym

OmniRL在完全未见过的Gymnasium环境中的表现


OmniRL训练的智能体甚至可以完成多智能体协作任务。通过把对方的状态引入到观测,它可以完成类似Switch这种简单任务。这类任务要求智能体展现不同的行为模式来实现协作。而通过模型的上下文学习和适应能力,两个OmniRL控制的智能体能够有效完成上述任务。

首次揭示出数据多样性和序列长度重要性根源


Seen_Training Unseen_Training

模型的位置损失和元训练的步数,以及上下文长度的关系

OmniRL使用数千万参数的Transformer和高效线性注意力结构来进行建模。训练任务数超过50万个,时间步数超过一百万。OmniRL在实验中对比相同数据量,但来自不同任务数量的效果,发现任务数量不够多时,模型会转向记忆 + 环境识别模式,即把所有训练的环境储存在参数记忆中,通过上下文进行快速的辨识。这种模式下,智能体能否以更少的样本适应训练过程中见过的环境,但却不能泛化到未见环境。而任务数量充分时,才能激发通用上下文学习能力,这种能力可以有效泛化到未见任务,但对于所有任务都需要更长的上下文学习周期。这个结论一定程度说明:

线性自注意力机制体现出效率和长序列表现上的明显优势


gsa task_16 task_64

模型的位置损失和元训练的步数,以及上下文长度的关系

OmniRL还首次展示出线性注意力机制的优势。随着问题规模增加,上下文长度需要同步增加,Transformer的效率瓶颈愈发明显。相比之下,线性注意力机制在效率和长序列建模上都有明显优势,相对于滑窗注意力机制,也在长时序段显示出了非常明显的效果优势。证明AnyMDP提供了非常好的长序列的评测环境。

面向下一代通用具身智能体的技术探索


我们的最终目标是实现对任意环境都能完全自主探索和学习的智能体。对于具身智能意义更加重大。大语言模型通过参数记忆捕捉了大量常识,百科和数理逻辑,构成了其零样本能力的基础。但具身智能面对多样的环境,任务以及复杂的本体异构性,常识很难成为解决具身问题的基础。我们认为,自主学习能力和长时记忆将是通用具身智能体的关键。

和当前大语言模型的长时序推理和思维链的异同点。

当前OmniRL更多侧重系统1(直觉思维)的学习能力,后者侧重系统2(逻辑思维和规划)本身。不论系统1还是系统2能力的学习和提升,当前主流大模型都没有探索足够充分,OmniRL则在这部分填补了很多空白。