训练最早以教会模型完成多种多样的任务为出发点,在大规模预训练中,模型除了记住这些训练任务本身,涌现出的最重要的能力就是上下文学习(In-Context Learning),这种能力能够帮助大模型通过提示信息来构建完成新任务的能力。
OmniRL提出大规模元训练,和预训练不同之处在于,OmniRL目标不是记忆训练任务的技能本身,而是学习如何进行强化学习的过程。元学习,又叫学习学习的方法(Learning To Learn),早在80年代被提出。但OmniRL论文认为,缺乏大规模任务和长序列支撑的元学习,容易实际陷入“任务识别”的模式:模型只是记住了训练的环境,在推理时通过识别处于哪一个环境“激活”对应的技能。这种模式不具备对未见任务和分布外任务的泛化性。