Barret Zoph和John Schulman曾在OpenAI共同担任后训练联合负责人,从2022年9月开始合作,主要目标是开发一个对齐的聊天机器人,最初的团队被称为“RL”,只有少数几个人。 计算资源需求更低,迭代周期更快;使用基于人类反馈的强化学习 (RLHF) ;教模型使用工具;塑造模型个性;引入拒绝/安全行为;行为严重依赖预训练阶段的泛化能力。