据通义千问Qwen消息,为持续拓展强化学习(Reinforcement Learning,RL),阿里Qwen提出了Group Sequence Policy Optimization (GSPO) 算法,该算法不同于以往的RL算法,它定义了序列级别的重要性比率,并在序列层面执行裁剪、奖励和优化。