PPO总有了reward model 为何还要有critic model? 如果是reward model 可以对response 做出评价? 那这个评价如何对应到token level loss上? 如果reward mod… 显示全部 关注者 76 被浏览 reward和award的用法和词意1、这两个词都可以用作名词和动词,作名词时,意思相近,但不是同意词。 2、从词义上说,award 是“授予,给予”,reward 是“回报”。 Reward(尤指因某一成就或善行获得的) 奖励,报酬,回报,如: 1. The police are offering a substantial reward for any information leading to the arrest of the murderer. 警方重金悬赏任何能使凶犯缉拿归案的线索。 2. He certainly merits such a reward. 他确实应得到这样的报酬. 图4:Reward Model 输入 Reward Model 通常也采用基于 Transformer 架构的预训练语言模型。 在 Reward Model 中,移除最后一个非嵌入层,并在最终的 Transformer 层上叠加了一个额外的线性层。