信息搬运工 发表于 2023-2-9 12:01:58

InstructGPT 的技术逻辑:RLHF 的主要改变在于人工监督数据与调整后的奖励模型



页: [1]
查看完整版本: InstructGPT 的技术逻辑:RLHF 的主要改变在于人工监督数据与调整后的奖励模型