雄启汇|雄启识慧云上智库:您身边的行业研究顾问's Archiver
忘情谷
›
图表数据
› InstructGPT 的技术逻辑:RLHF 的主要改变在于人工监督数据与调整后的奖励模型
信息搬运工
发表于 2023-2-9 12:01:58
InstructGPT 的技术逻辑:RLHF 的主要改变在于人工监督数据与调整后的奖励模型
页:
[1]
查看完整版本:
InstructGPT 的技术逻辑:RLHF 的主要改变在于人工监督数据与调整后的奖励模型