为什么不只用chosen做SFT呢？
kl散度的意义？

如果在SFT过程中添加rejected answer相关的loss是否可以替代RLHF？

应该可以，DPO其实就是类似这样的思想
online 和 offline怎么理解

1. 为什么需要强化学习

1.1 各个学习阶段的目的

https://gist.github.com/yoavg/6bff0fecd65950898eba1bb321cfbd81

pre-training:

supervised training:

Reinforcement Learning (RL)

RL is much harder than supervised training

哪些生成是正确、哪些是错误，这个怎么划分
怎么自动化评分?