InstructGPTの学習は何段階かあって、その最後の段階では人間のフィードバックを元に強化学習をして悪い答えを出さないようにするんだけど、このとき人間のフィードバックで直接学習するのではなく、人間のフィードバックを予想するモデルを作って、それを使ってメインのモデルを強化学習するというのは面白い。内なる良心っぽい(推論時にはフィードバックを予想するモデルは使わないので違うんだけど)。

https://openai.com/research/learning-from-human-preferences

Reply to this note

Please Login to reply.

Discussion

No replies yet.