InstructGPTの学習は何段階かあって、その最後の段階では人間のフィードバックを元に強化学習をして悪い答えを出さないようにするんだけど、このとき人間のフィードバックで直接学習するのではなく、人間のフィードバックを予想するモデルを作って、それを使ってメインのモデルを強化学習するというのは面白い。内なる良心っぽい(推論時にはフィードバックを予想するモデルは使わないので違うんだけど)。
Discussion
No replies yet.
InstructGPTの学習は何段階かあって、その最後の段階では人間のフィードバックを元に強化学習をして悪い答えを出さないようにするんだけど、このとき人間のフィードバックで直接学習するのではなく、人間のフィードバックを予想するモデルを作って、それを使ってメインのモデルを強化学習するというのは面白い。内なる良心っぽい(推論時にはフィードバックを予想するモデルは使わないので違うんだけど)。
No replies yet.