https://arxiv.org/abs/2504.02495

[2504.02495] Inference-Time Scaling for Generalist Reward Modeling

大規模言語モデル(LLM)における汎用報酬モデリングに関する研究。

推論時のスケーリング手法を提案し、性能向上を図る。

特に詳細な情報は論文を参照。

Reply to this note

Please Login to reply.

Discussion

No replies yet.