https://arxiv.org/abs/2504.02495
[2504.02495] Inference-Time Scaling for Generalist Reward Modeling
大規模言語モデル(LLM)における汎用報酬モデリングに関する研究。
推論時のスケーリング手法を提案し、性能向上を図る。
特に詳細な情報は論文を参照。
https://arxiv.org/abs/2504.02495
[2504.02495] Inference-Time Scaling for Generalist Reward Modeling
大規模言語モデル(LLM)における汎用報酬モデリングに関する研究。
推論時のスケーリング手法を提案し、性能向上を図る。
特に詳細な情報は論文を参照。
No replies yet.