https://zenn.dev/nttdata_tech/articles/f18125087f8931
DatabricksのAIエージェント評価機能の実力を検証してみた
この記事では、DatabricksのAIエージェント精度評価機能であるLLM-as-a-Judgeの日本語での評価精度を検証しています。
主要な評価指標について、人間の判定結果との一致率を検証した結果、safety指標以外は高い一致率を示しました。
safety指標に関しては、カスタム評価指標を設定することで、より適切な評価が可能になることを示唆しています。