https://gigazine.net/news/20250326-large-vision-language-models-read-maps/
大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか? - GIGAZINE
大規模視覚言語モデル(LVLM)の地図読み取り能力を測る新たなベンチマーク「MapBench」が登場しました。
LVLMは画像と指示に基づき文章を生成するもので、地図を読み取り最適なルートを見つける能力が期待されています。
研究の結果、LVLMの性能はまだ人間に及ばないことが示されました。