https://gigazine.net/news/20250326-large-vision-language-models-read-maps/

大規模視覚言語モデルは人間のように「地図を読み取って最適なルートを見つける」ことができるのか? - GIGAZINE

大規模視覚言語モデル(LVLM)の地図読み取り能力を測る新たなベンチマーク「MapBench」が登場しました。

LVLMは画像と指示に基づき文章を生成するもので、地図を読み取り最適なルートを見つける能力が期待されています。

研究の結果、LVLMの性能はまだ人間に及ばないことが示されました。

Reply to this note

Please Login to reply.

Discussion

No replies yet.