几个星期前我的 njump 实例(1c1g)小盒子被 MJ12bot 和 Amazon spider 爬宕机了好几次后直接就在 robots.txt 里面禁用了, 也还好都挺守规则. 然后就是天天都来的字节跳动的 spider, 也没看到他有什么搜索引擎, 头条搜索也不可能收率这些无法主动审查的内容, 纯纯爬来丰富它们语料库, 然后也把它加进去了 robots.txt, 结果它还不遵守, 只好直接在 WAF 里写规则禁了.

也不好直接开白名单, 现在 Google, Bing, Yandex 的爬虫每天都来光顾, 也难说会有其他我不知道的搜索引擎爬虫会来.

Reply to this note

Please Login to reply.

Discussion

收率 => 收录😇

Meta 的爬虫(facebookexternalhit)来了, 爬了一个星期还不打算停, 直接禁了.