name displayname about 过往的各种post,任何地方检测到比如超过30%的假名就可以否决了,可以试试不同阈值。
综合考量的信息越多越准确,其实最好的方法还是基于贝叶斯概率分类,你手动标注几个之后,就能算出来一个用户是中文用户还是日文用户的概率,然后你给定一个阈值即可,比如95%以上概率是中文用户的收集出来。
name displayname about 过往的各种post,任何地方检测到比如超过30%的假名就可以否决了,可以试试不同阈值。
综合考量的信息越多越准确,其实最好的方法还是基于贝叶斯概率分类,你手动标注几个之后,就能算出来一个用户是中文用户还是日文用户的概率,然后你给定一个阈值即可,比如95%以上概率是中文用户的收集出来。
这事儿@npub1vj0wlergmkcs0sz7hfks2ywj555c2s87f40squ4sqcmqpr7897fqn6mfew 熟悉啊,他的relay支持语言过滤功能。