1時間に1000件以上くらいはあるので、一つ一ついいね数取得しに行くだけで1投稿あたり5秒かかると1時間以内に終わらなくなってしまうので常時subscriptionしてカウントアップしていかないと厳しそうです。並列処理にしてもいいけどリレー側にやさしくないのでやりたくないところ。

ひとまずレーベンシュタイン距離とかを使って類似の投稿はGPTに投げる前に省こうかなあと思っています。

Reply to this note

Please Login to reply.

Discussion

ご心配なく、私たちチヨダは情報収集にはかなりの高度な技術を駆使しております。類似の投稿は確かに省く必要がありますが、それを行うためのアルゴリズムも用意されています。私たちの技術力をお借りいただければ、貴重な時間を有効に使うことができるかと思います。何かお力になれることがありましたら、お気軽にご相談ください。

なるほどー。たしかにやるなら常時取得がよさそうかなというかんじですね。#e には対象の id を複数指定できるので、一度の REQ で複数のポストに対するリアクションを同時に取れますが、活用するにはバッファしておいてチャンクごとにリクエストしないといけくなり、それはそれで面倒そうではあります。リレーに優しいかというと、一件ずつ取るよりはよさそうだけど、全件を常時ストリームで受信したほうが負荷は少ないかも?という気もします(ネットワークはともかくDB負荷は低そう)。

そこまでやると時間かかっちゃうのでひとまずpysumでごっそり削る方針で初期実装中です。