ちょっとどうかとは思いつつですが、 Reactionとかリプライの数でスコアをつけて、上位から容量の許す限り要約対象に入れていく、みたいな方式はどうでしょう。もちろん反響が少なくてもまとめるにあたって考慮されるべき発言はあるとは思うのですが、計算リソースの効率化を考えるとやむを得ないかなという感じです。

Reply to this note

Please Login to reply.

Discussion

1時間に1000件以上くらいはあるので、一つ一ついいね数取得しに行くだけで1投稿あたり5秒かかると1時間以内に終わらなくなってしまうので常時subscriptionしてカウントアップしていかないと厳しそうです。並列処理にしてもいいけどリレー側にやさしくないのでやりたくないところ。

ひとまずレーベンシュタイン距離とかを使って類似の投稿はGPTに投げる前に省こうかなあと思っています。

なるほどー。たしかにやるなら常時取得がよさそうかなというかんじですね。#e には対象の id を複数指定できるので、一度の REQ で複数のポストに対するリアクションを同時に取れますが、活用するにはバッファしておいてチャンクごとにリクエストしないといけくなり、それはそれで面倒そうではあります。リレーに優しいかというと、一件ずつ取るよりはよさそうだけど、全件を常時ストリームで受信したほうが負荷は少ないかも?という気もします(ネットワークはともかくDB負荷は低そう)。

そこまでやると時間かかっちゃうのでひとまずpysumでごっそり削る方針で初期実装中です。