1) 社会保険診療報酬支払基金にある医薬品の全件マスター(全件分)のCSVデータから、フィールド17が1(後発品)かつフィールド28が1(内容薬)のレコードを切り出す
2) 切り出したレコードから、フィールド3(医薬品コード),フィールド5(漢字名称)のみのレコードに再構成し、漢字名称をキーとしてソートする(文字コードはShift-JIS→UTF-8に変換し、出力結果もUTF-8とする)
3) 漢字名称に対応する医薬品の添付文書PDFをPMDAのサイトからダウンロードし、そこに含まれる生物学的同等性試験のAUC, Cmax等の数値を拾い出す
というタスク、今もしくはそんなに遠くない未来の範囲でChatGPT等のAIを使うことで機械化できたりしますねえ?(とはいえ、添付文書が機械処理可能なフォーマットになっていないと厳しいか)
ここしばらく静かにしてるのはこの作業を手作業でやってる(写経…)という理由なんですが、正直言ってこんなものは機械化しないとやってらんない。