Subnostr

Deflate圧縮で無圧縮(00)のブロックは最終ブロックフラグと圧縮タイプの指定で3bit読み込んだあとで、そのあとバイト境界まで読み捨ててから、無圧縮データを読み込むのだけど、3ビット読み込む前の位置ってのは、バイト境界じゃない可能性があって、そうなってくると、いろいろとコードも面白いことになる。

YoshikuniJujo 9mo ago

突然のDeflate圧縮

YoshikuniJujo 9mo ago

なんか"'"(シングルクォート1個)という名前のファイルを誤って作ってしまいがちだ。

Replying to

YoshikuniJujo

で、今書いてるdeflateのコードで言うならば、渡すデータがバイトの境界をまたぐかまたがないかで、Either BitArray ByteStringみたいなデータ構造でLeftかRightかを渡すようにしておいて、受け取る側では

Right bs <- get

みたいな形で、「人間はこれが失敗しないことを知っている」というコードの書きかたをするというのが、ひとつの妥協点かな、と。

さらに進めると、前段と後段のあいだに、Either BitArray ByteStringを受け取って、ByteStringを渡すみたいな処理を入れておいて、もしLeftが来たらエラーをthrowするようにするのもありかもしれない。

YoshikuniJujo 9mo ago

https://github.com/YoshikuniJujo/test_haskell/blob/master/themes/freer-effects/yafee/try_using/try-gzip-yafee/src/Pipe/DataCheck.hs

前段と後段に入れるRightでなかったときに例外を発生させるパイプを定義した。まだ使ってないので動くかどうかはわからない。

Replying to

YoshikuniJujo

たとえば、

foo = do

[x, y, z] <- pure $ take 3 xs

みたいなコードを書いたっていいわけで、これは人間の目で見てfailになることはないのだけど、ちょっと気持ちが悪くもある。

でもプログラミングをしていると、こういう類の気持ち悪さをある程度許容しなくちゃならないことがある。

字面の美しさ、アルゴリズムの美しさ、効率、安全性といったいくつものパラメーターのなかでバランスを取る作業というのがプログラミングにはある。そこには楽しさと気持ち悪さとが共存している。

YoshikuniJujo 9mo ago

で、今書いてるdeflateのコードで言うならば、渡すデータがバイトの境界をまたぐかまたがないかで、Either BitArray ByteStringみたいなデータ構造でLeftかRightかを渡すようにしておいて、受け取る側では

Right bs <- get

みたいな形で、「人間はこれが失敗しないことを知っている」というコードの書きかたをするというのが、ひとつの妥協点かな、と。

さらに進めると、前段と後段のあいだに、Either BitArray ByteStringを受け取って、ByteStringを渡すみたいな処理を入れておいて、もしLeftが来たらエラーをthrowするようにするのもありかもしれない。

YoshikuniJujo 9mo ago

たとえば、

foo = do

[x, y, z] <- pure $ take 3 xs

みたいなコードを書いたっていいわけで、これは人間の目で見てfailになることはないのだけど、ちょっと気持ちが悪くもある。

でもプログラミングをしていると、こういう類の気持ち悪さをある程度許容しなくちゃならないことがある。

字面の美しさ、アルゴリズムの美しさ、効率、安全性といったいくつものパラメーターのなかでバランスを取る作業というのがプログラミングにはある。そこには楽しさと気持ち悪さとが共存している。

Replying to

YoshikuniJujo

deflateによって圧縮されたファイルには3種類のブロックがあって、無圧縮ブロック、固定ハフマンブロック、動的ハフマンブロックとあるのだけど、「無圧縮」があることでデーコーダーの設計に迷いが生じる。

デコーダーはヘッダの読み込み後に、3bit読むことでブロックの種類がわかるわけだけど、3種のブロックのうち無圧縮ブロックだけはビット単位ではなくバイト単位でデータをあつかったほうが効率がいい。

でも、はじめの3bitの読み込みの部分と他の2種のブロックではビット単位での読み込みのほうがいい。

無圧縮ブロックであっても別に問題になるほどの速度差は出なそうなので、ビット単位に分割してから、またバイトにまとめるというやりかたをしても、まあいいのかもしれない。けど、なんか美しくないんだよな。

YoshikuniJujo 9mo ago

conduitという抽象を使ってコードを書いていて、その抽象だと前段で処理した内容を後段に渡していくわけだ。ここでは、その「前段」の部分がバイト列を続く処理にわたすのだけど、その前段の部分に「ビット単位」で値を渡す機能をつけるのも、「あり」と言えば「あり」だ。8の倍数でないビット数の情報を渡せるようにする、か。

でも、そのやりかただと2つ問題が出てくる。

1. 後段に渡すデータが単純なバイト列ではなくなる

2. もし1ビットずつ渡す形だと、毎回「バイトかビットか」「何個わたすか」をチェックするのが非効率

で2に関しては、ある程度大きいビット列を後段に渡して、それがそのビット列から1ビットずつ取り出して、次の処理に渡すというやりかたで問題ない。

後段に渡すデータが単純なバイト列ではなくなってしまう問題についてはどうしようかな。