Bayesian sets つづき

先日来作っていたものを下記で公開してみました。よろしければお使いください。
Bayesian Sets with MovieLens Data
関連記事:

アルゴリズムそのものは実装が終わっていたのですが、CGI化するにあたって、入力クエリを既にある集合から選択するようにするのがわりと面倒でした。速度はCGIが呼び出されるたびに行列データを読み込んだりしているので、やや遅いです。が、耐えられないほどでもないのでCで拡張ライブラリを作るのはもう少し様子をみてからにしようと思います。さらに高速化を目指すのならCGIをやめて、「C++と Pthreads でミニマルなHTTPサーバを書く」「AjaxIMEのHTTPサーバは pre-pthread」で紹介されている自前のhttpサーバを作るノウハウがとても役に立ちそうです。もちろんレンタルサーバ上でやるのは無理そうですが(自宅サーバか専用サーバか)。あと入力のインタフェースはもうちょっと工夫の余地があるかなと思います。出力結果に色をつけたり、どこかのAPIからひっぱってきた画像をつけたりするともうちょっと見栄えが楽しくなるかもしれません。色々とクエリを入れて試しているうちにどうも投票したユーザの年齢要素が結果に大きな影響を及ぼしている気がしてきたので、そのうち調べてみようと思っています。また、MovieLens データは2001年以降の映画が含まれないのがとても残念なのですが、他にも色々面白そうなデータを探してきて試してみれればと考えています。
このように不格好ながらも実際に動くものを作ってみると色々と今まであまり考えてなかった事がわかったり、ちょっとしたアイディアが出てくるのが面白いです。論文読んだだけではわからなかったことも発見できました。お手軽に試してみれるというのはとても大事ですね。