Google Sets より高精度な SEAL の中身

先日書いたSEALの話題のつづきです。論文のPDF が公開されていましたので、ダウンロードしてみました。まだすべてを読み切れていないのですが、射撃しつつ前転さんのブログで解説されていましたので、ズルをしてそちらを先に拝見してしまいました。ブログ記事の感想に書かれていらっしゃる、Google Sets の非再現性を批評している割には Google API を使っている(!)のでやはり再現性がないのでは?というくだりは私もそう思いました。SEAL のアプローチで面白いのは、クエリに対して得られた web page のテキストから構造を抜き出すことにあると思うのですが、ちょっとショックなのはそもそもクエリに対して最も適合する web page をひっぱってくるのに Google API を使っていることです。たしかにそのような機能を高速かつ高精度に実現できるシステムとしてはGoogleが現存するシステムの中でも最高なものであることは間違いないと思います。そのような中身がブラックボックスであるシステムがクエリに対して適切な web page を返すということを認めてさえしまえば、SEAL のようなアプローチがいとも簡単に実現できてしまう訳です。そしてSEALのデモシステムが非常にうまくいっていることが実証しているように、Googleもまたうまく動作しているわけです。そしてSEALを動作させるのに複雑な数理統計等は一切不要です。
しかしこのようなアプローチが主流になってしまうと、すべてがGoogleの検索結果次第ということになってしまうわけで、それが果たして正しい方向性であるかは(技術論だけでなくもう少し広い意味で)ちょっとひっかかっています(ということに関連する話を最近友人としている最中なのですが)。

SEALの話に戻りますが、シンプルなアイディアでこれだけうまく行くというのはただただ驚嘆です。事前にデータを用意する必要もなく、あらゆるエリアに対して使えるというのがすばらしいです。敢えてうまくいかない場合を考えてみると(論文中で議論されているかもですが)クエリの選び方に結果がかなり左右されるであろうこと、そしてドメイン・スペシフィックなデータは、Google API を単純にたたいているだけではうまくいかないのではないかと思いました。このあたりは実際にやってみないとなんともいえないのですが。

ところで前にやってみた Bayesian Sets + Movie lense データでやってみた実験(カサブランカと市民ケーンをクエリにすると、AFIのトップ100と近い映画が出てくる)をSEALでもやってみました。

"citizen Kane", "casablanca" の結果。 赤がAFI top 100 にリストされていない映画ですが、それ以外はほとんどマッチしました。Bayesian Setsのときと同じく、ここでもクエリの背後にあるクラスタ(不朽の名作クラスタ?)を見つけているような気がします。ところで同じクエリをGoogleで検索してみると、トップでひっかかるのがAFIのweb ですが、実はこれは期待していた出力そのものだったりします。ので、この検索結果が SEALの出力に大きく貢献していると思われます。その意味でSEALがやっていることは人間様が Google の検索結果を元に集合の残りの要素を探しているプロセスを自動化しているように思いました。ここで面白いのは、SEAL が対象としているのは、(原理的に)あらゆる web pageであるのに対し、Bayesian sets で実験したときのデータは Movie Lenseデータであり、これはコア映画ファンによる投票結果であったということ。性質の異なるデータソースにも関わらず同じような結果が出てくるというのが面白いです。またこの例を見る限りでは、前者が後者を包含してしまっているので、うまくいっているような気もします(いまどきwebに載っていない情報など無い!?)。

1 citizen kane 1.00000
2 casablanca 1.00000
3 gone with the wind 0.22830
4 the godfather 0.17473
5 raging bull 0.13305
6 the maltese falcon 0.11969
7 lawrence of arabia 0.10747
8 vertigo 0.09710
9 chinatown 0.09492
10 kane 0.07190
11 it's a wonderful life 0.07073
12 singin' in the rain 0.06332
13 city lights 0.06079
14 the third man 0.05727
15 cool hand luke 0.05721
16 the graduate 0.05558
17 the grapes of wrath 0.05266
18 notorious 0.05179
19 2001: a space odyssey 0.05142
20 the wizard of oz 0.05082
21 star wars 0.05033
22 all about eve 0.04881
23 dr. strangelove 0.04822
24 taxi driver 0.04366
25 the best years of our lives 0.04361
26 yankee doodle dandy 0.04361
27 african queen 0.04267
28 maltese falcon 0.04267
29 from here to eternity 0.03995
30 rear window 0.03906
31 psycho 0.03888
32 the philadelphia story 0.03887
33 network 0.03684
34 godfather 0.03618
35 the battle over citizen kane 0.03614
36 the treasure of the sierra madre 0.03586