「理系大学院留学日記」でご紹介されているのをみて知ったのですが、Google setsと同様なことを実現するSEAL (Set Expander for Any Language) という技術が公開されています。まだ論文は未公開なようなのですが、どのような手法を使っているのかとても興味があるので、公開されるのが楽しみです。ちなみに以前に遊んでみたbayesian setsも同様のことを実現する技術でした(MovieLensデータを使った例)。仮に性能の比較を行うとしたらどういうふうにやればいいんでしょうかね。クエリがオンデマンドに決まるだけに、正解の定義が難しいような気もします。
SEALのデモシステムは英語だけでなく、中国語、韓国語、そして日本語にも対応しています。かなり精度がよいのですが、学習に利用した元データはどういうものを使っているのでしょう(Wikipedia とかでしょうか?)。ちなみに自分でもどういう答えを期待しているのかをあまり考えずに「牛」「豚」「鳥」と入力したら、「馬」が返ってきました。うーん、食用肉クラスター、ですかねぇ。馬刺大好きです。
ちなみに馬牛豚鳥という店が九州にあるようです。
焼酎&カクテル&MUSIC 馬牛豚鳥(ばぎゅうとんちょう)
おまけ「カシラ」「ガツ」「テッポウ」の結果:
# | Entity | Weight |
---|---|---|
1 | カシラ | 1.00000 |
2 | ガツ | 1.00000 |
3 | テッポウ | 1.00000 |
4 | ハツ | 0.79510 |
5 | コブクロ | 0.74522 |
6 | タン | 0.69749 |
7 | シロ | 0.65691 |
これはすごい!!!