時間をみつけて色々遊びはじめてます。まずはデータの正規化というか、無駄な情報の刈り込みをしているところですが、ちょっとしたことをやるだけでも色々と興味深いデータが出てきて面白いです。ちなみに「市民ケーン」につけられたキーワードの内、トップ10の頻出キーワードは以下の通りです。括弧内は他の映画もあわせての総リファー数です。こういうデータの日本語版があるといいですねぇ。単純に翻訳してしまえばいいかもですが。
- character-name-in-title タイトルにキャラクター名(18016) ←これが結構多いんです。
- marriage 結婚 (2612)
- death 死 (2479)
- suicide 自殺 (2009)
- flashback-sequence フラッシュバックシーケンス (1629)
- beautiful-woman 美女 (1521)
- adultery 不倫 (1280)
- singer 歌手 (1206)
- narration ナレーション (1156)
- political 政治 (1138)
以下はテレビ、ビデオ、ビデオゲームを除いた映画タイトル(但し一部のテレビシリーズは含む、だったかな)に対してつけられたキーワードのうち、トップ10頻出キーワードです。ちなみにビデオを入れるとドえらい結果が出てきてしまいます^^;
- independent-film 独立系フィルム(22796)
- based-on-novel 小説ベース(21815)
- character-name-in-title タイトルにキャラクター名(18016)
- sex セックス(12480)
- based-on-play 演劇ベース(8719)
- murder 殺人 (7957)
- hardcore ハードコア (7319)
- female-nudity 女性の裸 (6429)
- kids-and-family 子供とファミリー (4818)
- sequel 続き物 (4704)
あとはどう料理して遊んでやろうかと思ってるのですが、先日作ったベイジアンセットを適用してもいいですし、勉強をかねて一通りの機械学習テクニックを実装&適用してみようともくろんでます。強調フィルタリングの技術も試してみたいです。もう一つの野望はデータベースの日本語化です。