IMDbデータいじり

時間をみつけて色々遊びはじめてます。まずはデータの正規化というか、無駄な情報の刈り込みをしているところですが、ちょっとしたことをやるだけでも色々と興味深いデータが出てきて面白いです。ちなみに「市民ケーン」につけられたキーワードの内、トップ10の頻出キーワードは以下の通りです。括弧内は他の映画もあわせての総リファー数です。こういうデータの日本語版があるといいですねぇ。単純に翻訳してしまえばいいかもですが。

  1. character-name-in-title タイトルにキャラクター名(18016) ←これが結構多いんです。
  2. marriage 結婚 (2612)
  3. death 死 (2479)
  4. suicide 自殺 (2009)
  5. flashback-sequence フラッシュバックシーケンス (1629)
  6. beautiful-woman 美女 (1521)
  7. adultery 不倫 (1280)
  8. singer 歌手 (1206)
  9. narration ナレーション (1156)
  10. political 政治 (1138)

以下はテレビ、ビデオ、ビデオゲームを除いた映画タイトル(但し一部のテレビシリーズは含む、だったかな)に対してつけられたキーワードのうち、トップ10頻出キーワードです。ちなみにビデオを入れるとドえらい結果が出てきてしまいます^^;

  1. independent-film 独立系フィルム(22796)
  2. based-on-novel 小説ベース(21815)
  3. character-name-in-title タイトルにキャラクター名(18016)
  4. sex セックス(12480)
  5. based-on-play 演劇ベース(8719)
  6. murder 殺人 (7957)
  7. hardcore ハードコア (7319)
  8. female-nudity 女性の裸 (6429)
  9. kids-and-family 子供とファミリー (4818)
  10. sequel 続き物 (4704)

あとはどう料理して遊んでやろうかと思ってるのですが、先日作ったベイジアンセットを適用してもいいですし、勉強をかねて一通りの機械学習テクニックを実装&適用してみようともくろんでます。強調フィルタリングの技術も試してみたいです。もう一つの野望はデータベースの日本語化です。