IMDbデータいじり - valdzone’s blog

時間をみつけて色々遊びはじめてます。まずはデータの正規化というか、無駄な情報の刈り込みをしているところですが、ちょっとしたことをやるだけでも色々と興味深いデータが出てきて面白いです。ちなみに「市民ケーン」につけられたキーワードの内、トップ10の頻出キーワードは以下の通りです。括弧内は他の映画もあわせての総リファー数です。こういうデータの日本語版があるといいですねぇ。単純に翻訳してしまえばいいかもですが。

character-name-in-title タイトルにキャラクター名(18016) ←これが結構多いんです。
marriage 結婚 (2612)
death 死 (2479)
suicide 自殺 (2009)
flashback-sequence フラッシュバックシーケンス (1629)
beautiful-woman 美女 (1521)
adultery 不倫 (1280)
singer 歌手 (1206)
narration ナレーション (1156)
political 政治 (1138)

以下はテレビ、ビデオ、ビデオゲームを除いた映画タイトル（但し一部のテレビシリーズは含む、だったかな）に対してつけられたキーワードのうち、トップ10頻出キーワードです。ちなみにビデオを入れるとドえらい結果が出てきてしまいます^^;

independent-film 独立系フィルム(22796)
based-on-novel 小説ベース(21815)
character-name-in-title タイトルにキャラクター名(18016)
sex セックス(12480)
based-on-play 演劇ベース(8719)
murder 殺人 (7957)
hardcore ハードコア (7319)
female-nudity 女性の裸 (6429)
kids-and-family 子供とファミリー (4818)
sequel 続き物 (4704)

あとはどう料理して遊んでやろうかと思ってるのですが、先日作ったベイジアンセットを適用してもいいですし、勉強をかねて一通りの機械学習テクニックを実装＆適用してみようともくろんでます。強調フィルタリングの技術も試してみたいです。もう一つの野望はデータベースの日本語化です。