project:oshino

時系列データを用いたWebグラフマイニング

Webページをノード、リンクをエッジとしたグラフ構造をWebグラフといい、グラフパターンを用いたWebグラフマイニングは様々な研究がなされている。例えば、Webページの重要度評価のためにハブ・オーソリティといったパターンを用いたHITSというアルゴリズムがあり、これはYahooの検索ランキングに応用されている。 また、完全2部グラフという構造に着目して、膨大なWebから共通するトピックを扱うコミュニティを発見するTrawlingなどの研究もある。しかし、これらの手法はリンク構造のみに着目していて、ページの時系列データを考慮することができない。Webのページやリンクは時間とともに変化する動的なものである。そこで、時間情報を考慮、さらに機械的にパターン発見をすることができれば、そのパターンを用いて未知の情報を発見するなど、より有効なマイニングが可能になると考えている。

本研究ではそのために時系列データを利用してWebグラフマイニングを行う手法を提案する。具体的にはページの生成日時を反映したノードラベルを導入し、頻出パターンの抽出を行う。予備実験としてブログやニュースまとめサイトに注目し、Webで盛り上がった話題の周辺のリンク構造に特徴的なパターンを発見した。

project/oshino.txt · Last modified: 2011/11/24 09:41 by ylab