現在、国立の研究機関や大学、大手通信企業などでもソーシャルブックマークの研究が進んでいるが、研究に必要なデータは事業者のサイトを巡回してクロールしなければならず、非常に手間隙がかかる作業となっている。
「EDGE Datasets」では、「livedoor クリップ」のソーシャルブックマークの生データ(URL、タグ、作成時刻)をCSV形式で提供。2008年12月版のデータセットには約157万行のクリップのデータが入っている。今回のデータセット公開により、同一時刻のブックマーク数のデータ比較が可能になるなど、初めてすべての研究者が同じ条件で実験や追試を行うことが可能となる。
データの利用は学術研究目的を前提としており、指定の問い合わせフォームからリクエストを行った個人に対してダウンロード用のURLとパスワードを返信する形で提供される。
ライブドアは、データの汎用性・再現性・更新性・ID秘匿性などの条件をクリアしたデータを提供することで、ソーシャルブックマーク研究の方法論と実績の確立に大きく貢献できるとしているが、「EDGE Datasets」のサイトの萌えっぷりに、アクセスした研究者はどんな反応をするのか楽しみだ。
【関連記事】
・ライブドア、自社開発の汎用レコメンドエンジンをオープンソースで無料提供
・ライブドア、スパム防止用の送信元IP情報を無料公開
・「livedoor クリップ」、記事に関連したAmazon.comの商品を登録可能に