読者です 読者をやめる 読者になる 読者になる

URL から著者名を返してくれる Web Service が欲しい

WoC

書籍や小説,音楽 CD やゲームなどは,パブリッシャーを超えてのデータベース化が進んでいて,「この作者の他の作品について」という条件で調べ物をするのが楽な世の中になっています.これに比べれば,Web 上の様々なオンライン記事とその著者を結びつけるデータベースの整備は遅れているかもしれません.

  • HTML の <meta name="Author" が有効に使われていない
  • サイト検索で「この著者の他の記事を読む」が提供されているとは限らない
    • いわんや Web Service をや

結局頼れるのは Google かということで,試しに私が follow しているところの中田さんの記事を itpro.nikkeibp.co.jp 以下から検索してみました.
検索条件としては,検索範囲を itpro.nikkeibp.co.jp 以下に限り,検索フレーズには中田さんのシグネチャである「中田 敦=ITpro」を使用しました.これでだいたい 500 件ちょっとぐらい返ってくるのですが,その結果をスクレイピング*1し,はてなブックマーク被ブックマーク数と連携させてみたり,URL から簡単にカテゴリ分けしてみたりしたのが以下の Excel ファイルです.重複を省いて 480 件残りました.

Web 検索ということで,このリストの 100 % 全てが中田さんの記事とは限らないのですが,エラーの大きさを見積もることができれば統計的に扱う分にはそれほど問題にならないでしょう.何かの使い道はあるように思います.
TopHatenar ならぬ,TopITPros なんてのも,やり方次第ではさくっと作れちゃう時代なんでしょうな.