[PHP] ウェブスクレイピングに役立つHTMLパーサーの参考リンクまとめ

ウェブスクレイピングという言葉がある。英語だとWeb Scraping。ちなみにScrapは「新聞記事を切り抜いてスクラップする」の「スクラップ」と同じだけど、ingが付くと「スクラッピング」じゃなくて「スクレイピング」と読む。ウェブサイトから情報を抽出することを「ウェブスクレイピング」と呼ぶらしい。

ウェブスクレイピング – Wikipedia
http://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0

ウェブサイトから情報を取得する場合、RSSやウェブサービスなどのAPIが用意されていればそれを使うけど、そうじゃなければウェブページのソースから情報を抜き出す仕組みが必要になる。それがウェブスクレイピングだ。ウェブスクレイピングに役立ちそうなHTMLパーサーを探したところ幾つかヒットしたので、実際に試しているブログ記事などと共に以下にリンクをまとめておく。たぶん近いうちにお世話になりそう。

Simple HTML DOM Parser

PHP Simple HTML DOM Parser
http://simplehtmldom.sourceforge.net/

PHPでHTMLをパースして解析、編集して保存する方法 – さとうさんのキロク
http://sato-san.hatenadiary.jp/entry/2013/05/06/155919

PHP Simple HTML DOM Parserの使用方法 – Webスクレイピング ライブラリ
http://www.crystal-creation.com/web-app/tech/programming/php/library/simplehtmldom/

PHP Simple HTML DOM Parserを使ったWebスクレイピング入門 – Qiita
http://qiita.com/esehara@github/items/db231c99f8076aabdfb2

DOMDocument

PHP: DOM – Manual
http://www.php.net/manual/ja/book.dom.php

PHPでHTMLをパースして解析する簡単な方法 | 三度の飯とエレクトロン
http://blog.katty.in/1400

Goutte

fabpot/Goutte · GitHub
https://github.com/fabpot/goutte

WebスクレイピングライブラリGoutteで遊んでみる – hnwの日記
http://d.hatena.ne.jp/hnw/20120115

そろそろ Simple HTML DOM Parser を使うのはやめたほうがいい – localdisk
http://localdisk.hatenablog.com/entry/2014/02/05/%E3%81%9D%E3%82%8D%E3%81%9D%E3%82%8D_Simple_HTML_DOM_Parser_%E3%82%92%E4%BD%BF%E3%81%86%E3%81%AE%E3%81%AF%E3%82%84%E3%82%81%E3%81%9F%E3%81%BB%E3%81%86%E3%81%8C%E3%81%84%E3%81%84