「Rubyでスクレイピングを体験しよう」に参加してきました。
今週は、X-HACKさんの「Rubyでスクレイピングを体験しよう」に参加してきました。
nokogiriに関しては使ったこともあったんですが、Xpathでうまくスクレイピングできなかったり、少しモヤモヤしてたのでイベントに参加してきました。
イベントは、2時間くらいだったのですが基礎からわかりやく説明していただき
スクレイピングの基礎に関して一通り理解できて参加してよかったです。
nokogiriを使ったスクレイピングに関しては、キータとかでもかなり取り上げられてるんで今更説明の必要もないと思うのですが、簡単に言うと特定のページからHTMLを引っこ抜いてくるみたいな感じですかね。
Googleもクローリングでウェブサイトの情報とかを収集したりしてますよね。
スクレイピング・クローリングとは?
実際にchromeから右クリック検証で抜きたいwebサイトのデータ(例えばwebサイトの記事のタイトルとか)のクラスを調べて、CSSセレクターで簡単に抽出することができました。
Qiitaから記事タイトルをスクレイピングするのに使用したコード。
実行結果
映画サイトから映画のタイトルをスクレイピング。
contents.each do 以下でcss('h4')を指定。
実行結果
※Webサイトのスクレイピングはくれぐれも自己責任でよろしくお願いします。