Ruby on rails 開発備忘録

Rails、テック関連の備忘録として。躓きとか疑問を中心に。

「Rubyでスクレイピングを体験しよう」に参加してきました。

今週は、X-HACKさんの「Rubyでスクレイピングを体験しよう」に参加してきました。
nokogiriに関しては使ったこともあったんですが、Xpathでうまくスクレイピングできなかったり、少しモヤモヤしてたのでイベントに参加してきました。

イベントは、2時間くらいだったのですが基礎からわかりやく説明していただき
スクレイピングの基礎に関して一通り理解できて参加してよかったです。

nokogiriを使ったスクレイピングに関しては、キータとかでもかなり取り上げられてるんで今更説明の必要もないと思うのですが、簡単に言うと特定のページからHTMLを引っこ抜いてくるみたいな感じですかね。

www.sejuku.net


Googleクローリングでウェブサイトの情報とかを収集したりしてますよね。

スクレイピング・クローリングとは?

tech-camp.in

実際にchromeから右クリック検証で抜きたいwebサイトのデータ(例えばwebサイトの記事のタイトルとか)のクラスを調べて、CSSセレクターで簡単に抽出することができました。

Qiitaから記事タイトルをスクレイピングするのに使用したコード。

f:id:Arthurxxx:20190119205028p:plain

CSSセレクターでスクレイピング

実行結果

f:id:Arthurxxx:20190119205903p:plain


映画サイトから映画のタイトルをスクレイピング

f:id:Arthurxxx:20190119212023p:plain

contents.each do 以下でcss('h4')を指定。

実行結果

f:id:Arthurxxx:20190119210526p:plain

いくつか試してみましたが、個人的にはCSSセレクターの方がわかりやすかったです
今後も色々試していきたいと思います。

※Webサイトのスクレイピングはくれぐれも自己責任でよろしくお願いします。