【Python】Webスクレイピングしてみた。

はじめに

効率はおいておいて。。。もはやブログ書きながら学習したほうが集中できる。。。笑

4か月間一人でもくもくと勉強していたので、モチベーション維持に限界を感じてきています。
現状打破、また同じ境遇の方と交友できることを期待して、学習記録を投稿しています。
一緒にもくもく会、勉強会の企画や共同ポートフォリオ制作など面白いことしたい!!って方おりましたら、お気軽にTwitterなりご連絡ください。(切実な願い)

今日の学習内容※2記事目

Pythonでできることとして有名なスクレイピングを試してみました。

requestsというスクレイピング用のライブラリとchardetという日本語を扱えるようにするライブラリを使いました。

はい、こんな感じです。

URLで指定したサイトのソースコード(HTML)をとても簡単にコマンドプロンプト上に取り出すことができました◎

これに正規表現(文字列を決まったルールによるパターンとして定義して検索や置き換えを行うもの)を加えればリンクアドレスを抽出することなども可能になります。

正規表現だけだと的確に抜き出しができない場合、例えば指定したタグ内を抜き出したり、特定のタグだけ抜き出したいなど、こういった際にはBeautiful Soupというライブラリを活用します。(パーサーライブラリ。)

他にもJSONデータを扱うJSONライブラリ、

※スクレイピングは指定したURLにアクセスしていることになるので、相手のサーバーに負荷をかけることになります。過度なアクセスは要注意!(と言っても、そんな1秒間に何回もアクセスとかしないと思うので特に問題はないかと。)

※補足※

現在、参考にしている本はこちらです。

Amazonレビューの評価が著しく低いですが、Pythonの文法~ライブラリの活用~スクレイピング~Webアプリ制作~機械学習~ディープラーニングまで導入部分ではあるにせよ幅広く扱ってくれているので、初学者の僕からしたら大変ありがたいです。

おわりに

先ほど記事書いたばかりですが、さくっと勉強がてら書いちゃいました。

個人的な学習の備忘録としてマイペースに書いてます。

おしまい

P.S.

メルカリでそろそろ書籍売りに出そう。。。

あと政治に少しでも関心あれば以下の動画おすすめです。すでに話題ですがホリエモンとカルロス・ゴーンさんの動画。

コメントを残す