Webスクレイピング超入門シリーズ④の題材は「そのサイトってスクレイピングしていいんだっけ」です。 過去3回ではスプレッドシートやGASを使ってお手軽にWebサイトのデータを自動取得する方法を紹介しました。
が、自動取得できることと自動取得してOKかどうかは別でして、どうやってスクレイピングOK/NGを確認すれば良いのか という話。
端的に言えばタイトルのとおり「利用規約」「robots.txt」を確認することになりますが、その見方を紹介します。
- スクレイピングとは?
- スクレイピングして良いサイトとダメなサイトの見分け方
- 1. 利用規約を確認する
- 2. robots.txtを確認する
- robots.txtの構造
- robots.txtの設定例
- 1. すべてのクローラーに対して全ページを許可
- 2. すべてのクローラーに対して全ページを禁止
- 3. 特定のディレクトリを禁止
- 4. 特定のページを禁止
- 5. 特定のクローラーを禁止
- 6. 特定のクローラーを許可
- 7. 特定のディレクトリを許可
- 8. 特定のファイルタイプを禁止
- 日本の法律や海外の規制について
- 1. 著作権法
- 2. 不正アクセス禁止法
- 3. 海外の規制
- まとめ