PythonでSeleniumを使った動的サイトのスクレイピング

やりたいこと
必要なライブラリのインストール
1. Seleniumのインストール
2. WebDriver Managerのインストール
Seleniumを使ったスクレイピングの基本フロー
Seleniumの実装例
感想と改善点
1. 高速化のためのアプローチ
スクレイピングを行う際の注意点
まとめ

やりたいこと

Webページのスクレイピングは、Pythonを使ったデータ収集でよく行われる手法です。静的なページのスクレイピングは比較的簡単ですが、JavaScriptで動的に生成されるコンテンツを扱う場合は、通常のHTTPリクエストではデータを取得できないことが多くあります。そこで、Seleniumを使うことで、ブラウザ操作をシミュレーションし、動的コンテンツをスクレイピングすることができます。

本記事では、PythonとSeleniumを使って、動的に生成されるWebサイトをスクレイピングする方法を初心者向けに解説します。Pythonのバージョンは3.11.7を使用します。

必要なライブラリのインストール

Seleniumのインストール

まずはSeleniumをインストールします。Seleniumはブラウザを操作するためのライブラリで、スクレイピング以外にも自動テストなど幅広い用途に使われます。

Bash

pip install selenium

WebDriver Managerのインストール

Seleniumでは、WebDriverというブラウザを操作するためのプログラムが必要です。WebDriverのセットアップを自動化してくれるのがwebdriver-managerです。これをインストールして、WebDriverのインストール手順を簡単にします。

Bash

pip install webdriver-manager

Seleniumを使ったスクレイピングの基本フロー

Seleniumを使ってWebページにアクセスし、必要な要素を取得する基本的な流れを説明します。

必要なライブラリをインポート

まず、Seleniumの必要なモジュールをインポートします。

Python

import os
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

WebDriverのセットアップ

次に、webdriver-managerを使ってChrome用のWebDriverをセットアップし、ブラウザのインスタンスを生成します。

Python

# Chromeドライバを自動でインストールして起動
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

これにより、Chromeブラウザがバックグラウンドで起動し、Webページの操作が可能になります。

ページをロードする

続いて、Webページをロードします。Seleniumはページ全体が読み込まれるまで待機する機能もありますが、手動で待機時間を設定することも可能です。

Python

# 対象のURLにアクセス
driver.get("https://example.com")

# ページがロードされるまで10秒待機
driver.implicitly_wait(10)

要素の取得方法

Webページ内の要素を取得する方法はいくつかあります。代表的な方法として、クラス名、ID、XPathを使った要素の取得があります。

クラス名で要素を取得する

Python

# 特定のクラス名を持つ要素をすべて取得
elements = driver.find_elements(By.CLASS_NAME, "example-class")

IDで要素を取得する

Python

# 特定のIDを持つ要素を取得
element = driver.find_element(By.ID, "example-id")

XPathで要素を取得する

Python

# XPathで指定された要素を取得
element = driver.find_element(By.XPATH, '//div[@class="example"]')

タグ名で要素を取得する

Python

# liタグを取得
list_items = driver.find_elements(By.TAG_NAME, 'li')

要素の操作

取得した要素に対して、クリックや入力などの操作を行います。

テキスト入力を行う

Python

input_field = driver.find_element(By.ID, "search-box")
input_field.clear()  # フィールドのクリア
input_field.send_keys("Python")  # テキストを入力

ボタンをクリックする

Python

button = driver.find_element(By.CLASS_NAME, "submit-button")
button.click()  # ボタンをクリック

ボタンをクリックした後、ページがリロードされたり、新しいデータが表示される場合があります。その際、WebDriverWaitを使って特定の要素が変化するまで待機します。

Python

wait = WebDriverWait(driver, 10)
wait.until(EC.staleness_of(button))  # ボタンが消えるまで待機

スクリーンショットの取得

ページ全体や特定のエリアのスクリーンショットを撮ることもできます。

Python

# スクリーンショットを保存
driver.save_screenshot('screenshot.png')

最後にインスタンス解放

作業が完了したら、ブラウザのインスタンスを解放して終了します。

Python

driver.quit()

Seleniumの実装例

以下に、上記の手順を組み合わせた実装例を示します。これは、特定のURLにアクセスし、要素を取得して操作するシンプルな例です。

Python

import os
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

def scrape_website(url):
    # WebDriverをセットアップ
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
    
    # ページを開く
    driver.get(url)
    
    # ページがロードされるまで待機
    driver.implicitly_wait(10)
    
    # 特定の要素を取得（例：クラス名で取得）
    elements = driver.find_elements(By.CLASS_NAME, "example-class")
    
    # 取得した要素を操作する（例：最初のボタンをクリック）
    if elements:
        elements[0].click()
    
    # スクリーンショットを撮る
    driver.save_screenshot("website_screenshot.png")
    
    # ブラウザを終了
    driver.quit()

# 実行
scrape_website("https://example.com")

感想と改善点

Seleniumを使ったスクレイピングは、動的なWebページでも非常に強力な手段ですが、ブラウザの起動や操作には時間がかかるため、実行時間が長くなりがちです。実行速度を向上させるためには、以下の点を考慮することが有効です。

高速化のためのアプローチ

ヘッドレスモードを使う
ヘッドレスモードでは、ブラウザをUIなしで起動するため、描画処理がなくなり、高速化できます。

Python

options = webdriver.ChromeOptions()
options.add_argument("--headless")
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

不要なリソースの読み込みを避ける
JavaScriptや画像など、スクレイピングに不要なリソースの読み込みを避けることで、処理をさらに高速化できます。

スクレイピングを行う際の注意点

スクレイピングは強力なデータ収集手段ですが、法的な制約や技術的なマナーを守る必要があります。以下は、スクレイピングを行う際の重要な注意点です。

法律や利用規約を遵守する

スクレイピングが許可されているかを確認
スクレイピングを行う前に、対象サイトの利用規約やロボット排除規則（robots.txt）を確認することが大切です。
一部のWebサイトではスクレイピングが禁止されていることがあり、これに違反すると法的なトラブルにつながる可能性があります。特に、商業的なデータ収集を行う場合は注意が必要です。

robots.txt
ほとんどのWebサイトにはrobots.txtファイルがあり、そこには検索エンジンやクローラーがアクセス可能なページが記載されています。スクレイピングの際にも、このファイルに記載されたルールを尊重するべきです。URLの最後に「/robots.txt」を追加して確認しましょう（例：https://example.com/robots.txt）。

サーバーへの負荷を考慮する

サーバーに負荷をかけないようにする
スクレイピングを頻繁に行ったり、一度に大量のリクエストを送信することは、対象のWebサーバーに大きな負荷をかける原因になります。過剰な負荷はサーバーに対する「攻撃」と見なされることがあり、IPブロックの対象になったり、法的措置を受ける可能性もあります。

負荷を軽減する方法：

リクエスト間に遅延を入れる
連続してリクエストを送らず、一定の間隔を設けることで、サーバーに負担をかけないようにしましょう。以下は、リクエスト間に遅延を入れる例です。

Python

import time # 1秒間に1リクエストのみ行う time.sleep(1)

並列リクエストを避ける
短時間に大量のリクエストを送ると、サイトのサーバーに大きな負荷をかけることになるため、並列でのリクエスト処理は控えましょう。

個人情報や機密データを扱わない

スクレイピングで取得するデータに注意する
スクレイピングする内容が個人情報や機密性の高いデータでないことを確認することが重要です。個人情報の収集はプライバシーの侵害につながり、法律に抵触することがあります。特に、商業目的でスクレイピングを行う際は、データの取り扱いに細心の注意を払いましょう。

取得データの利用に配慮する

スクレイピングで取得したデータの利用方法に注意
取得したデータをそのまま公開したり、商業目的で利用する場合は、必ず対象サイトの利用規約を確認し、著作権やデータの二次利用に関するガイドラインを守る必要があります。公開されたデータを無断で使用することは、法的トラブルを引き起こす可能性があります。

ブロックされないようにする

スクレイピングを行うと、一定量以上のアクセスが行われた場合、対象のWebサイトが自動的にブロックすることがあります。これを避けるために、次の点に注意しましょう。

User-Agentの設定
スクレイピングツールがWebサイトにアクセスする際、デフォルトのUser-Agent（ブラウザの情報などを示す識別子）が指定されていない場合、Webサイトによってはアクセスがブロックされることがあります。SeleniumでUser-Agentを変更することができるので、以下のように設定を行います。

Python

from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36")

driver = webdriver.Chrome(options=options)

プロキシの使用
スクレイピングをする際に、特定のIPアドレスがブロックされるのを防ぐために、プロキシを利用することも検討しましょう。

デバッグとエラーハンドリング

スクレイピング中にエラーが発生した際に適切な対応を行う
Webページの構造が変わったり、ネットワークの問題が発生した場合に備えて、エラーハンドリングをしっかりと実装しておくことが重要です。try-except文を使って、エラー発生時にプログラムが停止せず、適切に処理できるようにしましょう。

Python

try:
    element = driver.find_element(By.CLASS_NAME, "example-class")
except Exception as e:
    print(f"Error occurred: {e}")

APIの利用を検討する

可能であればAPIを使用する
スクレイピングは非常に便利な手法ですが、負荷や法律的な問題が伴います。多くのWebサービスでは、公式のAPIを提供していることが多いので、APIが利用できる場合は、スクレイピングよりもAPIを使用することが推奨されます。APIは安定してデータを取得でき、効率的かつ安全です。

まとめ

Seleniumを使ったスクレイピングは、動的なWebサイトに対して非常に有効ですが、法的問題やサーバーへの負荷に注意が必要です。スクレイピングを行う際には、法律や利用規約の遵守（著作権やプライバシー保護の確認）、サーバーへの負荷軽減（リクエストの間隔を設定し並列リクエストを避ける）、そしてエラーハンドリング（エラー処理でスクレイピングの停止を防ぐ）に気をつける必要があります。これらの点を押さえて、健全かつ効果的にスクレイピングを活用しましょう。

この記事では、Seleniumとwebdriver-managerを使った動的ページのスクレイピング方法を解説しました。

Pythonで動的に生成されているサイトをスクレイピングする方法【初心者向け】

やりたいこと

必要なライブラリのインストール

Seleniumのインストール

WebDriver Managerのインストール

Seleniumを使ったスクレイピングの基本フロー

必要なライブラリをインポート

WebDriverのセットアップ

ページをロードする

要素の取得方法

クラス名で要素を取得する

IDで要素を取得する

XPathで要素を取得する

タグ名で要素を取得する

要素の操作

テキスト入力を行う

ボタンをクリックする

スクリーンショットの取得

最後にインスタンス解放

Seleniumの実装例

感想と改善点

高速化のためのアプローチ

スクレイピングを行う際の注意点

法律や利用規約を遵守する

サーバーへの負荷を考慮する

負荷を軽減する方法：

個人情報や機密データを扱わない

取得データの利用に配慮する

ブロックされないようにする

デバッグとエラーハンドリング

APIの利用を検討する

まとめ

コメント