WEBサイトのhtmlを取得するには|PythonでWEBスクレイピング

PythonでrequestsとBeautifulSoupを使ってWEBスクレイピングを行うpython

指定したURLのWEBサイトのhtmlを取得する

import requests
from bs4 import BeautifulSoup

headers = {“User-Agent”: “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36”}

f = requests.get({site url}, timeout=30, headers=headers)
soup = BeautifulSoup(f.text, “lxml”)

import requestsでrequestsモジュールをインポートします。

from bs4 import BeautifulSoupでBeautifulSoupライブラリをインポートします。

headers =の部分でユーザーエージェントの設定を行っています。

f = requests.get({site url}, timeout=30, headers=headers)でhtmlを取得しています。
{site url}で取得するWEBサイトのURLを指定します。

soup = BeautifulSoup(f.text, "lxml")で取得したhtmlを変数soupに代入しています。
必要な要素を取得するため”lxml”を指定しています。

こうやって取得したWEBサイトのhtmlから必要な情報を抽出していきます。

<参考>
PythonのRequestsモジュールの使い方【初心者向け】現役エンジニアが解説|<>TechAcademy
Pythonにおけるbs4のインストール方法と使い方を現役エンジニアが解説【初心者向け】|<>TechAcademy

コメント