指定したURLのWEBサイトのhtmlを取得する
import requests
from bs4 import BeautifulSoup
headers = {“User-Agent”: “Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36”}
f = requests.get({site url}, timeout=30, headers=headers)
soup = BeautifulSoup(f.text, “lxml”)
import requests
でrequestsモジュールをインポートします。
from bs4 import BeautifulSoup
でBeautifulSoupライブラリをインポートします。
headers =
の部分でユーザーエージェントの設定を行っています。
f = requests.get({site url}, timeout=30, headers=headers)
でhtmlを取得しています。
※{site url}
で取得するWEBサイトのURLを指定します。
soup = BeautifulSoup(f.text, "lxml")
で取得したhtmlを変数soupに代入しています。
必要な要素を取得するため”lxml”を指定しています。
こうやって取得したWEBサイトのhtmlから必要な情報を抽出していきます。
<参考>
PythonのRequestsモジュールの使い方【初心者向け】現役エンジニアが解説|<>TechAcademy
Pythonにおけるbs4のインストール方法と使い方を現役エンジニアが解説【初心者向け】|<>TechAcademy
コメント