[實作] Python 實作 網路爬蟲 ( web crawler )
基本流程
- 連線到特定網址,抓取資料
- 解析資料,取得實際想要的部分
抓取資料
- 盡可能地,讓程式模仿一個普通使用者的樣子,因為許多網站不希望人家用程式去抓取他們的資料
- 必須包含 Headers
1 | import urllib.request as req |
解析資料
JSON 格式
- 使用內建的 JSON 模組來解析
HTML 格式
- 使用第三方套件 BeautifulSoup 來解析
安裝 BeautifulSoup
使用 pip 套件管理工具 ( 安裝python 時,就一起裝了 )
1
$ pip install beautifulsoup4
1 | import bs4 |