Requests介紹與安裝
在windows環(huán)境下,可以通過(guò)以下命令安裝Requests庫(kù):
pip install requests
在linux環(huán)境下,可以使用以下命令:
sudo pip install requests
關(guān)于第三方庫(kù)的安裝技巧,建議盡量避免使用easy_install,因?yàn)樗荒馨惭b而無(wú)法卸載。推薦使用pip進(jìn)行安裝。如果遇到安裝問(wèn)題,可以參考第三方庫(kù)安裝技巧。如果下載的文件后綴為.whl,可以將其改為.zip,然后解壓獲得requests文件,并將該文件拷貝到c盤的python/lib文件夾中。
第一個(gè)網(wǎng)絡(luò)爬蟲(chóng):使用Requests獲取網(wǎng)頁(yè)源代碼
直接獲取源代碼,或者通過(guò)修改http頭來(lái)獲取源代碼。我們以爬取python吧首頁(yè)的源代碼為例。
代碼語(yǔ)言:JavaScript 代碼運(yùn)行次數(shù):0
運(yùn)行 復(fù)制 “`javascript import requests html = requests.get(‘http://tieba.baidu.com/f?ie=utf-8&kw=python’) print(html.text) “`
單線程爬蟲(chóng)的基本原理是通過(guò)requests獲取網(wǎng)頁(yè)源代碼,然后使用正則表達(dá)式匹配出感興趣的內(nèi)容。
向網(wǎng)頁(yè)提取數(shù)據(jù):Get與Post
- Get方法用于從服務(wù)器上獲取數(shù)據(jù)。
- Post方法用于向服務(wù)器傳送數(shù)據(jù)。
Get方法通過(guò)構(gòu)造URL中的參數(shù)來(lái)實(shí)現(xiàn)功能。分析目標(biāo)網(wǎng)站時(shí),可以使用以下方法:
網(wǎng)站地址:https://www.php.cn/link/4a9db268f4d80243421c37dd05cdacdb 分析工具:chrome-審核元素-Network
對(duì)于需要表單提交的功能,可以使用Requests.post方法。核心步驟包括構(gòu)造表單、提交表單以及獲取返回信息。