在nginx中將特定用戶代理列入黑名單
要配置用戶代理阻擋列表,請打開你的網站的nginx配置文件,找到server定義部分。該文件可能會放在不同的地方,這取決于你的nginx配置或linux版本(如,/etc/nginx/nginx.conf,/etc/nginx/sites-enabled/
復制代碼?代碼如下:
??? server {
??????? listen?????? 80 default_server;
??????? server_name? xmodulo.com;
??????? root???????? /usr/share/nginx/html;
??????? ….
??? }
在打開該配置文件并找到 server 部分后,添加以下 if 聲明到該部分內的某個地方。
復制代碼?代碼如下:
??? server {
??????? listen?????? 80 default_server;
??????? server_name? xmodulo.com;
??????? root???????? /usr/share/nginx/html;
??????? # 大小寫敏感的匹配
??????? if ($http_user_agent ~ (antivirx|arian) {
??????????? return 403;
??????? }?
??????? #大小寫無關的匹配? ? ??
復制代碼?代碼如下:
??? if ($http_user_agent ~* (netcrawl|npbot|malicious)) {
??????????? return 403;
??????? }
??????? ….
??? }??
如你所想,這些 if 聲明使用正則表達式匹配了任意不良用戶字符串,并向匹配的對象返回403 http狀態碼。 $http_user_agent是http請求中的一個包含有用戶代理字符串的變量。‘~’操作符針對用戶代理字符串進行大小寫敏感匹配,而‘~*’操作符則進行大小寫無關匹配。‘|’操作符是邏輯或,因此,你可以在 if 聲明中放入眾多的用戶代理關鍵字,然后將它們全部阻擋掉。
在修改配置文件后,你必須重新加載nginx以激活阻擋:??
?$?sudo?/path/to/nginx?-s?reload
你可以通過使用帶有 “–user-agent” 選項的 wget 測試用戶代理阻擋。??
?$?wget?--user-agent?"malicious?bot"?http://<nginx-ip-address></nginx-ip-address>
??
??? 管理nginx中的用戶代理黑名單
目前為止,我已經展示了在nginx中如何阻擋一些用戶代理的http請求。如果你有許多不同類型的網絡爬蟲機器人要阻擋,又該怎么辦呢?
由于用戶代理黑名單會增長得很大,所以將它們放在nginx的server部分不是個好點子。取而代之的是,你可以創建一個獨立的文件,在該文件中列出所有被阻擋的用戶代理。例如,讓我們創建/etc/nginx/useragent.rules,并定義以下面的格式定義所有被阻擋的用戶代理的圖譜。
??$?sudo?vi?/etc/nginx/useragent.rules
復制代碼?代碼如下:
?? map $http_user_agent $badagent {
??????????? default???????? 0;
??????????? ~*malicious???? 1;
??????????? ~*backdoor????? 1;
??????????? ~*netcrawler??? 1;
??????????? ~antivirx?????? 1;
??????????? ~arian????????? 1;
??????????? ~webbandit????? 1;
??? }?
與先前的配置類似,‘~*’將匹配以大小寫不敏感的方式匹配關鍵字,而‘~’將使用大小寫敏感的正則表達式匹配關鍵字。“default 0”行所表達的意思是,任何其它文件中未被列出的用戶代理將被允許。
接下來,打開你的網站的nginx配置文件,找到里面包含 http 的部分,然后添加以下行到 http 部分某個位置。? ?
復制代碼?代碼如下:
?? http {
??????? …..
??????? include /etc/nginx/useragent.rules
??? }?
注意,該 include 聲明必須出現在 server 部分之前(這就是為什么我們將它添加到了 http 部分里)。
現在,打開nginx配置定義你的服務器的部分,添加以下 if 聲明:
復制代碼?代碼如下:
?? server {
??????? ….
??????? if ($badagent) {
??????????? return 403;
??????? }
??????? ….
??? }??
最后,重新加載nginx。??
?$?sudo?/path/to/nginx?-s?reload
現在,任何包含有/etc/nginx/useragent.rules中列出的關鍵字的用戶代理將被nginx自動禁止。