一站式百度SEO排名優化!-找老劉SEO 低投入,高轉化,精益求精、一絲不茍:旨在提供更好的SEO服務!

首頁>>老劉專欄

Unknown robot是什么蜘蛛?怎么屏蔽垃圾蜘蛛爬蟲,屏蔽ip段?

首頁 2022-10-31 老劉專欄 88 ℃Tags:


Unknown robot (identified by 'spider')是什么蜘蛛?

一般的蜘蛛都會在后臺控制面板中顯示名字,例如baidu,google,yahoo,alexa等等,但是如果你用的虛擬主機是cpanel的控制面板,那么發現Unknown robot (identified by 'spider')這個蜘蛛消耗很大的網站流量,那么可以推測這個是百度蜘蛛,因為cpanel的控制面板默認是不識別百度蜘蛛的,所以就會顯示為Unknown robot (identified by 'spider')。而且通過robots.txt是無法禁止這個蜘蛛抓取網站內容的——這些垃圾爬蟲不可能老老實實遵守robots規則,君不見新浪和字節前段時間還因為robots.txt打了官司,大廠都如此,其他爬蟲更別指望。

image.png

寶塔屏蔽常見垃圾蜘蛛和掃描工具的兩種辦法:最近觀察網站后臺網站蜘蛛爬取狀況,除了我們常見的搜索引擎如百度、Google、Sogou、360等搜索引擎蜘蛛之外,還發現有很多垃圾的蜘蛛平繁的爬取本站,通常這些搜索引擎不僅不會帶來流量,因為大量的抓取請求,還會造成主機的CPU和帶寬資源浪費,屏蔽方法也很簡單,按照下面步驟操作即可,原理就是分析指定UA然后屏蔽。

下面給大家帶來兩種屏蔽垃圾蜘蛛的方法

方法一 通過網站Robots.txt來屏蔽

User-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /

JavaScript

把以上代碼復制到網站robots.txt里面


方法二、通過寶塔面板配置文件判斷來屏蔽垃圾蜘蛛和掃描工具

1.首先進入寶塔面板,文件管理進入/www/server/nginx/conf目錄,新建空白文件kill_bot.conf。然后將以下代碼保存到當前文件中。

#禁止垃圾搜索引擎蜘蛛抓取教程來自癡癡資源網 https://www.chichisvip.com/

if ($http_user_agent ~* "CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms") {
 return 403;
 break;
}
#禁止掃描工具客戶端
if ($http_user_agent ~* "crawl|curb|git|Wtrace|Scrapy" ) {
 return 403;
 break;
}

2.保存后返回到寶塔 – 【網站】-【設置】點擊左側 【配置文件】選項卡,在 “#SSL-START SSL相關配置,請勿刪除或修改下一行帶注釋的404規則” 上方空白行插入紅色字體的代碼:“include kill_bot.conf; ” 保存后即可生效,這樣這些蜘蛛或工具掃描網站的時候就會提示403禁止訪問。

希望這個教程能幫助到大家,謝謝支持!

實測下面的屏蔽ip段,效果更好!

使用Nginx文件屏蔽IP地址

如果您的網站在增強版云虛擬主機(Nginx)上運行,請按照本操作配置網站的指定訪問權限,屏蔽不允許的IP地址訪問。

  1. 登錄云虛擬主機管理頁面。

  2. 找到待配置Nginx文件的增強版云虛擬主機,單擊對應操作列的管理。

  3. 在左側導航欄,選擇高級環境設置 > NGINX設置。

  4. NGINX設置頁面的編輯區域,輸入您的配置Nginx文件內容(IP地址屏蔽規則)。

    以WordPress網站配置Nginx文件為例。

    各場景下IP地址屏蔽的生效規則示例如下所示:

    • 禁止單個IP地址訪問

      location / {
          deny 192.168.13.0;
      }
    • 禁止多個指定IP地址訪問

      location / {
          deny 192.168.13.0;
          deny 192.168.13.1;
          deny 10.1.5.0;
      }
    • 禁止多個不指定IP地址訪問

      location / {
          allow 192.168.13.0;
          allow 10.1.5.0;
          deny all;
      }
    • 禁止IP地址段訪問

      location / {
          deny 192.168.13.0/24;
      }

      說明 使用掩碼方式配置IP地址段權限時,請您使用網段中最小地址/掩碼方式,否則會出現配置錯誤提示:更新nginx設置失?。簄ginx: [warn] low address bits of **** are meaningless。

  5. Nginx文件編輯完成后,單擊保存設置。

    完成IP屏蔽規則的配置后,如果這些屏蔽的IP再次訪問您的WordPress網站,網頁會返回403錯誤,表示您無訪問權限。

使用.htaccess文件屏蔽IP地址

如果您的網站在普通版Linux操作系統云虛擬主機(Apache)上運行,請按照本方法配置網站的指定訪問權限,屏蔽不允許的IP地址訪問。

  1. 登錄云虛擬主機管理頁面。

  2. 找到待管理網站文件的Linux操作系統云虛擬主機,單擊對應操作列的管理。

  3. 在左側導航欄,選擇文件管理 > 文件管理器。

  4. 文件管理器頁面,上傳網站程序文件到Linux操作系統云虛擬主機。

    關于上傳網站程序文件到云虛擬主機的站點根目錄的具體操作,請參見使用文件管理器管理文件。

    說明 如果您使用FTP工具管理云虛擬主機上的網站文件,具體操作,請參見上傳網站文件到Linux操作系統云虛擬主機。

  5. 在Linux操作系統云虛擬主機的/htdocs目錄下,找到需要查看或修改的.htaccess文件,單擊對應操作列的查看。

    說明 如果您使用FTP客戶端查看或修改.htaccess文件,該文件一般為隱藏文件,關于如何顯示隱藏文件的具體操作,請參見如何顯示FTP隱藏的文件。通過FTP客戶端連接云虛擬主機后,您可以在遠程站點區域通過下載、編輯和上傳操作來完成.htaccess文件的修改。

  6. 在彈出的文件查看/編輯頁面的編輯區域,輸入您的.htaccess文件內容(IP地址屏蔽規則)。

    以WordPress網站配置.htaccess文件為例。

    各場景下IP地址屏蔽的生效規則示例如下所示:

    • 禁止單個IP地址訪問

      Order Allow,Deny
      Allow from allDeny from 192.0.2.0
    • 禁止多個指定IP地址訪問

      Order Allow,Deny
      Allow from allDeny from 192.0.2.1 192.0.2.0

      或者

      Order Deny,Allow
      Deny from 192.0.2.1 192.0.2.0
    • 禁止多個不指定IP地址訪問

      Order Deny,Allow
      Deny from allAllow from 192.0.2.1 192.0.2.0
    • 禁止IP地址段訪問

      Order Allow,Deny
      Allow from allDeny from 192.168.13.0/24
  7. .htaccess文件編輯完成后,單擊確認。

    完成IP屏蔽規則的配置后,如果這些屏蔽的IP再次訪問您的WordPress網站,網頁會返回403錯誤,表示無訪問權限。


搜索
分類
熱門標簽
  • 首頁
  • 電話
  • QQ
  • ?
    聯系老劉手機
    1043025812
    聯系老劉微信
    掃描微信二維碼
    超碰97国产女人让你爽|欧美大码情趣内肥模展示|三级三级久久三级久久|国内精品久久国产大陆|543ev首页国产婷婷