首頁>>老劉專欄
Unknown robot (identified by 'spider')是什么蜘蛛?
一般的蜘蛛都會在后臺控制面板中顯示名字,例如baidu,google,yahoo,alexa等等,但是如果你用的虛擬主機是cpanel的控制面板,那么發現Unknown robot (identified by 'spider')這個蜘蛛消耗很大的網站流量,那么可以推測這個是百度蜘蛛,因為cpanel的控制面板默認是不識別百度蜘蛛的,所以就會顯示為Unknown robot (identified by 'spider')。而且通過robots.txt是無法禁止這個蜘蛛抓取網站內容的——這些垃圾爬蟲不可能老老實實遵守robots規則,君不見新浪和字節前段時間還因為robots.txt打了官司,大廠都如此,其他爬蟲更別指望。
寶塔屏蔽常見垃圾蜘蛛和掃描工具的兩種辦法:最近觀察網站后臺網站蜘蛛爬取狀況,除了我們常見的搜索引擎如百度、Google、Sogou、360等搜索引擎蜘蛛之外,還發現有很多垃圾的蜘蛛平繁的爬取本站,通常這些搜索引擎不僅不會帶來流量,因為大量的抓取請求,還會造成主機的CPU和帶寬資源浪費,屏蔽方法也很簡單,按照下面步驟操作即可,原理就是分析指定UA然后屏蔽。
下面給大家帶來兩種屏蔽垃圾蜘蛛的方法
方法一 通過網站Robots.txt來屏蔽
User-agent: AhrefsBot Disallow: / User-agent: DotBot Disallow: / User-agent: SemrushBot Disallow: / User-agent: Uptimebot Disallow: / User-agent: MJ12bot Disallow: / User-agent: MegaIndex.ru Disallow: / User-agent: ZoominfoBot Disallow: / User-agent: Mail.Ru Disallow: / User-agent: SeznamBot Disallow: / User-agent: BLEXBot Disallow: / User-agent: ExtLinksBot Disallow: / User-agent: aiHitBot Disallow: / User-agent: Researchscan Disallow: / User-agent: DnyzBot Disallow: / User-agent: spbot Disallow: / User-agent: YandexBot Disallow: /
JavaScript
把以上代碼復制到網站robots.txt里面
方法二、通過寶塔面板配置文件判斷來屏蔽垃圾蜘蛛和掃描工具
1.首先進入寶塔面板,文件管理進入/www/server/nginx/conf目錄,新建空白文件kill_bot.conf。然后將以下代碼保存到當前文件中。
#禁止垃圾搜索引擎蜘蛛抓取教程來自癡癡資源網 https://www.chichisvip.com/
if ($http_user_agent ~* "CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms") { return 403; break; } #禁止掃描工具客戶端 if ($http_user_agent ~* "crawl|curb|git|Wtrace|Scrapy" ) { return 403; break; }
2.保存后返回到寶塔 – 【網站】-【設置】點擊左側 【配置文件】選項卡,在 “#SSL-START SSL相關配置,請勿刪除或修改下一行帶注釋的404規則” 上方空白行插入紅色字體的代碼:“include kill_bot.conf; ” 保存后即可生效,這樣這些蜘蛛或工具掃描網站的時候就會提示403禁止訪問。
希望這個教程能幫助到大家,謝謝支持!
實測下面的屏蔽ip段,效果更好!
使用Nginx文件屏蔽IP地址
如果您的網站在增強版云虛擬主機(Nginx)上運行,請按照本操作配置網站的指定訪問權限,屏蔽不允許的IP地址訪問。
登錄云虛擬主機管理頁面。
找到待配置Nginx文件的增強版云虛擬主機,單擊對應操作列的管理。
在左側導航欄,選擇 。
在NGINX設置頁面的編輯區域,輸入您的配置Nginx文件內容(IP地址屏蔽規則)。
以WordPress網站配置Nginx文件為例。
各場景下IP地址屏蔽的生效規則示例如下所示:
禁止單個IP地址訪問
location / { deny 192.168.13.0; }
禁止多個指定IP地址訪問
location / { deny 192.168.13.0; deny 192.168.13.1; deny 10.1.5.0; }
禁止多個不指定IP地址訪問
location / { allow 192.168.13.0; allow 10.1.5.0; deny all; }
禁止IP地址段訪問
location / { deny 192.168.13.0/24; }
說明 使用掩碼方式配置IP地址段權限時,請您使用網段中最小地址/掩碼方式,否則會出現配置錯誤提示:更新nginx設置失?。簄ginx: [warn] low address bits of **** are meaningless。
Nginx文件編輯完成后,單擊保存設置。
完成IP屏蔽規則的配置后,如果這些屏蔽的IP再次訪問您的WordPress網站,網頁會返回403錯誤,表示您無訪問權限。
使用.htaccess文件屏蔽IP地址
如果您的網站在普通版Linux操作系統云虛擬主機(Apache)上運行,請按照本方法配置網站的指定訪問權限,屏蔽不允許的IP地址訪問。
登錄云虛擬主機管理頁面。
找到待管理網站文件的Linux操作系統云虛擬主機,單擊對應操作列的管理。
在左側導航欄,選擇 。
在文件管理器頁面,上傳網站程序文件到Linux操作系統云虛擬主機。
關于上傳網站程序文件到云虛擬主機的站點根目錄的具體操作,請參見使用文件管理器管理文件。
說明 如果您使用FTP工具管理云虛擬主機上的網站文件,具體操作,請參見上傳網站文件到Linux操作系統云虛擬主機。
在Linux操作系統云虛擬主機的/htdocs目錄下,找到需要查看或修改的.htaccess文件,單擊對應操作列的查看。
說明 如果您使用FTP客戶端查看或修改.htaccess文件,該文件一般為隱藏文件,關于如何顯示隱藏文件的具體操作,請參見如何顯示FTP隱藏的文件。通過FTP客戶端連接云虛擬主機后,您可以在遠程站點區域通過下載、編輯和上傳操作來完成.htaccess文件的修改。
在彈出的文件查看/編輯頁面的編輯區域,輸入您的.htaccess文件內容(IP地址屏蔽規則)。
以WordPress網站配置.htaccess文件為例。
各場景下IP地址屏蔽的生效規則示例如下所示:
禁止單個IP地址訪問
Order Allow,Deny Allow from allDeny from 192.0.2.0
禁止多個指定IP地址訪問
Order Allow,Deny Allow from allDeny from 192.0.2.1 192.0.2.0
或者
Order Deny,Allow Deny from 192.0.2.1 192.0.2.0
禁止多個不指定IP地址訪問
Order Deny,Allow Deny from allAllow from 192.0.2.1 192.0.2.0
禁止IP地址段訪問
Order Allow,Deny Allow from allDeny from 192.168.13.0/24
.htaccess文件編輯完成后,單擊確認。
完成IP屏蔽規則的配置后,如果這些屏蔽的IP再次訪問您的WordPress網站,網頁會返回403錯誤,表示無訪問權限。
猜你喜歡
- 2022-11-10 【官方文檔】百度搜索網站被黑防范指南
- 2022-11-03 【干貨必備】百度搜索優質內容指南
- 2022-08-01 百度隱藏“快照”功能:原因未知-百度快照沒了?
- 2022-06-20 淺析“百度搜索基礎信息設置規范”!
- 2022-06-15 SEO尷尬,有排名,沒流量,沒咨詢,怎么辦?
- 2022-05-16 IE瀏覽器宣布6月16日退役 Edge瀏覽器將接棒
- 搜索
-
- 2022-12-10 SEM精細化運營:從展現到轉化的40個提···
- 2022-12-01 網站頁面黑白色濾鏡效果實現技巧
- 2022-11-26 優化 CSS 代碼的12個小技巧
- 2022-11-22 百度競價,簡單的創意也能收獲滿滿的點擊量···
- 2022-11-17 全中國一共有多少IP地址?
- 2022-11-10 【官方文檔】百度搜索網站被黑防范指南
- 2022-11-10 PbootCMS 默認Sqlite數據庫···
- 2022-11-03 【干貨必備】百度搜索優質內容指南
- 2022-11-03 SEM投放前,需要做哪些準備?
- 2022-11-02 淺談代運營服務的商業模式
- 2022-11-01 SQlite刪除數據后DB大小無改變解決···
- 2022-11-01 在寶塔面板通過偽靜態屏蔽垃圾蜘蛛的方法
- 2019-11-01 Origin DNS error:使用百···
- 2020-12-01 一級域名好還是二級域名好?
- 2020-10-13 百度抓取診斷工具一直抓取失敗怎么辦?
- 2020-06-20 “401 - 未授權: 由于憑據無效,訪···
- 2019-12-09 域名解析后,網站返回狀態碼511應對方法
- 2021-01-06 百度移動端的搜索結果上線“踩頂”功能,對···
- 2020-09-03 element.style樣式的修改
- 2019-08-12 網站出現“403,服務器上文件或目錄拒絕···
- 2019-11-06 正確打開.db數據庫文件的兩種方式,避免···
- 2020-10-20 UC神馬搜索怎么做快速排名優化
- 2020-04-10 百度下拉框怎么刷?刷百度下拉框軟件原理及···
- 2020-09-27 css3實現一個div設置多張背景圖片
- 2019-07-07 逆向思考提高網站推廣的轉化率,以同樣的成···
- 2021-10-19 搜狗終入騰訊懷抱,究竟有哪些影響?
- 2020-12-02 SEO進階之正則表達式
- 2021-03-25 如何挑選老域名,推動企業新站SEO優化?
- 2019-04-17 織夢后臺密碼忘記了怎么辦
- 2019-03-10 手機網站排名怎么做?移動端優化的幾個要點
- 2019-10-15 網頁原創度和內容質量度之間有什么關系?
- 2021-01-04 SEO未來的重點是戰略還是技術?
- 2020-02-02 這么苦逼的SEO工作,不要再進坑啦!
- 2019-02-12 移動端網站seo排名如何做?
- 2021-02-24 博客評論,刪除與增加,對SEO排名有啥影···
- 2022-04-14 2021年百度搜索違規行為整頓報告
- 熱門標簽
-
- 401錯誤
- 401未授權
- 語義效應
- 話術技巧
- tab切換
- 選項卡滑動切換
- 百度
- 谷歌
- pagerank算法
- 算法原理
- 達克效應
- 認知局限
- 交流分享
- webp轉GIF
- webp格式轉GIF動圖
- webp to gif
- 百度快排
- 快速排名
- SEO快排
- 錨定效應
- 萬詞霸屏
- SEO優化
- 按天計費系統
- 搜索推廣模式對比
- 合肥seo
- seo公司
- 合肥優化公司
- 選擇seo公司
- SEO優化師
- seo工資
- 互聯網黑話
- 2019it黑話
- SEO快速排名
- 百度熊掌號
- 灰色樣式
- 網站被k
- 收錄消失
- FTP
- ftp隱藏文件
- 百度公告
- seo外包
- 外包公司
- seo職業發展
- 在家辦公
- seo前景
- seo發展
- 2019冬至
- 冬至
- seo計費系統
- 網頁劫持
- 頭條權重
- 私域流量
- spider爬蟲
- 中文搜索
- 頭條搜索
- 中文搜索引擎起源和發展
- 企業主
- 偽靜態
- 純靜態
- seo友好度
- 網站改版
- seo部署
- seo專家
- seo思維塑造
- seoer
- 提升seo價值
- seo策略
- seo平衡
- seo和可訪問性
- seo誤區
- seo高手
- seo套路
- 百度小程序
- 小程序
- 百度算法
- 算法更新
- 網站排名波動
- 網站懲罰
- 屏蔽右鍵
- 禁止右鍵
- 禁止查看源代碼
- 360算法
- 后羿算法
- 301重定向
- 首選域名
- 301跳轉
- 友情鏈接
- 被懲罰鏈接
- 黑帽SEO
- 刷快排
- seo改版
- 網站改版周期
- seo顧問
- 改版后SEO
- SEO
- SEO實踐
- 重復內容
- 重復頁面
- 內啡肽