robots.txt協議是一種網站用來指示網路爬蟲(如搜尋引擎機器人)哪些頁面可以爬取、哪些禁止訪問的標準協議。它通過在網站根目錄放置一個名為「robots.txt」的純文字文件,控制爬蟲的爬取行為,幫助網站控制流量和保護私有內容,同時優化搜尋引擎的爬取效率。
robots.txt的主要功能
- 限制爬蟲訪問特定頁面或目錄:通過指定「Disallow」規則阻止爬蟲爬取不希望公開的資源(如管理後台、重複內容頁等)。
- 允許爬蟲訪問特定頁面或目錄:可用「Allow」規則明確指定允許爬取的路徑。
- 指定站點地圖位置:可通過「Sitemap」告知爬蟲站點地圖文件的位置,幫助爬蟲更有效地索引網站。
- User-agent:目標爬蟲名稱(如Googlebot),用「*」表示所有爬蟲。
- Disallow:禁止訪問的路徑。
- Allow:允許訪問的路徑。
- Sitemap:網站地圖URL。
注意事項
- robots.txt是告訴爬蟲如何爬取的「協議」,不是強制執行,部分爬蟲可能忽略;
- 它不能用來防止頁面被索引或顯示,若要防止索引須用noindex標籤;
- 文件必須放在網站根目錄,地址為 https://網站域名/robots.txt。
作用
- 防止伺服器因爬蟲高流量過載,
- 管理網站資源的曝光與隱私,
- 提高搜尋引擎優化(SEO)效率。
簡言之,robots.txt協議是一種網站與爬蟲之間的溝通協議,用於指導爬蟲的抓取行為,保障網站資源安全及搜索引擎爬取效率的核心工具。