搜索引擎使用spider程序自動訪問互聯網上的網頁并獲取網頁信息。spider在訪問一個網站時,會首先會檢查該網站的根域下是否有一個叫做robots.txt的純文本文件,這個文件用于指定spider在您網站上的抓取范圍。您可以在您的網站中創建一個robots.txt,在文件中聲明該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。
請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。
第一,Robots.txt文件大大節省服務器寬帶
我們都知道像emailretrievers、imagestrippers這類搜索引擎都耗用大量寬帶,而且對網站沒有什么太大的意義,而通過Robots.txt就可以制止不必要的爬行工作,如果你的網站是圖片站的話,沒有設置好Robots.txt文件的話,就會浪費大量的服務器寬帶。
第二、方便搜索引擎爬起工作
如果你的網站內容豐富,頁面很多,設置Robots.txt文件更為重要,比如你有個網站,整個站有50多個G,打開頁面可能會比較慢,如果不配置好Robots.txt文件的話,蜘蛛爬行工作就會很費力,而且如果太多的蜘蛛爬行,以至會影響你網站的正常訪問。
第三、robots.txt文件可以制止搜索引擎索引頁面
你可以通過RobotS.txt文件對你的網站非公開頁面進行制止蜘蛛爬行,如果你的網站后臺程序、管理程序很重要不想讓別人看到、那么你可以通過Robots.txt進行設置,事實上,對于某些在運行中產生臨時頁面的網站來說,如果沒有配置Robots.txt文件的話,搜索引擎甚至會索引那些臨時文件。
第四、robots.txt對網站地圖鏈接重要性
如果我們把自己的網站地圖鏈接放在robots.txt文件里,那么我們每天就不用到各個搜索引擎的站長工具或者相似的站長部分去提交自己的sitemap文件,各大搜索引擎都發布了對網站地圖的新的支持方式,就是在robots.txt文件里直接包括sitemap文件的鏈接。目前對此表示支持的搜索引擎公司有Google,Yahoo,而中文搜索引擎公司,顯然不在這個圈子內。