新手SEO站長(zhǎng)可能很少了解robots.txt文件,因?yàn)檫@個(gè)文件通常寫好之后基本是不會(huì)再修改了的。當(dāng)然,除非某天你不想蜘蛛抓取你的網(wǎng)站了,或者網(wǎng)站有私密文件禁止公開,這個(gè)時(shí)候就可以通過修改robots.txt文件的語(yǔ)法了,具體的語(yǔ)法這里就不闡述了。
雖然robots.txt在日常SEO工作中很少觸碰,但它存在的意義卻是非常大的。Robots的作用已經(jīng)不在局限于網(wǎng)頁(yè)的隱私了,還在于頁(yè)面某些路徑的清理,如刪除死鏈非常管用。下面隨尹華峰SEO技術(shù)博客來全面認(rèn)清真正的robots.txt文件。
一、什么是robots.txt文件?
robots.txt它是一個(gè)文本的文件,是一種存放于網(wǎng)站根目錄下的文本文件,它通常會(huì)告訴搜索引擎的抓取程序(又稱網(wǎng)絡(luò)爬蟲或蜘蛛),這個(gè)網(wǎng)站中有哪些內(nèi)容不應(yīng)該被搜索引擎的抓取程序獲取的,又有哪些是可以被抓取程序獲取的。
robots.txt這個(gè)robots必須是要小寫的,這是跟網(wǎng)絡(luò)蜘蛛建立的一個(gè)協(xié)議,網(wǎng)絡(luò)蜘蛛來你的網(wǎng)站的時(shí)候第一會(huì)去看的就是你網(wǎng)站根目錄的robots.txt協(xié)議文件,它會(huì)根據(jù)你的規(guī)定來進(jìn)行抓取,但是有些傲嬌的網(wǎng)絡(luò)蜘蛛它不遵循規(guī)則,一般網(wǎng)絡(luò)蜘蛛都會(huì)會(huì)遵循的,要是你網(wǎng)站根目錄沒有這個(gè)文件的話網(wǎng)絡(luò)蜘蛛就會(huì)沿著我們網(wǎng)站上面的鏈接一個(gè)一個(gè)進(jìn)行抓取。
二、robots.txt的作用有哪些?
(1)它可以引導(dǎo)搜索引擎的蜘蛛抓取指定的欄目或者是內(nèi)容。相當(dāng)于你去一個(gè)陌生的城市,有人給你帶路一樣。
(2)當(dāng)我們網(wǎng)站改版或者是URL重寫優(yōu)化時(shí)屏蔽不好的鏈接。不到萬(wàn)不得已千萬(wàn)不要進(jìn)行網(wǎng)站改版,這個(gè)對(duì)網(wǎng)站傷害很大的,會(huì)引起降權(quán)或者是排名收錄全掉。
(3)可以屏蔽死鏈接和404錯(cuò)誤頁(yè)面。隨著網(wǎng)站壯大,死鏈接和404錯(cuò)誤頁(yè)面是在所難免的。
(4)屏蔽那些無內(nèi)容和無價(jià)值的頁(yè)面。
(5)屏蔽重復(fù)頁(yè)面,比如說評(píng)論頁(yè)、搜索結(jié)果頁(yè)。
(6)屏蔽任何不想被收錄的頁(yè)面。
(7)引導(dǎo)蜘蛛來抓取網(wǎng)站地圖。讓蜘蛛更快速來爬取我們網(wǎng)站的鏈接。
總結(jié):因?yàn)閞obots.txt文件是網(wǎng)站跟蜘蛛的一個(gè)協(xié)議,蜘蛛來抓取網(wǎng)站時(shí)必然先(理論上)遵守協(xié)議。所以很多網(wǎng)站robots.txt文件就出現(xiàn)了一種情況,那就是把網(wǎng)站地圖sitemap放進(jìn)去,如峰峰的博客也不例外哦,這樣自然是為了吸引蜘蛛快速抓取網(wǎng)站鏈接,便于收錄。還有就是查詢別的網(wǎng)站robots.txt文件時(shí),可直接在域名后面加一個(gè)robots.txt即可一覽無遺。