網(wǎng)站索引是什么?與收錄有什么區(qū)別?
頁面不要被抓取一般在這種情況下使用:對于一個特定的網(wǎng)站,搜索引擎抓取網(wǎng)站的時長基本是固定的,所以我們應(yīng)該把抓取時間用在核心頁面上。
對于一些大網(wǎng)站,這一點尤其重要,由于網(wǎng)站太大,如果把抓取時間都放在一些過濾頁面上,很容易一組合就幾百萬幾千萬個頁面了,搜索引擎沒有機會也沒有時間再去訪問你想要被訪問的頁面。所以有的時候,你可能希望搜索引擎不要抓某些頁面。那么,那些你不想讓抓的頁面的鏈接盡量不要在網(wǎng)站上出現(xiàn)。你可以用Java去隱藏,或者加nofollow,或者用robots文件禁止搜索引擎去抓這些文件。
另外一種情況是,你可以讓搜索引擎抓,但是不想讓搜索引擎索引,“索引”也就是把這個頁面的信息放在它的數(shù)據(jù)庫當(dāng)中。有的時候,這兩個,不讓抓取和不讓索引是相反的過程,比如說剛才講的上面提到的過濾頁面。有的時候,其實如果你的網(wǎng)站沒有那么大,你的抓取時間還沒有達到搜索引擎分配給你的上限,那可以讓這些頁面抓取,但是你不想被收錄,因為這些頁面往往都是重復(fù)內(nèi)容,因為它無非就是換個搜索條件,換個篩選條件,重排了一遍,產(chǎn)品還是一樣,所以經(jīng)常是大量的重復(fù)內(nèi)容。如果這種重復(fù)頁面多了的話,搜索引擎有可能認(rèn)為這個網(wǎng)站是不是有什么問題,或者總體質(zhì)量不太高。那么你可以讓搜索引擎不去索引這些頁面。你要用頁面頭上的no index標(biāo)簽,放上no index以后,這些頁面就不會被放到索引庫里。所以在搜索這些頁面的時候,是沒有結(jié)果的。但這些頁面其實是被抓取過的,因為如果沒有被抓取的,搜進去根本看不見no index這個標(biāo)簽,但是你不想讓它被收錄。所以“抓取”和“索引”是兩種不同的情況,處理的時候也要用不同的方法。你需要根據(jù)網(wǎng)站的具體情況確定使用哪種技術(shù)方法去實現(xiàn)。
本文來源于互聯(lián)網(wǎng),如有疑問請及時聯(lián)系站長資源平臺官方客服,謝謝!