一個(gè)純采集網(wǎng)站站長的SEO、采集、運(yùn)維經(jīng)驗(yàn)總結(jié)
對于一個(gè)純采集網(wǎng)站站長,下面的這些總結(jié),有些是關(guān)于SEO,有些是關(guān)于采集和運(yùn)維,都是很基礎(chǔ)的個(gè)人見解,僅作分享,請自辨好壞是非,實(shí)踐出真知。
原創(chuàng)內(nèi)容好還是采集內(nèi)容好?
當(dāng)然是原創(chuàng)好,因?yàn)榘俣仁沁@么說的,誰叫人家是裁判。
為什么我原創(chuàng)了很多文章,還是不被收錄?收錄了沒好的排名?
一個(gè)搜索引擎,它的核心價(jià)值是要為用戶提供他/她最需要的結(jié)果。搜索引擎是有統(tǒng)計(jì)網(wǎng)民需求的,對于網(wǎng)民需求量小或者幾乎沒有需求的內(nèi)容,即使你是原創(chuàng)也可能被搜索引擎忽略,因?yàn)樗幌肜速M(fèi)資源在無意義的內(nèi)容上。
對網(wǎng)民需求量大的內(nèi)容,收錄應(yīng)該會比較多、比較快,但是,正因?yàn)槭珍浂?,即使你是原?chuàng),也可能很難擠進(jìn)排名。
搜索引擎統(tǒng)計(jì)網(wǎng)民需求以什么來標(biāo)識?
關(guān)鍵詞。每一個(gè)人搜索一個(gè)關(guān)鍵詞時(shí),就表明他/她對這個(gè)詞相關(guān)的內(nèi)容有需求。而且,使用搜索引擎的人,通常是有問答需求、檢索查詢需求。當(dāng)然搜索引擎內(nèi)部肯定有非常龐大的分析系統(tǒng),對這些需求進(jìn)行精確的定位,詳見百度指數(shù)。比如搜索的關(guān)鍵詞是“手機(jī)”,很有可能是想要買手機(jī)或者查某款的價(jià)格,也可能只是想要下載漂亮的壁紙。但是,如果是想要壁紙,就會有更精確的關(guān)鍵詞“手機(jī)壁紙”,以下拉框或者相關(guān)搜索的形式呈現(xiàn)出來。
既然原創(chuàng)內(nèi)容好,為什么要采集?
1. 雖然原創(chuàng)好,但只要方法適當(dāng),采集的效果并不會比原創(chuàng)差多少,甚至比沒掌握到方法的那些原創(chuàng)好很多。
2. 精力有限,原創(chuàng)很難保證長期大量更新,如果請個(gè)編輯,投入產(chǎn)出比可能是負(fù)數(shù)。
市面上采集器那么多,應(yīng)該用哪個(gè)好?
每個(gè)采集器都有它的獨(dú)特之處,所謂存在即合理。請根據(jù)自己的需求來選擇即可。我的采集器是自己開發(fā)的,開發(fā)的過程中考慮了以下幾方面,使用其他采集器的也可作參考:
1. 直接提供已分類的海量關(guān)鍵詞,這些關(guān)鍵詞都是百度已經(jīng)統(tǒng)計(jì)的有網(wǎng)民需求的詞(有百度指數(shù)),或者是這些詞的長尾詞,來自百度下拉框或相關(guān)搜索。
2. 直接按關(guān)鍵詞采集,智能分析網(wǎng)頁正文進(jìn)行抓取,不需要自己寫采集規(guī)則。
3. 抓取到的正文經(jīng)過規(guī)范的標(biāo)簽清理,段落全部以
標(biāo)簽呈現(xiàn),亂碼一律去除。
4. 根據(jù)采集到的內(nèi)容自動配圖,圖片一定是與該內(nèi)容相關(guān)度非常高的。以這種方式代替?zhèn)卧瓌?chuàng),既不影響可讀性,又使文章圖文并茂,做到比原創(chuàng)所提供的信息更豐富。
5. 正文內(nèi)容中的關(guān)鍵詞自動加粗,也可自定義要插入的關(guān)鍵詞。但沒有做句子重排、段落重排等影響可讀性的所謂“偽原創(chuàng)”功能。
6. 可直接使用關(guān)鍵詞和其相關(guān)詞組合作為標(biāo)題,也可抓取目標(biāo)網(wǎng)頁標(biāo)題。
7. 可進(jìn)行微信文章采集。
8. 不用觸發(fā)或者掛機(jī)。
9. 集成百度站長平臺主動推送,加快收錄。
不同的網(wǎng)站程序,比如織夢、WordPress、dz、zblog、帝國cms或者其他,對SEO有什么影響?
理論上沒有影響。因?yàn)樗阉饕娌⒉恢滥闶鞘裁闯绦颍蛘咚梢酝ㄟ^一些規(guī)則識別出來,也不可能因?yàn)槌绦虮旧淼牟煌绊懰呐袛唷?/p>
那什么會影響SEO呢?答案是模板。因?yàn)榛旧线@些程序都有模板機(jī)制,同樣程序可以輸出不同的頁面,不同的程序也可以輸出同樣的頁面,這就是模板。模板確定之后,你的每一個(gè)頁面就按照這個(gè)框架來輸出,也就是整個(gè)html結(jié)構(gòu)已經(jīng)確定。而這些html,正是搜索引擎要重點(diǎn)關(guān)注的,它得從這些html中得到它想要的信息。因此,一套好的模板非常重要。
頁面模板設(shè)計(jì)應(yīng)該注意哪些細(xì)節(jié)?
1. 權(quán)重結(jié)構(gòu)順序。整個(gè)頁面的html中(注意是html,而不是顯示出來的版面),越靠前的位置,權(quán)重越高。由此引申出來,“title”、keyword、description三個(gè)標(biāo)簽,因?yàn)樽羁壳?,?quán)重最高。其次通常是導(dǎo)航,也是基本上是最靠上的,權(quán)重也非常高。再次就是文章標(biāo)題和正文。這是根據(jù)html的前后來排序的。
2. 因?yàn)樗阉饕媸紫纫裱璚3C標(biāo)準(zhǔn),所以,W3C定義的一些本來就是用來表示重要信息的標(biāo)簽,權(quán)重自然就高,比如,特別是h1,用來表示當(dāng)前頁面最重要的信息,一般每個(gè)頁面只能有一個(gè),其權(quán)重估計(jì)與title相當(dāng),也通常是用來放當(dāng)前頁面的標(biāo)題,當(dāng)然也有為了提高首頁權(quán)重,用h1來放置logo或首頁鏈接,都是可以的。另外還有em、strong這樣的標(biāo)簽,用來表示強(qiáng)調(diào),一般認(rèn)為strong權(quán)重高于標(biāo)簽,同樣也是加粗作用,但我們認(rèn)為從SEO的角度看是沒有權(quán)重加強(qiáng)的。
3. css或者js代碼對搜索引擎來說通常是無意義的,盡量使用單獨(dú)的文件來存放,或者在允許的情況下放到html尾部去
網(wǎng)站結(jié)構(gòu)規(guī)劃應(yīng)該注意哪些問題?
1. URL設(shè)計(jì)。URL也是可以包含關(guān)鍵詞的,比如你的網(wǎng)站是關(guān)于電腦的,你的URL中可以包含“PC”,因?yàn)樗谒阉饕嫜劾锿ǔJ恰半娔X”的同義詞。URL不要太長,層次盡量不要超過4層,這個(gè)就點(diǎn)到為止。
2. 欄目設(shè)計(jì)。欄目通常是與導(dǎo)航相關(guān)聯(lián)的,設(shè)計(jì)時(shí)應(yīng)該考慮網(wǎng)站整體的主題,用戶可能會對哪些內(nèi)容感興趣,欄目名稱最好是網(wǎng)站的幾個(gè)主關(guān)鍵詞,這樣也方便利用導(dǎo)航的權(quán)重。
3. 關(guān)鍵詞布局。理論上每一個(gè)內(nèi)容頁都應(yīng)該有它的核心關(guān)鍵詞,同一個(gè)欄目下的文章,盡可能圍繞欄目關(guān)鍵詞展開。一個(gè)簡單粗暴的辦法就是直接用欄目關(guān)鍵詞的長尾詞。
動態(tài)、偽靜態(tài)、靜態(tài),這三者哪個(gè)好?
這個(gè)不能一概而論,推薦使用偽靜態(tài)或靜態(tài)。這三者的區(qū)別,是是否生成靜態(tài)文件,以及URL格式是否動態(tài)。生成靜態(tài)文件,本質(zhì)上是為了加快訪問速度,減少數(shù)據(jù)庫查詢,但會不斷增加占用空間;偽靜態(tài)只是通過URL重寫修改URL,實(shí)際上還是每次都要經(jīng)過程序運(yùn)算、查詢數(shù)據(jù)庫再輸出頁面,對加快訪問速度完全無效。動態(tài)與偽靜態(tài)的差異只在于URL,帶問號加參數(shù)。
所以關(guān)注兩個(gè)點(diǎn)就好:網(wǎng)站打開速度是否夠快?你是否需要節(jié)約服務(wù)器空間?
不同的網(wǎng)站程序,數(shù)據(jù)庫操作的效率可能不同。一般來講,內(nèi)容頁數(shù)量在1萬以內(nèi)的,頁面打開速度都是比較快的,數(shù)據(jù)量更大一些,達(dá)到5萬、十萬甚至更多,通常就要考慮靜態(tài)化了。
有哪些途徑改善訪問速度?
1. 上面已經(jīng)說到的靜態(tài)化。
2. 通常很多網(wǎng)站模板中都有隨機(jī)調(diào)用文章或者類似的版塊,事實(shí)上對數(shù)據(jù)庫來說,隨機(jī)是一項(xiàng)比較重的負(fù)擔(dān),在模板中應(yīng)該盡量減少隨機(jī)文章的調(diào)用。如果不可避免,可以考慮從數(shù)據(jù)庫上優(yōu)化,對有索引的字段排序通常比沒有索引要快很多。
3. 將圖片、js、css等不經(jīng)常修改的文件,放到專用的靜態(tài)服務(wù)器上,多個(gè)js、或者多個(gè)css能合并的盡量合并到一個(gè)文件,減少http連接次數(shù)。
4. 使用各類云加速產(chǎn)品。對普通網(wǎng)站來說,免費(fèi)的百度云加速或者360的云加速都還可以。
文章比較多,網(wǎng)站已經(jīng)開啟靜態(tài),但是每次全站更新都要花很長時(shí)間怎么辦?
我的做法是使用緩存機(jī)制,這里只提供一個(gè)思路,可能需要自己二次開發(fā)。
網(wǎng)站設(shè)定為偽靜態(tài),每一個(gè)請求到達(dá)時(shí),程序檢查是否存在對應(yīng)的緩存html文件,如果該文件的生成時(shí)間是多少小時(shí)或幾天以前,我們判定它需要更新,這時(shí)候執(zhí)行正常流程,程序查詢數(shù)據(jù)庫,生成html后,寫入到緩存文件,再輸出到客戶端。
當(dāng)下一次訪問到達(dá)時(shí),比如1分鐘以后又來一個(gè)訪問相同頁面,再次檢查緩存文件時(shí)間。從時(shí)間上可以判斷文件非常新,完全不用更新,則直接讀取文件內(nèi)容輸出到客戶端。這樣每個(gè)頁面都可以實(shí)現(xiàn)自動生成,也只有第一個(gè)訪客會感受到速度慢,后面的訪客訪問時(shí)都相當(dāng)于是靜態(tài)訪問,速度是非常快的。
如果是獨(dú)立服務(wù)器,還可以考慮自動檢測服務(wù)器負(fù)載,如果負(fù)載本來就高,那就算判斷出來需要更新,也暫時(shí)不更新,改為直接輸出。
圖片是引用遠(yuǎn)程網(wǎng)址好還是放在自己服務(wù)器好?
這個(gè)也是各有優(yōu)劣。引用遠(yuǎn)程網(wǎng)址,可以節(jié)約自己的帶寬,但很可能會因?yàn)閷Ψ椒?wù)器緩慢、或刪除資源、或防盜鏈,圖片無法顯示。如果下載到自己服務(wù)器,當(dāng)然一切都自己掌控,但是圖片會非常占用空間,總體上可能比生成靜態(tài)所占的空間更大,而且如果訪問量大,圖片是最吃帶寬的。
網(wǎng)站內(nèi)鏈應(yīng)該怎樣優(yōu)化?
內(nèi)鏈?zhǔn)前俣裙俜酵扑]的優(yōu)化手段之一,所以這是一定要做的。通常表現(xiàn)的形式是正文中出現(xiàn)某個(gè)關(guān)鍵詞,給這個(gè)關(guān)鍵詞加上一個(gè)鏈接,指向另一個(gè)正好是這個(gè)關(guān)鍵詞相關(guān)內(nèi)容的頁面。因此就誕生了一些所謂的優(yōu)化手法,強(qiáng)行在正文中插入一些關(guān)鍵詞和鏈接,以此進(jìn)行類似互推的操作。還有的為了提高首頁權(quán)重,到處都放上網(wǎng)站名稱,并做上首頁鏈接,以為這樣可以提高目標(biāo)頁面的權(quán)重。但是這些很可能都是適得其反,因?yàn)樗阉饕鏁y(tǒng)計(jì)每個(gè)鏈接的點(diǎn)擊率。如果放在醒目位置點(diǎn)擊卻很少的鏈接,有可能會判斷為作弊。所以,請只在正文中本來就有的關(guān)鍵詞上做內(nèi)鏈,就可以了。
段落重排、句子重排、同義詞替換這些偽原創(chuàng)手法到底好不好?
不好。因?yàn)樗阉饕嬉呀?jīng)智能,已經(jīng)不是簡單的數(shù)據(jù)庫檢索,它會自然語義分析(詳情請搜索“NLP”),凡是語義解析比較困難的句子或者段落,它是可以判斷為可讀性差的,所以我認(rèn)為這些“偽原創(chuàng)”可能是自作聰明。
評論模塊基本上沒有人用,該要還是不要?
要。評論模塊最頭疼是事情是垃圾評論,通常真正發(fā)言的訪客很少,垃圾評論一大堆,整天和營銷軟件斗智斗勇。這里提供一個(gè)我已經(jīng)實(shí)現(xiàn)的方案,對收錄可能有一定幫助(沒有依據(jù)的,只是猜測):
保留評論框、但禁止評論。所有評論由自己的網(wǎng)站程序生成。前面提到搜索引擎會自然語義分析,其中有一項(xiàng)重要的能力,就是情感判斷。搜索引擎會計(jì)算每條評論的情感值,是positive(積極)還是negative(消極),具體傾向是10%還是90%。如果評論內(nèi)容表達(dá)的是積極情感,則可以給你的正文加分,反之則減分。至于怎樣自動生成積極的評論,就八仙過海各顯神通吧。
這是在網(wǎng)絡(luò)社交發(fā)展起來后的必然趨勢,用這種方式來反映一個(gè)頁面的用戶體驗(yàn)度。同理還有分享、點(diǎn)贊等,原理類似。
綠蘿卜算法之后,外鏈到底還有沒有用?
有用。參見搜索引擎三定律之相關(guān)性定律。既然是定律,就不會改變。誰的內(nèi)容被引用得多,誰就是權(quán)威。在主動推送出現(xiàn)之前,外鏈應(yīng)該算是蜘蛛認(rèn)識一個(gè)頁面內(nèi)容的第一渠道。
外鏈一定要錨文本或者裸鏈嗎?
不是。搜索引擎肩負(fù)重任,要努力發(fā)現(xiàn)真正有價(jià)值的東西,排除那些沒價(jià)值的東西。所以有可能你直接提交的鏈接沒收錄,在別人地方隨便發(fā)個(gè)純文本網(wǎng)址,被它發(fā)現(xiàn)了,還計(jì)算了加分。
除了錨文本和裸鏈,還可以用關(guān)鍵詞+網(wǎng)址的形式發(fā)純文本。這樣在網(wǎng)址前面的那個(gè)關(guān)鍵詞是會自動與該網(wǎng)址關(guān)聯(lián)的。
還有,有些鏈接雖然加了nofollow屬性,但是在百度計(jì)算外鏈的時(shí)候,還是會計(jì)算的。
收錄和索引到底什么關(guān)系?
收錄表示蜘蛛來抓取過、分析過。索引表示蜘蛛分析之后,認(rèn)為內(nèi)容有一定價(jià)值。只有進(jìn)入索引的內(nèi)容才有可能出現(xiàn)在搜索結(jié)果中,展現(xiàn)給用戶。也就是說只有索引的內(nèi)容才有機(jī)會帶來流量。