網(wǎng)站推廣內(nèi)容推薦體系如何構(gòu)建?
所謂的“內(nèi)容推薦”,把主語謂語賓語補(bǔ)充完整之后就是“系統(tǒng)把內(nèi)容推薦給用戶”,那推薦系統(tǒng)如何構(gòu)建,說白了就是要解決“什么樣的內(nèi)容推薦給什么樣的用戶”的問題以及“如何推”的問題。那么,網(wǎng)站推廣內(nèi)容推薦體系如何構(gòu)建?
針對引文中的兩個問題,可以總結(jié)為以下三個點(diǎn)
我們推什么樣的內(nèi)容——what我們推給什么樣的用戶——who內(nèi)容如何推薦給用戶——how一、內(nèi)容篇
說到內(nèi)容,先不著急解決“推什么”的問題,在這之前,我們首先要分析我們擁有什么內(nèi)容,這些內(nèi)容是如何產(chǎn)生的。
目前互聯(lián)網(wǎng)內(nèi)容信息的載體主要分為以下幾種:文字、圖片、音頻、視頻。而生產(chǎn)這些內(nèi)容的用戶大體又可分為兩種,一種是專業(yè)從事內(nèi)容生產(chǎn)的PGC用戶,一個PGC用戶的背后往往由一個專業(yè)的團(tuán)隊(duì)組成,他們分工明確,撰寫、拍攝、錄制、后期、包括后期的市場宣傳都有專門的人員從事,此類用戶的生產(chǎn)的內(nèi)容質(zhì)量往往比較高。另一種是普通的UGC生產(chǎn)用戶,此類用戶無固定生產(chǎn)內(nèi)容的習(xí)慣,往往是三天打魚兩天曬網(wǎng),其生產(chǎn)的內(nèi)容質(zhì)量也較低。
根據(jù)平臺定位不同,其擁有的內(nèi)容資源也不同,生產(chǎn)內(nèi)容的用戶構(gòu)成也不盡相同。根據(jù)上述列出的幾種內(nèi)容類型和生產(chǎn)用戶類型,可以組合出“圖片+PGC”、“文字、圖片+PGC”、“視頻+PGC”、“視頻+UGC”….等多種組合類型。結(jié)合自身平臺業(yè)務(wù)線,找出內(nèi)容數(shù)量靠前的幾種組合,也就是我們所擁有的內(nèi)容優(yōu)勢所在。
當(dāng)我們分析出我們擁有什么以后,接下來所要解決的問題就是如何篩選優(yōu)質(zhì)內(nèi)容,以及如何進(jìn)行內(nèi)容信息識別和聚類,對于優(yōu)質(zhì)內(nèi)容我們要在推薦策略里基于更多展現(xiàn)曝光
關(guān)于優(yōu)質(zhì)內(nèi)容的篩選,主要分為“機(jī)器篩選”和“人工篩選”兩種方式,而實(shí)際操作中,往往是二者的結(jié)合,因?yàn)閱渭儥C(jī)器篩選其客觀性太強(qiáng),部分優(yōu)質(zhì)內(nèi)容機(jī)器無法識別(對于上述四種內(nèi)容信息的載體,其展現(xiàn)形式的表現(xiàn)力:文本<>圖片=音頻>視頻)而純?nèi)斯ずY選又會受審美差異等主觀因素的影響難易做到公平公正。
“人工篩選”的方式無需多說,而對于機(jī)器篩選優(yōu)質(zhì)內(nèi)容,在篩選之前要做好充分的數(shù)據(jù)收集及上報,只有數(shù)據(jù)維度足夠充分,才能為篩選做保證。拿音樂app軟件舉例“如何評判一首普通歌曲的質(zhì)量好壞”。
除了歌曲本身作為內(nèi)容的形式之外,更是鏈接“內(nèi)容生產(chǎn)者”和“內(nèi)容消費(fèi)者”之間的紐帶,所以數(shù)據(jù)的收集除了歌曲本身的屬性之外(例如:音頻長度、kpbs、格式、文件大小…)之外,也要從生產(chǎn)者的用戶屬性(PGC/UGC,年齡,地域,性別,個人愛好…)、發(fā)布行為(上傳歌曲的時間、上傳歌曲的頻次…)和消費(fèi)者的用戶屬性(性別、年齡、職業(yè)、地域、注冊時間…)、瀏覽行為(點(diǎn)擊、播放、重復(fù)播放次數(shù))等多維度評價一首歌曲的質(zhì)量。不同app對于內(nèi)容的質(zhì)量評估數(shù)據(jù)指標(biāo)不同,需結(jié)合實(shí)際情況具體分析,此處不再一一詳細(xì)列舉各個數(shù)據(jù)指標(biāo)。對于歌曲而言,最終要的幾個指標(biāo)無非是:曝光點(diǎn)擊比、播放完整度、評論、分享、收藏率…
此處對內(nèi)容質(zhì)量的動態(tài)評級,還可以利用對生產(chǎn)者評級和消費(fèi)者評級的方式來判斷,各個等級之間有著嚴(yán)格的標(biāo)準(zhǔn)劃分(此處不詳述分級的方法,具體情況具體制定),用戶的評級隨自身行為動態(tài)調(diào)整(等級正反饋、負(fù)反饋機(jī)制)。不同等級的用戶生產(chǎn)和消費(fèi)行為,對內(nèi)容評級的影響不同,越優(yōu)質(zhì)的用戶其行為對內(nèi)容質(zhì)量的影響越大。
說完內(nèi)容質(zhì)量的評級,之后就是對內(nèi)容的聚類。還拿音樂舉例,音樂本身并無任何分類,對于一首歌曲而言無非是多個音符的連續(xù)演奏。我們憑借自己的生活經(jīng)驗(yàn)和認(rèn)知對歌曲進(jìn)行分門別類:歐美音樂/港臺音樂/內(nèi)地音樂…、搖滾/流行/藍(lán)調(diào)…、抒情/狂歡/悲傷….、鋼琴曲/小提琴/吉他曲。此處對內(nèi)容聚類的方法應(yīng)遵循“相互獨(dú)立、完全窮盡”的原則即不同劃分維度之間要相互獨(dú)立,互無交叉,而每個維度里劃分又要盡可能細(xì)化到最小的顆粒度。
除了內(nèi)容聚類的方法,內(nèi)容的聚類的流程,同樣的,可以采取人工和機(jī)器結(jié)合的方式。
內(nèi)容生產(chǎn)者,在上傳內(nèi)容時,對內(nèi)容進(jìn)行分類、設(shè)定內(nèi)容標(biāo)簽。其內(nèi)容進(jìn)入后臺首先按照用戶上傳時的分類進(jìn)行篩選,之后由審核人員對其標(biāo)簽進(jìn)行走查,將無分類的內(nèi)容進(jìn)行分類,同時對錯誤分類進(jìn)行修正(此時所有審核人員的操作結(jié)果,系統(tǒng)都應(yīng)該給生產(chǎn)者發(fā)送信息提示其內(nèi)容被修改,優(yōu)化上傳流程)。所有人工審核后的內(nèi)容庫里的內(nèi)容作為最終對外分發(fā)的結(jié)果,在前端對外分發(fā)。
至此,我們已經(jīng)完成了對優(yōu)質(zhì)內(nèi)容的篩選和對內(nèi)容的聚類。那誰來消費(fèi)我們的內(nèi)容呢,誰來為我們的內(nèi)容買單,我們的用戶群是誰,他們來自哪?是男是女?年紀(jì)多大?他們是高、是矮,是胖,是瘦?從事什么工作?有什么愛好?他們收入如何?
二、用戶篇(who)
承接上文,說到用戶,繞不開的一個話題就是用戶畫像。要建立推薦系統(tǒng)的用戶畫像,我首先會問自己兩個問題:“我們的用戶是誰?”“他們都喜歡什么?”如果說用戶畫像是對一個人描述,那么第一個問題更像是描述一個人的外在,第二個問題更像是描述一個人的內(nèi)在。外在對應(yīng)用戶屬性,內(nèi)在則對應(yīng)用戶行為,行為連接內(nèi)容,從而分析用戶喜好傾向。
此處數(shù)據(jù)統(tǒng)計的維度和準(zhǔn)確性的重要性不再贅述,左側(cè)是用戶屬性,右側(cè)是相關(guān)的用戶操作行為,所有的操作行為最終都能落地到具體一個內(nèi)容上(我們在“內(nèi)容篇”已經(jīng)講過如何對內(nèi)容進(jìn)行分類標(biāo)識)我們通過看內(nèi)容分類標(biāo)識,從而分析用戶的喜好傾向。
這種方法就好比我們寫日記,記流水賬,只要我們把足夠多的信息記錄下來,我們就能足以分析數(shù)這個人詳細(xì)用戶畫像
例如:2017年5月12日,家住北京,24歲,清華大學(xué)畢業(yè)的姑娘小倩穿上她的adidas的衣服,開著她的奔馳車,去王府井的一家人均價位在100/位的火鍋店吃火鍋….),只要我們記錄的信息足夠多,足夠精確,對用戶畫像的描述也就越清晰。
在推薦系統(tǒng)里,我們通過用戶畫像需要解決的是用戶喜好傾向的問題,但用戶的喜好傾向不是一成不變的,除了要做到數(shù)據(jù)的持續(xù)收集,在判定用戶興趣時,用戶的短期興趣傾向和長期興趣傾向需要做策略的融合。持續(xù)對兩種維度的權(quán)重調(diào)權(quán),從而得到最優(yōu)解。
舉例:我是一個喜歡搖滾音樂的用戶,不經(jīng)意間聽了幾首純音樂,我們并不能一刀切的認(rèn)為用戶的喜歡傾向由搖滾轉(zhuǎn)為輕音樂,而是應(yīng)該記錄下這種行為,在策略里不斷試探嘗試用戶興趣,持續(xù)推薦不同內(nèi)容,從而判定用戶真正興趣。
在推薦系統(tǒng)里,我們通過用戶畫像需要解決的是用戶喜好傾向的問題,但用戶的喜好傾向不是一成不變的,除了要做到數(shù)據(jù)的持續(xù)收集,在判定用戶興趣時,用戶的短期興趣傾向和長期興趣傾向需要做策略的融合。持續(xù)對兩種維度的權(quán)重調(diào)權(quán),從而得到最優(yōu)解。
舉例:我是一個喜歡搖滾音樂的用戶,不經(jīng)意間聽了幾首純音樂,我們并不能一刀切的認(rèn)為用戶的喜歡傾向由搖滾轉(zhuǎn)為輕音樂,而是應(yīng)該記錄下這種行為,在策略里不斷試探嘗試用戶興趣,持續(xù)推薦不同內(nèi)容,從而判定用戶真正興趣。
三、推薦篇(how)
解決了物的問題,又解決了人的問題,現(xiàn)在接下來的最后一步就是,我們?nèi)绾伟盐锝桓兜饺说氖种小?/p>
在做推薦之前,我們需要做的一件事就是:數(shù)據(jù)的收集、上報。不同于上述內(nèi)容質(zhì)量和用戶畫像的數(shù)據(jù)統(tǒng)計維度,應(yīng)用于推薦的數(shù)據(jù)統(tǒng)計維度更多,是兩者的超集,除此以外,一些操作系統(tǒng)、app版本、網(wǎng)絡(luò)環(huán)境、用戶操作訪問路徑的分析,漏斗的模型的轉(zhuǎn)化….等等都與推薦行為息息相關(guān)。此處關(guān)于數(shù)據(jù)上報的維度需要針對不同平臺,不同推薦業(yè)務(wù),不同場景做具體問題具體分析。
關(guān)于一心想求推薦系統(tǒng)算法公式的同學(xué),可以去抱算法工程師大腿了,此處不做詳細(xì)羅列,只來聊聊我所理解的推薦的一些原理,畢竟產(chǎn)品經(jīng)理的數(shù)學(xué)和算法工程師比起來,基本30分到40分水平…
我把每個用戶想象成一個獨(dú)立的點(diǎn),每個用戶背后都帶有各種各樣的用戶屬性,我們把具有相同屬性的用戶之間建立一條連線,眾多的用戶其彼此間的連線也錯綜復(fù)雜,由此形成了一個獨(dú)立的用戶面。同樣的原理,把每條內(nèi)容也想成一個獨(dú)立的點(diǎn),每條內(nèi)容背后也都帶有各種各樣的內(nèi)容聚類標(biāo)識,我們把具有相同類別的內(nèi)容之間建立一條連線,眾多的內(nèi)容間的連線也錯綜復(fù)雜,由此形成了一個獨(dú)立的內(nèi)容面。
有了“用戶面”和“內(nèi)容面”的概念以后,我們的每一個用戶之間都彼此產(chǎn)生著聯(lián)系,每個內(nèi)容之間也都彼此產(chǎn)生著聯(lián)系,那如何把我們的“用戶面”和“內(nèi)容面”打通,其實(shí)就是所謂的用戶行為。我把用戶行為比做“通道”通道用于連接“用戶面”和“內(nèi)容面”,每一次用戶行為,都是兩個面之間一次數(shù)據(jù)的傳輸交流。至此,兩個面之間互相打通,形成了一個三維模型。這個三維模型建立在數(shù)據(jù)之上,每時每刻任意兩點(diǎn)之間都在進(jìn)行著數(shù)據(jù)傳輸,因?yàn)楸舜碎g相互聯(lián)系,一個用戶的行為可能最終影響周圍多個用戶的結(jié)果,類似蝴蝶效應(yīng)。
說完推薦,還有一點(diǎn)不得不提的就是“a/btest”和“關(guān)于a/btest,適中要遵循一個原則,明確目的,保持變量唯一。所有的推薦都是持續(xù)的過程,不同的推薦算法需要時間學(xué)習(xí)矯正,a/btest就是很好的輔助工具和方法,關(guān)于如何構(gòu)建a/btest系統(tǒng),此處不做詳細(xì)說明,只闡述其重要性。