? 日本大肚子孕妇交xxx_小紅書(shū)的機制和算法(“硬核”的小紅書(shū)算法:推薦流量是算法核心)-天津九安特機電工程有限公司

亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费

?

小紅書(shū)的機制和算法(“硬核”的小紅書(shū)算法:推薦流量是算法核心)

如果從現象推原因,硬核事實(shí)會(huì )差多少?小紅小紅心??上不了臺面的科研?騙局,但是書(shū)的書(shū)算用腳投票的大眾選擇相信,(/ω\)不相信的機制薦流人卻別有用心的傳播。

對應到運營(yíng)行業(yè)中ヽ(′ー`)ノ,和算是法的法推法核不是很像整天方法論、刀法、量算套路、硬核核心、小紅小紅心SOP的書(shū)的書(shū)算某些人?從結果拆方法,方法匯總復用告訴100個(gè)人。機(??-)?制薦流只要有1個(gè)人做好,和算就可以說(shuō)“你沒(méi)有做好,法的??法推法核別人能做好,量算是硬核你的問(wèn)題”。哲學(xué)中有個(gè)樸素的觀(guān)點(diǎn)是“實(shí)踐是檢驗真理??的唯一標準”,而實(shí)踐之所以作為真理的檢驗標準,這是由真??理的本性和實(shí)踐的特點(diǎn)決定的。

所以這篇內容我不會(huì )寫(xiě)那些網(wǎng)上一搜就會(huì )搜到10篇有9篇一樣的小紅書(shū)算法內容,同樣和上篇內??容一樣做不到通俗易懂,甚至枯燥,看了不知所(suo)云。但(dan)相信我,看ヽ(′▽?zhuān)?ノ完你們會(huì )有很大的收獲。也許業(yè)務(wù)中的一些小的問(wèn)題終于得到確認??,可能??看待小紅書(shū)運營(yíng)的角度更加的多元化,或者學(xué)會(huì )了更加具象的思維。想聽(tīng)刀法、方法論、扯淡的可以點(diǎn)右上角的×了,如果你們想從更底層去一點(diǎn)點(diǎn)認知自己在做的平臺,這篇內容如果對你們有幫助那就太好了。我扒了很(hen)多論文、論壇以及找來(lái)了不少小紅書(shū)公??開(kāi)演??講的PPT梳理總結,與實(shí)際業(yè)務(wù)相結合,歡(′?`)迎關(guān)注點(diǎn)贊留言。

很多人經(jīng)常說(shuō)小紅書(shū)算法,大部分(╯°□°)╯人從產(chǎn)品角??度出發(fā),少(′?_?`)部分人從運營(yíng)角度出發(fā),幾乎沒(méi)有人從技術(shù)角度出發(fā)。算法是一系列解決問(wèn)題的清晰指令,算法代表著(zhù)用系統的方法描述解決問(wèn)題的策略機制。定向A?定向B,可能是男性和( ?ヮ?)女性,也可能是國王??和皇后。我們應該先解釋A和B,而不是討論怎么從A?B。

從產(chǎn)品角度出發(fā)沒(méi)有什么大問(wèn)題,但是有兩類(lèi)大點(diǎn),即產(chǎn)品的背(′▽?zhuān)?)景??及(°o°)使用。產(chǎn)品的背景包括解決(jue)什么需求、具體的使用場(chǎng)景是什么樣、目標用戶(hù)是什么。產(chǎn)品的使用包括體驗、UI、美工、交互。我看了大多數??人對小紅書(shū)算法的分析,是從UI角度出發(fā),即使用者界面出發(fā),其實(shí)是相當不準確或者說(shuō)淺層次的(de)。從UI角度出發(fā)(fa),抖音和小紅書(shū)相似程度是非常高的。抖音的首頁(yè)-推薦、關(guān)注、同城和小紅書(shū)的首頁(yè)-發(fā)現、關(guān)注、同城基本一致,消息頁(yè)和我的頁(yè)面也基本一致,那么算法和邏輯就一致嗎?

差的太多了,反映到結果上,我們抖音和小紅書(shū)同樣的都做了200萬(wàn)粉左右,一個(gè)基本沒(méi)有任何變現??,一個(gè)收益很高。后來(lái)我們反復復盤(pán),平臺就像那些年我們追的女孩子,沒(méi)有(you)人永遠年輕,但總有人正在年輕。即使運營(yíng)了很多年,我們對當初的這個(gè)女孩也時(shí)常感到陌生。而平臺也總會(huì )誕生新的機會(huì ),給后來(lái)者遐想空間。

話(huà)不多??說(shuō),讓我們簡(jiǎn)單的梳理小紅書(shū)算法。不少段落取自Ar(′?ω?`)chSummit深圳演講-趙曉萌(小紅書(shū)算法架構師,負責機器學(xué)習應(ying)用)、2019阿里云峰會(huì )·上海開(kāi)發(fā)者開(kāi)源大數據專(zhuān)場(chǎng)小( ?ω?)紅書(shū)實(shí)時(shí)推薦團隊負責人(ren)郭一的發(fā)言、以及秦波(推薦引擎北京工( ?° ?? ?°)程負責人)、馬爾科(小紅書(shū)大數據組工程師)的帖子/PPT。如有侵權,聯(lián)系修改或者刪除。

小紅書(shū)社區是一個(gè)分享社區+電商的APP,分享社區通常意義上都是以女性為主,少量話(huà)題引導。每天平臺生產(chǎn)的內容,要如何轉發(fā)分發(fā)給用戶(hù),讓用戶(hù)看到用戶(hù)想看的,這是算法需要解決的問(wèn)題。

對于小紅書(shū)來(lái)說(shuō),社區提供用戶(hù)黏性,為電商引流,??電商把這部分流量變現,在A(yíng)PP里形成閉環(huán),社區和電商互相推動(dòng)。對于算法團隊來(lái)說(shuō)??,有社區的用戶(hù)數據,有用戶(hù)在電商版塊的行為數據,如何把兩邊的用戶(hù)行為連接(jie)起來(lái),更好的理解用戶(hù),是算法的根本出發(fā)點(diǎn)。

現在大家普遍認可的都是下面這個(gè)流量分發(fā)模型,系統根據用戶(hù)互動(dòng)效果(guo)進(jìn)行評分的體系是CES。實(shí)際上太籠統了,ces評分也不知道是出現在??整個(gè)推薦流程中的第一步、(′▽?zhuān)?)第二步、第三步,還是反復計算。接下來(lái)我會(huì )通過(guò)具體的一些案例,從技術(shù)的角度去( ?ω?)解釋。

如果有看過(guò)我上篇ヽ(′▽?zhuān)?ノ講搜索流量的小伙伴應該有印象,一篇筆記的搜索流量相對穩定占位,而推薦流量是筆記成為爆款的核心。小紅書(shū)線(xiàn)上(shang)推薦的流程主要分為三步。第一步,從小紅書(shū)用戶(hù)每天上傳的筆記??池中選出候選集,通過(guò)各種策略從千萬(wàn)條的筆記中選出幾千個(gè)候選集進(jìn)行初排。第二步,在模型排序( ???)階段給每個(gè)筆記打分,根據小紅書(shū)用戶(hù)的點(diǎn)贊和收藏行為給平臺帶來(lái)的價(jià)值設計了一套權??重的評估體系,

通過(guò)預估用戶(hù)
的點(diǎn)擊率,評估點(diǎn)擊之后的點(diǎn)贊、收藏和評論等的概率進(jìn)??行打分。第三步,在將筆記展??示給用戶(hù)之前,選擇分數高的筆記,通過(guò)各種策略進(jìn)行多樣性??調整。

01

那么小紅書(shū)是如何從每天的筆記池中選出候選集進(jìn)行初排的呢?

小紅書(shū)的內容圖文并茂??,用戶(hù)產(chǎn)生的內容圖片多,質(zhì)量很高。用CNN(卷積神經(jīng)網(wǎng)絡(luò ))提取圖像特征,用Doc2Vec(文本到向量模型)提(′ω`)取文本特征,通過(guò)一和(he)簡(jiǎn)單的分類(lèi)器就能把用戶(hù)分到主題(╬?益?)中,而主題是人工標定的上百上千個(gè)主題。這是初排。

02

CNN和Doc2Vec┐(′д`)┌具體是怎么提取筆記進(jìn)行分類(lèi)的?

關(guān)于圖片(??ヮ?)?*:???的識別,小紅書(shū)是一???個(gè)非常視覺(jué)的社區,圖像很多,小紅書(shū)用(yong)圖像提取特征就已經(jīng)能達到良好的效果,準確率大概是85%??時(shí)覆蓋率能達到73%左右。加上文本以后效果更好,準確率??達到90%??,覆蓋率達到84%。

圖片這是(′;ω;`)第一??個(gè)在內容創(chuàng )作中需要注意的地方,對圖像的夸張識別到什么程??度?

我們有一次發(fā)幼兒、中小(T_T)學(xué)的教育案例,拍到了角落翻開(kāi)來(lái)的書(shū)上關(guān)于母嬰胎教類(lèi)的兩行字,肉眼都看不清,違規發(fā)警告說(shuō)涉及到嬰兒遺傳等敏感內容,賬號不被推薦3天。后來(lái)反復查找原因,才發(fā)現這個(gè)問(wèn)題。這里再舉一個(gè)更常見(jiàn)的例子,涉及到了GBTD模型里的機器深度學(xué)習。小紅書(shū)上流行分享治痘,有很多臉上有很多痘痘怎么治好的筆記,怎么把這些觀(guān)感其實(shí)不適的內容推薦給要看的人是一個(gè)問(wèn)題。當小紅書(shū)嘗試用CNN model做這個(gè)事的時(shí)候,發(fā)現無(wú)論照片是全臉漏出、半臉、1/4臉甚至只有少量的臉部器官,都可以很好的識別甚至識別圖??里的文本,對反作弊有一定的幫助。所以,不要在圖片上進(jìn)行任何夾帶私貨,圖(tu)片識別+圖片文本識別,基本上準確率有90%。

再講一下文本的向量表示,文本的向量表示有非常多種,其中一個(gè)比較有名的向量表示叫做Word2Vec,是Google提出來(lái)的。它的原理非常簡(jiǎn)單,其實(shí)是一個(gè)非常淺的淺層神經(jīng)網(wǎng)絡(luò ),根據前后的詞來(lái)預測中間這個(gè)詞的概率,(╬?益?)優(yōu)化預測的時(shí)候模型就(jiu)得??到了詞的向量表示。同樣的這個(gè)詞的向量表示ヽ(′?`)ノ在空間里也是有意義的,相似的詞也(/ω\)處在相近的空間里。這個(gè)模型比較有意思的是,把向量拿出來(lái)隨時(shí)可以做向量運算。

女人到男人之間的那個(gè)指向的向量,和皇后到國王之間是一樣的,所以??我們知道其中三個(gè)(ge),就能算出另外一個(gè)。假如我們的筆??記重點(diǎn)是“自駕”和“露營(yíng)”,Word2Vec會(huì )據前后的詞來(lái)預測中間這個(gè)詞的概率,可能是(shi)裝備、路線(xiàn)、西藏、過(guò)夜、海邊、周邊、攻略,推送到(′_`)對應的用戶(hù)頁(yè)面。

03

用戶(hù)畫(huà)像和筆記畫(huà)像是什么?在算法中扮演什么角色?

小紅書(shū)推薦預測模型已經(jīng)演化到了GBDT+Sparse D&W的模型。主要有9個(gè)預測任務(wù),包括click、hide、like、fav、comment、s(′?`*)hare、follo(′▽?zhuān)?w等。點(diǎn)(dian)擊、保持、喜歡、評論、分享、關(guān)注。點(diǎn)擊是小紅書(shū)最大的模型,一天大概??產(chǎn)生5億的樣本進(jìn)行模型訓練。GBDT模型中的筆記分發(fā),有非常多的用戶(hù)行為統計,產(chǎn)生了一些靜態(tài)的信息和動(dòng)態(tài)特征,用來(lái)描述用戶(hù)或者筆記。

通過(guò)用戶(hù)畫(huà)像和人口統計(ji)信息來(lái)描述用戶(hù),比如性別年齡這些靜態(tài)信息。筆記分作者和內容兩個(gè)維度,比如作者打分、???筆記質(zhì)量、標簽、主題(′▽?zhuān)?。動(dòng)態(tài)特征雖然不多,但是非常重要。動(dòng)態(tài)特征包括用戶(hù)在瀏覽和搜索中有沒(méi)有點(diǎn)擊、有沒(méi)有深度行為等類(lèi)似的用戶(hù)反饋。這些交互的數據有一個(gè)實(shí)時(shí)的pipel??ine從線(xiàn)下直接放到線(xiàn)上的模型里,在線(xiàn)??上會(huì )利用這些數據對點(diǎn)擊率等交互質(zhì)量的指標進(jìn)行預??測,然后根據用(yong)戶(hù)和筆記的隱形分類(lèi)進(jìn)行推薦。

關(guān)于動(dòng)態(tài)(╬ ò﹏ó)特征的提取,小紅書(shū)用的是Doc2Vec模型,也叫做相關(guān)筆記。相關(guān)筆記的要求是什么???推薦的筆記和用戶(hù)在看的筆記,最好講的是一個(gè)東西。比如說(shuō)同一款口紅、同一個(gè)酒店、同一個(gè)旅游城市、同一款衣服,可能不是一個(gè)酒店,但??是是類(lèi)似的酒店。

可能不是同一個(gè)旅游城市,但可能是類(lèi)似的旅游城市,是不是很難理解?那我們再具體一點(diǎn),我如果看的是亞特蘭蒂斯這種級別的酒店,那么小紅書(shū)就不會(huì )給我推薦格林豪泰,而ヽ(′ー`)ノ是類(lèi)似同等級別的酒店。如果我經(jīng)常搜的是雪山/草原/沙漠,那么就不???會(huì )給我推薦上海/北京/廣州這種人文和城市景觀(guān)突出的地方。

有一點(diǎn)需要注意(yi)的是,TFIDF model雖然基本要求詞是一樣的,但它可(′?`)以把一類(lèi)筆記找出來(lái),就是講用戶(hù)心理、??描述用戶(hù)心情的筆記,因為(′?`*)用戶(hù)描述心情用的詞匯很接近,所以這個(gè)方法(fa)也??會(huì )把擴展的內容找出來(lái)?!敖^絕子”是非常明顯的一個(gè)語(yǔ)氣詞或者形容詞,在小紅書(shū)有461萬(wàn)+篇筆記。

04

最核心的實(shí)時(shí)歸因場(chǎng)景業(yè)務(wù),是如何制作用戶(hù)的行為標簽的?

用戶(hù)畫(huà)像比較簡(jiǎn)單,不會(huì )存在過(guò)多的狀態(tài),而實(shí)時(shí)歸因是整個(gè)實(shí)時(shí)流處理中最關(guān)鍵的場(chǎng)景。實(shí)時(shí)歸因將(/ω\)筆記推薦給用戶(hù)后會(huì )產(chǎn)生曝光,產(chǎn)生打點(diǎn)信息,用戶(hù)的每一次曝光、點(diǎn)擊、查看和回退都(′?_?`)會(huì )被記錄下來(lái)。

看一下下面這張圖,四次曝光的用戶(hù)行為會(huì )產(chǎn)生四個(gè)筆記曝光。如果用戶(hù)點(diǎn)擊第二篇筆記,就產(chǎn)生第二篇筆記的點(diǎn)擊信息,點(diǎn)贊會(huì )產(chǎn)生點(diǎn)贊的打(da)點(diǎn)信息。如果用戶(hù)回退,就會(huì )顯示用戶(hù)在第二篇筆記停留了20秒。實(shí)時(shí)歸因會(huì )生成兩??份數據,第一份是點(diǎn)擊模型的(de)數據標簽,下圖中第一篇和第三篇筆記沒(méi)有點(diǎn)擊,第二篇和第四篇筆記有點(diǎn)擊,這種數據對訓練??點(diǎn)擊模型很重要。點(diǎn)贊模型也和上面幾乎完全一樣。

05

CES評分參與在(′?_?`)算法中的什么階段?

整個(gè)線(xiàn)上推薦的流程,只有在模型排序階段給每個(gè)筆記打分。筆記在筆記展示給用戶(hù)之前,小??紅書(shū)會(huì )選擇分數高的筆記通過(guò)各種策略進(jìn)行多樣性調整。Score=pCTR*(plike*Like權重+pCmt*Cmt權重...),CES如果參與其中,只是非常小的一部分。我通過(guò)爬蟲(chóng)把爆文筆記爬了下來(lái)并做成CES形式的Excel表格分析,無(wú)論是表現各項數據關(guān)系的散點(diǎn)圖還是曲線(xiàn)圖,都沒(méi)有一個(gè)有規律的圖表,所以CES最多用在冷啟動(dòng),聊勝于無(wú)。

綜合以(yi)上,最后我們還是用比較通俗的話(huà)去解釋這篇內容想要論證或者體現的觀(guān)點(diǎn):

1.小紅書(shū)算法是一系列解決問(wèn)題的清晰指令,算法代表著(zhù)用系統的方法描述解決問(wèn)題的策略機制。不應該從使用者界面或者從已經(jīng)成熟的賬號中去梳理總結方法論,因為梳理總結的只是一系列(lie)機制中特別瑣碎的小點(diǎn),更不應該形成(cheng)所謂ヾ(′?`)?通用的方法論(lun)。大家工作業(yè)務(wù)開(kāi)展也是,很多運營(yíng)文章一下子就把整個(gè)運營(yíng)流程說(shuō)全了,我(′▽?zhuān)?更建議從算法開(kāi)始了解,工作也是從你實(shí)際的理論和認知中開(kāi)展,并不是照葫蘆畫(huà)瓢。給你飛機讓你照葫蘆畫(huà)瓢,好的,你來(lái)造。

2.不要做公司想要推廣的內容/你喜歡的內容,而是要做算法覺(jué)得用戶(hù)??想看的內容,畢竟算法需要解決的問(wèn)題就是——把平臺生產(chǎn)的(de)內容,轉發(fā)給ˉ\_(ツ)_/ˉ用戶(hù),讓用戶(hù)看到用戶(hù)想看的。

3.對于小紅書(shū),算法的出發(fā)點(diǎn)是如何把社區的用戶(hù)數據和電商版塊用戶(hù)的行為數據鏈接起來(lái)?,F在小紅書(shū)的盈利??模式主要集中??在達人種草,其實(shí)是算法團隊不夠優(yōu)秀,沒(méi)有??辦法提供足夠優(yōu)秀的中臺支撐。無(wú)論是電商或者廣告,其實(shí)大家??都怨聲哀道。

前臺主要面向客戶(hù)以及終端銷(xiāo)售者,實(shí)現營(yíng)銷(xiāo)推廣和交易轉換。中臺主要面向運營(yíng)人員,完成運營(yíng)支撐。后臺主要面向后臺管(guan)理人員??,實(shí)現流程審核、內部管理以及后(hou)勤支撐,比如采購、人力(li)、財務(wù)、OA等系統。

算法崗在各大公司招聘線(xiàn)中也是發(fā)OFFER最高的一檔,目前來(lái)看,想做視頻內容電商的算法人才會(huì )傾向于去抖音和快手。想做傳統電商的,會(huì )傾向于去阿里或者拼多多。至(╬?益?)于圖文和純文形式的電商或者廣告,其實(shí)各??家做??了很多年都做的不是特別好。小紅書(shū)圖文能做好,得益于70%的用戶(hù)群體是女性,??社區氛圍搭建的生活氛圍非常精致。

4.選擇合適的(de)內容很重要,如果內容小眾又剛需,那么小紅書(shū)通過(guò)策略選出的候選集相對容易選到我們的筆記。在整個(gè)筆記出現在大批量用戶(hù)的過(guò)程中,我傾向于CES評分沒(méi)有參與在內,預測模型實(shí)際上扮演著(zhù)很大的作用。體現在實(shí)際運營(yíng)中就是,一張圖片一句話(huà)的筆記火的一塌糊涂、老賬號發(fā)什么什么??火,因??為預測模型。

5.小紅書(shū)算法對圖??片的優(yōu)先級非常高,并且有至少85%的準確率。如果加上文本以后,準確率能達到90%。所以無(wú)論是正常的圖文、下水不報備的筆記、違規引流的筆記,算法一直是可以清晰無(wú)誤的查出來(lái)的,只不過(guò)是運營(yíng)中臺對賬號處理的松緊程度有關(guān)。例如哪個(gè)月要封賬號,哪個(gè)月要查資質(zhì),哪個(gè)月要抓引流,算法都有(you)數據,人為去干(′ω`*)預就好了。

6.關(guān)于文本的動(dòng)態(tài)特征提取,大??家可以重點(diǎn)看一下上面說(shuō)的預估詞以及相關(guān)筆記,是一個(gè)非常有趣但是又很實(shí)用的模型算法,我從普通用??戶(hù)的角度,覺(jué)得抖音(′?`)和小紅書(shū)這塊做的很不錯。

7.小紅書(shū)算法對筆記內容的好壞,取決于用戶(hù)畫(huà)像和筆記畫(huà)像。用戶(hù)畫(huà)像一??般是靜態(tài)信息,注冊賬號的時(shí)候就完成了一大半,性別年齡這些。筆記畫(huà)像包括做著(zhù)打分、筆記質(zhì)量、標簽、主題。(主題是我上面提到的人工分類(lèi)的幾百個(gè)算法里的主題,并不是下面帶的標簽或者內容主旨)

8.在我們?yōu)g覽推薦頁(yè)的時(shí)候,可以多看看一屏的內容(四篇筆記),特別是用別的賬號刷到自己賬號的時(shí)??候,如果一屏還有其他和你一樣類(lèi)目的筆記( ?ω?),重???點(diǎn)研究,算法認為你們各方面都差不多,都展示了給用戶(hù)看。

pCTR是頁(yè)面訪(fǎng)問(wèn)點(diǎn)擊(′?ω?`)率,plike是頁(yè)面預估點(diǎn)贊概率,CMT是一個(gè)非常好用且效果超好的跟蹤算法,可以跟蹤任??何場(chǎng)景任何物體。

版權聲明(╬ ò﹏ó):本文(???)內容由互聯(lián)網(wǎng)用戶(hù)自(zi)發(fā)貢獻,該文觀(guān)點(diǎn)僅代表作者本人。本站僅提(ti)供信息存儲空間服務(wù),不擁有所有權,不承擔相關(guān)法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規的內容, 請發(fā)送郵件至 [email protected] 舉報,一經(jīng)查實(shí),本站將立刻刪除(°□°)。

  1. 上一篇:國外都有哪些生意?(看這個(gè)就知道了?。?/a>
  2. 下一篇:沒(méi)有了;
亚洲女同成aV人片在线观看|亚洲www啪成人一区二区麻豆|亚洲国产中日韩精品综合|亚洲国产成人精品一级片|亚洲无码在线视频免费 婺源县| 蛟河市| 炎陵县| 桃源县| 柳林县| 和田市| 林州市| 交城县| 佛冈县| 东丰县| 清镇市| 丽水市| 长寿区| 涟水县| 彭山县| 武川县| 石台县| 华坪县| 临安市| 龙山县| 丽江市| 玛纳斯县| 沈丘县| 会宁县| 长丰县| 怀宁县| 红原县| 万盛区| 来凤县| 玉林市| 中牟县| 颍上县| 巴彦淖尔市| 柳江县| 龙口市| 桦南县| 塔城市| 罗定市| 松原市| 普兰县| 绥宁县| http://444 http://444 http://444 http://444 http://444 http://444