您現在所在位置: 主頁(yè) > 微信開(kāi)發(fā)
小紅書(shū)的算法怎么玩的(這可能是你看過(guò)最“硬核”的小紅書(shū)算法)
更新時(shí)間:2026-05-04 15:54:22
這是??硬核一篇哈佛??醫學(xué)院的HMS學(xué)術(shù)文章,一個(gè)叫Nsoesie和他的小紅小紅小伙伴們分析了醫院?停車(chē)場(chǎng)??的車(chē)輛數量和互聯(lián)??網(wǎng)搜索趨勢,得出了疫情最早在19年8月在武漢開(kāi)始。書(shū)的算法書(shū)算當然這一說(shuō)法被哈佛醫學(xué)院自己否了,可能看過(guò)理由是硬核不適當和不充分的數據、對統計方法的小紅小紅濫用和誤解,以及挑選互聯(lián)網(wǎng)搜索詞。書(shū)的算法書(shū)算(suan)事情并沒(méi)有隨著(zhù)問(wèn)題的可能看過(guò)發(fā)??現終止,Nsoesie這些人的硬核說(shuō)法得到了媒體的廣泛報道。
我們來(lái)把整個(gè)時(shí)間進(jìn)行簡(jiǎn)單概括,小紅小紅大致就是書(shū)的算法書(shū)算——很多數據說(shuō)明醫院里的車(chē)(′?`*)多了;車(chē)多了,肯定是可能看過(guò)看病的人多了;看病的人多了,肯定是硬核得了新冠肺炎;同類(lèi)類(lèi)比,南京中華門(mén)景區ヽ(′ー`)ノ旁邊是小紅小紅市第一醫院,直線(xiàn)距離1.1公里。書(shū)的算法書(shū)算除了一個(gè)小停車(chē)場(chǎng)、一個(gè)巷子、醫院地下停車(chē)場(chǎng),沒(méi)有其??他停車(chē)位,小停車(chē)場(chǎng)和巷子日常是停滿(mǎn)了的。國慶假期到了,醫院停車(chē)場(chǎng)滿(mǎn)(???)了。得出的結論是——南京爆發(fā)疫情了。
如果從現象推原因,事實(shí)會(huì )差多少?上不了臺面的科研騙局,但是用腳投票(?Д?)的大眾選擇相信,不相信的人卻別有用心(′▽?zhuān)?)的傳播。
對應到運營(yíng)行業(yè)中,是不是很像整天方法論、刀法、套路、核心、SO??P的某些人?從結果拆方法,方法匯總復用告訴100個(gè)人。只要有1個(gè)人做好,就可以說(shuō)“你沒(méi)有做好,別人能做好,是你的???問(wèn)題”。哲學(xué)中有個(gè)樸素的觀(guān)點(diǎn)是“實(shí)踐是檢驗真理的唯一標準”,而實(shí)踐之所以作為真理的檢驗標準,這是由真理的本性和實(shí)踐的特點(diǎn)決定的。
做火了一兩個(gè)賬號/甚至沒(méi)做過(guò)賬號,總結出的運營(yíng)經(jīng)驗語(yǔ)句都不通順,前后經(jīng)不起推敲,而大家已經(jīng)??掏錢(qián)上車(chē)了。如下圖,其實(shí)所有需要分發(fā)內容的APP都是(′_ゝ`)這個(gè)邏輯。
很多人經(jīng)常說(shuō)小紅書(shū)算法,大部分人從產(chǎn)??品角度出??發(fā),少部分人從運營(yíng)角度出發(fā),幾乎沒(méi)有人從技術(shù)角度出發(fā)。算法(fa)是一系列解決問(wèn)題的清晰指令,算法代表著(zhù)用系統的方法描述解決問(wèn)題的┐(′д`)┌策略機(′Д` )制。定向A?定向B,可能是男性和女性,也可能是國王和皇后。我們應該先解釋A和B,而??不是討論怎ヽ(′ー`)ノ么從A?B。
從產(chǎn)品角度出發(fā)沒(méi)有什么大問(wèn)題,但是有兩類(lèi)大點(diǎn),即產(chǎn)品的背景及使用。產(chǎn)品的背景包括解決什么(′_`)需求、具體的使用場(chǎng)景是什(shen)么( ?ヮ?)樣、目標用戶(hù)是什么。產(chǎn)品的使用包括體驗、UI、美工、交互。我看了大多數人對小紅書(shū)算法的分析,是從UI角度出發(fā),即使用者界面出發(fā),其實(shí)是相當不準確或(huo)者說(shuō)淺層次的。從UI角度出發(fā),抖音和小紅書(shū)相似程度是非常高的。抖音的首頁(yè)-推薦、關(guān)注、同城和小(xiao)紅書(shū)的首頁(yè)-發(fā)現、關(guān)注、(′?_?`)同城基本一致,消息頁(yè)和我
差的(de)太多(′ω`)了,反映到結果上,我們抖音和小紅書(shū)同樣的都做了200萬(wàn)粉左右,一個(gè)基本沒(méi)有任何變現,一個(gè)收益很高。后來(lái)我們反復復盤(pán),平臺就像那些年我們追的女孩子,沒(méi)有人永遠年輕,但總有人正在年輕。即使運營(yíng)了很多年,我們對當初的這個(gè)女孩也時(shí)常感到陌生。而平臺也總會(huì )誕生新的機會(huì ),給后來(lái)(◎_◎;)者遐想空間??。
話(huà)不多說(shuō),讓我們簡(jiǎn)單的梳理小紅書(shū)算法。不少段落取自ArchSummit深圳演講-趙曉萌(小紅書(shū)算法架構師,負責機器學(xué)習應用)、2019阿里云峰會(huì )·上海開(kāi)發(fā)者開(kāi)源大數據專(zhuān)場(chǎng)小紅書(shū)實(shí)時(shí)推薦團隊負責人郭一的發(fā)言、以及秦波(推薦引擎北京工程負責人)、馬爾科(小紅書(shū)大數據組工程師)的帖子/PPT。如有侵權,聯(lián)系修改或者刪除。
小紅書(shū)社區是一個(gè)分享社區+電商的APP,分享社區通常意義上都是以女性為主,少量話(huà)題引導。每天平臺生產(chǎn)的內容,要如何轉發(fā)分發(fā)給用戶(hù),讓用戶(hù)(′Д` )看到用戶(hù)想看的,這是算法需要解決的問(wèn)題。
對于小紅書(shū)來(lái)說(shuō),社區提供用戶(hù)黏性,為電商引流,電商把這部分流量變現,在A(yíng)PP里形成閉環(huán),社區和(he)電商互相推動(dòng)。對于算法團隊來(lái)說(shuō),有社區的用戶(hù)數據,有用戶(hù)在電商版塊的行為(′_`)數據,如何把兩邊的用戶(hù)行為連接起來(lái),更好的理解用戶(hù),是算法的根本出發(fā)點(diǎn)。
現在大家普遍認可的都是下面這個(gè)流量分發(fā)模型(xing),系統根據用戶(hù)互動(dòng)效果進(jìn)行評分的體系是CES。實(shí)際上太籠統了,ces評分也不知道是出現在整個(gè)推薦流程中的第一步、第二( ???)步、第三步,還是反復計算。接下來(lái)我會(huì )通過(guò)具體的一些案例,從技術(shù)的角度去解??釋。
如果有看過(guò)我上篇講搜索流量的小伙伴應該有印象,一篇筆記的搜索流量相對穩定占位,而推薦流量是筆記成為??爆款的核心。小紅書(shū)線(xiàn)上推薦的流程主要分為三步。第一步,從小紅書(shū)用戶(hù)每天上傳的筆記池中選出候選集,通過(guò)各種策略從千萬(wàn)條的筆記中選出幾千個(gè)候選集進(jìn)行初排。第二步,在模型排序階段給每個(gè)筆記打分,根據小紅書(shū)用戶(hù)的點(diǎn)贊和收藏行為給平臺帶來(lái)的價(jià)值設計了一套權重的評估體系,通過(guò)預估用戶(hù)的點(diǎn)擊(′?`*)率,評??估點(diǎn)擊之后的點(diǎn)贊、收藏和評論等的概率進(jìn)行?(?_?;)打分。第三步,在將筆記展示給用戶(hù)之( ?ω?)前,選擇分數高的筆記,通過(guò)各種策略進(jìn)行多樣性調整。
那么小紅書(shū)是如何從每天的筆記??池中選出候選集進(jìn)行初排的呢?
小紅書(shū)的內容圖文并茂,??用戶(hù)產(chǎn)生的內容圖片多,質(zhì)量很高。用CNN(卷積神經(jīng)網(wǎng)絡(luò ))提取圖像特征,用Doc2Vec(文本到向量模型)提取文本特征,通過(guò)一和簡(jiǎn)單的分類(lèi)器就能把用戶(hù)分到主題中,而主題是人工標定的上百上千個(gè)主題。這(zhe)是初排。
CNN和Doc2Vec具體是怎么提取筆記進(jìn)行分類(lèi)的?
關(guān)于圖片的識別,小紅書(shū)是一??個(gè)非常視(╥_╥)覺(jué)的社區,圖像很多,小紅書(shū)用圖像提取特征就已經(jīng)??能達到良好的效果,??準確率大概是85%時(shí)覆蓋率能達(da)到73%左右。加上文本以后效果更好,準確率達到90%,覆蓋率達ヽ(′ー`)ノ到??84%。
圖片這是第一個(gè)在內容創(chuàng )作中需要注意的地方,對圖像的夸張識別到什么程度?
我們有一次發(fā)幼兒、中小學(xué)的教育案例,拍到了角落翻開(kāi)來(lái)的書(shū)上關(guān)??于母嬰胎教類(lèi)的兩行字,肉眼都看不清,違規發(fā)警告說(shuō)涉及到嬰兒遺傳等敏感內容,賬號不被推薦3天。后來(lái)反復查找原因,才發(fā)現這個(gè)問(wèn)題。這里再舉一個(gè)更常見(jiàn)的例子,涉及到了G??BTD模型里的機器深度學(xué)習。小紅書(shū)上流行分享治(′?`*)痘,??有很多臉上有很多痘痘怎么治好的筆記,怎么把這些觀(guān)感其實(shí)不適的內容推薦給要看的人是一個(gè)問(wèn)題。當小紅書(shū)嘗試用CNN model做這??個(gè)事的時(shí)候,發(fā)現無(wú)論照片是全臉漏出、半臉、1/4臉甚至只有少量的(de)臉部器官,都可以很好的識別甚至識別圖里的文本,對反作弊有一定的幫助。所以,不要在圖片上進(jìn)行任??何夾帶私貨,圖(╯°□°)╯︵ ┻━┻片識別??+圖片文本識別?,基(′?_?`)本上準確率有90%。
再講一下文本的向(xiang)量表( ?° ?? ?°)示,文本的向量表示有非常多種,其中一個(gè)比較有名的向量表示叫做(╯‵□′)╯Word2Vec,是Google提出來(lái)的。它的原理非常簡(jiǎn)??單,其實(shí)是一個(gè)非常淺的淺層神經(jīng)網(wǎng)絡(luò ),根據前后的詞來(lái)預測中間這個(gè)詞的概率,優(yōu)化預測的時(shí)候模型就得到了詞的向量表示。同樣的這個(gè)詞的向量表示在空間里也是有意義的,相似的詞也處在相近的空間里。這個(gè)模型比較有意思的是,把(ba)向量拿出來(lái)隨時(shí)可以做向量運算。
女人到男人之間的那個(gè)指向的向量,和皇后到國王之間是一樣的,所以我們知道其中三個(gè),就能算出另外一個(gè)。假如我們的筆記重點(diǎn)是“自駕”和“露營(yíng)”,Word2Vec會(huì )據前后的詞來(lái)預測中間這個(gè)詞的概率,可(ke)能是裝備、路線(xiàn)、西藏、過(guò)夜、海??邊、周邊、攻略,推送到對應的用戶(hù)頁(yè)面(′?ω?`)。
用戶(hù)畫(huà)像和筆記畫(huà)像是什么?在算法中扮演什么角色?
小紅書(shū)推薦預測模型已經(jīng)演化到了GBDT+Sparse D&W的模型。主要有9個(gè)預測??任務(wù),包括click、hide、like、fav、comment、share、fol??low等。點(diǎn)擊、保持、喜歡、評論、分享、關(guān)注。點(diǎn)擊是小紅書(shū)最大的模型,一天大概產(chǎn)生5億ˉ\_(ツ)_/ˉ的??樣本進(jìn)行模型訓練。GBDT模型中的筆記分發(fā),有非常多的用戶(hù)行為統計,產(chǎn)生了一些靜態(tài)的信息和動(dòng)態(tài)特征,用來(lái)描┐(′?`)┌述用戶(hù)或者筆記。
通過(guò)用戶(hù)畫(huà)??像和人口統計信息來(lái)描述用戶(hù),比如性別年齡這些靜態(tài)信息。筆記分作者和內容兩個(gè)維度,比如ヽ(′ー`)ノ作者打分、筆記質(zhì)量、標簽、主題。動(dòng)態(tài)特征雖然不多(′ω`),但是非常重要。??動(dòng)態(tài)特征包括用(′;ω;`)戶(hù)在瀏覽和搜索中有沒(méi)有點(diǎn)擊、有沒(méi)有深度行為等類(lèi)似的用戶(hù)反饋。這些交互的數據有一個(gè)實(shí)時(shí)的pip(′?ω?`)eline從線(xiàn)下直接放到線(xiàn)上的模型里,在線(xiàn)上會(huì )利用這些數據對點(diǎn)擊率等交互質(zhì)量的指標進(jìn)行預測,然后根據用戶(hù)和筆記的隱形分類(lèi)進(jìn)行推薦。
關(guān)于(′?ω?`)動(dòng)態(tài)特征的提取,小紅書(shū)用的是Doc2Vec模型,也叫做相關(guān)筆記。相關(guān)筆記的(╥_╥)要求是什么?推薦的筆記和用戶(hù)在看的筆記,最好講的是一個(gè)東西(′ω`)。比如說(shuō)同一款口紅、同一個(gè)酒店、同一個(gè)旅游城市、同一款衣服,可能不是一個(gè)酒店,但是是類(lèi)似的酒店。
可能不是同一個(gè)旅游城市,但可能是類(lèi)似的旅游城市,是ヽ(′▽?zhuān)?ノ不是很難理解?那我們再具體一點(diǎn),我如果看的是亞特蘭蒂斯這種級別的酒店,(′▽?zhuān)?那么小紅書(shū)就不會(huì )給我推薦格林豪泰,而是類(lèi)似同等級(′?_?`)別的酒店。如果我經(jīng)常搜的是雪山/草原/沙漠,那么就不會(huì )給我推薦上海/北京/廣州這種人文和城市景觀(guān)突出的地方。
有一點(diǎn)需要注意的是,TFIDF model 雖然基本要求詞是一樣的,但它可以把一類(lèi)筆記找出來(lái),就是講用戶(hù)心理、描述用戶(hù)心情的筆記,因為用戶(hù)描述心情用的詞匯很接近,所以這個(gè)方法也會(huì )把擴展的內容找出來(lái)?!??絕絕子”是非常明顯的??一個(gè)語(yǔ)氣詞或者形容詞,在小紅書(shū)有461萬(wàn)??+篇筆記。
最核心的實(shí)時(shí)歸因??場(chǎng)景業(yè)務(wù),是如何制作用戶(hù)的行為標簽的?
用戶(hù)畫(huà)像比較簡(jiǎn)單,不會(huì )存ˉ\_(ツ)_/ˉ在過(guò)多的狀態(tài),而實(shí)時(shí)歸因是整個(gè)實(shí)時(shí)流處理中最關(guān)鍵的場(chǎng)景。實(shí)時(shí)歸因將筆記推薦給用戶(hù)后會(huì )產(chǎn)生曝光,產(chǎn)生打點(diǎn)信息,用戶(hù)的每一次曝??光、點(diǎn)擊、查看和回退都會(huì )被記錄下來(lái)。
看一下下面這張圖,??四次曝光的用戶(hù)行為會(huì )產(chǎn)生四個(gè)筆記曝光。如果用戶(hù)點(diǎn)擊第二篇筆記,就產(chǎn)生第二篇筆記的點(diǎn)擊信息,點(diǎn)贊會(huì )產(chǎn)生點(diǎn)贊的打點(diǎn)信息。如果用戶(hù)回退,就會(huì )顯示用戶(hù)在第二篇筆記停留了20秒。實(shí)時(shí)歸因會(huì )生成兩份數據,第一份??ヽ(′ー`)ノ是點(diǎn)擊模型的數據標簽,下圖中第?一篇和第三篇筆記沒(méi)有點(diǎn)擊,第二篇和第四ヾ(?■_■)ノ篇筆記有點(diǎn)擊,這種數據對訓練點(diǎn)擊模型很重要。點(diǎn)贊模型也和上面幾乎??完全一樣。
CES評分參與在算法中的什么階段?
整個(gè)線(xiàn)上推薦的流程,只有在模型排序階段給每個(gè)筆記打分。筆記在筆記展示給用戶(hù)之(zhi)前,小紅ヽ(′ー`)ノ書(shū)會(huì )選擇分數高的筆記通過(guò)各種策略進(jìn)行多樣性調整。Score=pCTR*(plike*Like權重+??pCmt*??Cmt權重...),CES如果參與其中,只是非常小的一部分。我通過(guò)爬蟲(chóng)把爆文筆記爬了下來(lái)并做成CES形式的Excel表格分析,無(wú)論是表現各項數據關(guān)系的散點(diǎn)圖還是曲線(xiàn)圖,都沒(méi)有一個(gè)有規律的圖表(′ω`),所(suo)以CES最多用在冷啟動(dòng),聊勝于無(wú)。
綜合以上,最后我們還是用比較通俗的話(huà)去解釋這篇內容想要論證或者體??現的觀(guān)點(diǎn):
1.小紅書(shū)算法是一系列解決問(wèn)題的清晰指令,算法代表著(zhù)用系統的方法描述解決問(wèn)題的策略機制。不應該從使用者界面或者從已經(jīng)成熟的賬號中(zhong)去ヾ(′?`)?梳理總結方法論,因為梳理總結的只是一系列機制中特別瑣碎的小點(diǎn),更不應該形成所謂通用的方法論。大家工作??業(yè)??務(wù)開(kāi)展也是,很多運營(yíng)文章一下子就把整個(gè)運營(yíng)流程說(shuō)全了,我更建議從算法開(kāi)始了解,工作也是從你實(shí)際的理論和認知中開(kāi)展,并不是照葫蘆畫(huà)瓢。給你飛機讓你照葫蘆畫(huà)瓢,好的,你來(lái)造。
2.不要做公司想要推廣的內容/你喜歡的內(′?`*)容,而是要做算法覺(jué)得用戶(hù)想看的內容,畢竟算法需要解決的問(wèn)題就是——把平??臺生產(chǎn)的內容,轉發(fā)給??用戶(hù),讓用戶(hù)看到用戶(hù)想看的。
前臺主要面向客戶(hù)以及終端銷(xiāo)售者,實(shí)??現營(yíng)(′?_?`)銷(xiāo)推廣和交易轉換。?中臺主要面向運營(yíng)人員,完成運(′?_?`)營(yíng)支撐。后臺主要面(mian)向后臺管理人員,實(shí)現流程審核、內部管理以及后勤支撐,比如采購、人力、財(°□°)務(wù)、OA等系統。
4.選(╬?益?)擇合適的內容很重要,如果內容小眾又剛需,那么小紅書(shū)通過(guò)策略選出的候選集相對容易選到我們(′▽?zhuān)?的筆記。在整個(gè)筆記出現在大批量用戶(hù)的過(guò)程中,我傾向于CES評分沒(méi)有參與在內,預測模型實(shí)際上扮演??著(zhù)很大的作用。體現在實(shí)際運營(yíng)中ヾ(′?`)?就是,一張圖片一句話(huà)的筆記火的一塌糊涂、老賬號發(fā)什么什么(′ω`)火,因為預測模型。
5.小紅書(shū)算法對圖片的優(yōu)先級非常高,并且(′?`)有至少85%的準確率。如果加上ヽ(′?`)ノ文(′ω`*)本以后,??準確率能達到90%。所以無(wú)論是正常的圖文、下水不報備的筆記、違規引流的筆記,算法一直是可以清晰無(wú)誤的查出來(lái)的,只不過(guò)是運營(yíng)中臺對賬號處理的松緊程度有關(guān)。例如哪個(gè)月要封賬號,??哪個(gè)月要查資質(zhì),哪個(gè)月要抓引流,算法都有數據,人為去干預就好了。
6.關(guān)于文本的動(dòng)??態(tài)特征提取,大家可以重點(diǎn)看一下上面說(shuō)的預估詞以及相關(guān)筆記,是一個(gè)非常有趣但是又很實(shí)用(◎_◎;)的模型算法,我從普通用戶(hù)的角度,覺(jué)得抖音和小紅書(shū)這塊做的很不錯。
7.小紅書(shū)算(suan)法對筆記內容的好壞,取決于用戶(hù)畫(huà)像和筆記畫(huà)像。用戶(hù)畫(huà)像一般是靜態(tài)信息,注冊賬號的時(shí)候就完成了一大半,性別年??齡這些。筆記畫(huà)像包括做著(zhù)打分、筆記質(zhì)量、標簽、主題。(主題是我上面提到的人工分類(lèi)的幾百個(gè)算法里的主題,并不是下面帶??的標簽或者內容主旨)
8.在我們?yōu)g覽推薦頁(yè)的時(shí)候,可以多看看一屏的內容(四篇筆記),特別是用別的賬號刷到自己賬號的時(shí)候,如果一屏還有其他和你一樣類(lèi)目的筆記,重點(diǎn)研究,算法認為你們各方面都差不多,都展示了給用戶(hù)看。
版權聲明:本文內容由互聯(lián)網(wǎng)用戶(hù)自發(fā)貢獻,該文觀(guān)點(diǎn)僅代??表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權,不承擔相關(guān)法律責任。如發(fā)現本站有涉嫌抄襲侵權/違法違規的內容, 請發(fā)送郵件至 [email protected] 舉報,一經(jīng)查實(shí),本站將立刻刪除。

