Youtube推薦雙塔模型——SBCNM-ESG跨境

Youtube推薦雙塔模型——SBCNM

來源網(wǎng)絡(luò)
來源網(wǎng)絡(luò)
2022-07-05
點贊icon 0
查看icon 1333

Youtube推薦雙塔模型——SBCNMYoutube推薦雙塔模型——SBCNMSamplingBiasCorrected Neural Modeling for Large Corpus Item Recommendations是youtube推薦在2019年的一篇論文,可以把他看作2016年那篇經(jīng)典論文(Deep ......

Youtube推薦雙塔模型——SBCNM




Youtube推薦雙塔模型——SBCNM

SamplingBiasCorrected Neural Modeling for Large Corpus Item Recommendations是youtube推薦在2019年的一篇論文,可以把他看作2016年那篇經(jīng)典論文(Deep Neural Networks for YouTube Recommendations)里,召回模型的升級版本。

同樣,先簡單介紹一下論文,再談?wù)勛约旱睦斫夂拖嚓P(guān)實踐。

論文速讀

這篇理論文是Deep Neural Networks for YouTube Recommendations中召回模型的升級版本。使用了經(jīng)典的雙塔結(jié)構(gòu),從而可以加入item側(cè)的各種特征,提升泛化和新資源的預(yù)估能力。論文的主要貢獻包括四點:

Streaming Frequency Estimation:流式詞頻預(yù)估,or流式展現(xiàn)次數(shù)預(yù)估。主要為了解決batch內(nèi)負采樣時,詞頻有偏的問題。

Modeling Framework:雙塔召回模型,使用batch softmax交叉熵,同時使用batch內(nèi)負采樣。

YouTube Recommendation:大規(guī)模數(shù)據(jù)場景應(yīng)用,不多贅述。

Ofline and Live Experiments:離線測試和在線效果,不多贅述。

Modeling Framework

模型訓(xùn)練大的方面都比較常規(guī),雙塔結(jié)構(gòu)+負采樣(這套DNN召回方式,在這篇論文之前我們就已經(jīng)在用了)。

網(wǎng)絡(luò)結(jié)構(gòu)上是一個典型的雙塔,分別產(chǎn)出用戶和item的向量表達,方便召回時從全量候選集中快速選取top。

樣本方面,采用百萬級label上的softmax多分類(每個item視作一個分類,和16年的論文一樣)。負樣本采用batch內(nèi)負采樣,來消除item頻次對召回準確性的bias。

論文里提到,batch內(nèi)softmax,所以分布上和全局softmax肯定存在bias:高頻item因為在batch內(nèi)出現(xiàn)的概率高,會被過度懲罰。因此,論文提到一種做法,在sotmax前的輸出上加一個和頻次(or隨機batch內(nèi)出現(xiàn)的概率)相關(guān)的懲罰項。大致效果是item在batch內(nèi)出現(xiàn)的概率越高,softmax的輸入會在原來的基礎(chǔ)上越小,從而降低高頻item的預(yù)估概率,消除bias。

下面貼幾個公式,公式細節(jié)我就不解釋了,細節(jié)可以看原文,功能和思想?yún)⒖嘉疑厦娴慕忉尅?/p>

在sotmax前的輸出上加一個和頻次相關(guān)的懲罰項:

是item在batch內(nèi)出現(xiàn)的概率越高,softmax的輸入會在原來的基礎(chǔ)上越小,從而降低高頻item的預(yù)估概率:

ok,以上這個處理是這篇論文的核心之一

以上,引入了另外一個核心問題,如何知道item在隨機batch內(nèi)出現(xiàn)的概率從而有了論文的另外一個核心:Streaming Frequency Estimation。

(論文里還提到一個標準化和熱度的東西,預(yù)估的時候用一個熱度超參來調(diào)節(jié)score,這里不是很理解論文的思路和具體做法,就先不談了,有清楚的朋友可以評論和我討論下)

Streaming Frequency Estimation

這里我同樣先說思想,再貼論文的算法和簡述。

論文采用兩個矩陣來記錄和更新item出現(xiàn)的step和頻率。

以下,貼一段論文的描述:

這里矩陣A記錄的是item y上一次出現(xiàn)的step,所以tA[y]就是y最近一次的出現(xiàn)間隔。從而不斷更新B,得到的就是y出現(xiàn)間隔的期望(這里我也是大致意會了一下,詳細的推導(dǎo)和說明建議看原文)。也可以理解為,每次出現(xiàn)的間隔是一個樣本,通過SGD和學(xué)習(xí)率不斷學(xué)習(xí)得到了平均間隔的預(yù)估B。附一段原論文,個人感覺理解這一段就可以了。

ok,上面得到了item y的出現(xiàn)間隔預(yù)估B,那么frequency estimate就等于1/B[y]。

到這里,整篇論文的精華就解釋完了。

之后,論文提到了一個streaming frequency estimate的改進方法,主要解決算法2中hash碰撞的問題。也很簡單,就是用多個hash,記錄多個B,最后用max(Bi)。

個人感覺hash算法用的好,外加item的更新淘汰,小概率的碰撞其實沒啥影響。

最后,再貼一個網(wǎng)絡(luò)結(jié)構(gòu)圖,其他的應(yīng)用和評估細節(jié)就先不贅述了,

其他tips:

1.論文使用了觀看進度做為loss weight,短點擊權(quán)重為0,完播權(quán)重1,其他是否有平滑處理不確定。這里做一點衍生,其實用觀看進度做為權(quán)重會有時長bias,傾向于較短的視頻,用觀看時長的話有會傾向于較長的視頻,這里可以做不少結(jié)合業(yè)務(wù)的微處理。

2.用戶和item側(cè)會共享部分id特征

個人理解

結(jié)合我自己的業(yè)務(wù)經(jīng)驗,談?wù)劺斫獍?/p>

1.首先說一個自己特別疑惑的地方,一直沒搞明白具體區(qū)別和效果。youtube的做法是softmax,把每個item當作一個分類,從而預(yù)估用戶在整個items集合上的偏好分布。我自己的業(yè)務(wù)場景里,是用的sigmoid二分類(點擊和負采樣),更像是預(yù)估一個item被展現(xiàn)且點擊的概率。這里不確定兩種方式效果的具體差異,也沒對比過,有清楚的大佬可以教我一下。個人猜測,二分類的方式泛化會更強,softmax的方式準確會更高

2.這個模型還有一個點,是我很想嘗試一下的,就是用戶側(cè)的行為和item側(cè)共享id這一類的emb表達??赡軙ession序列的刻畫更好,以及上文和當前item的關(guān)系預(yù)估更準確。

3.效果:從我個人的業(yè)務(wù)線和周圍其他的業(yè)務(wù)線情況看,類似這種端到端的召回效果和整體占比都不算太高;我甚至試過用粗排模型做召回,效果更弱。這也是我一直思考,卻沒有明確答案的:為什么這種端到端的DNN召回很難占據(jù)絕對優(yōu)勢呢

4.DNN召回目前沒有特別好的演進方向。我個人理解幾個點比較合適:a.擺脫頂層cross的結(jié)構(gòu),引入更多交叉特征和負責(zé)結(jié)構(gòu),使得整體學(xué)習(xí)更加充分。b.擺脫單目標建模優(yōu)化的方式,畢竟單目標沒法刻畫用戶的滿意或者令用戶喜悅的感受,更多的考慮多目標的融合,比如,展現(xiàn)率,點擊率,觀看進度,是否點贊評論關(guān)注等等。

5.疑問,論文里描述模型是天級更新,感覺有點落后。。。對新視頻不夠友好,而且反饋能力也會偏弱吧


文章推薦
Wish是什么平臺,wish是什么平臺怎么讀
TikTok Ads廣告優(yōu)化清單和故障排除,國外抖音tiktok 安卓教程中文
不做無效促銷,有效促銷和無效促銷
避免構(gòu)建時常見的這五個AWS配置不當,aws架構(gòu)知識


特別聲明:以上文章內(nèi)容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。

搜索 放大鏡
韓國平臺交流群
加入
韓國平臺交流群
掃碼進群
歐洲多平臺交流群
加入
歐洲多平臺交流群
掃碼進群
美國賣家交流群
加入
美國賣家交流群
掃碼進群
ESG跨境專屬福利分享群
加入
ESG跨境專屬福利分享群
掃碼進群
拉美電商交流群
加入
拉美電商交流群
掃碼進群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進群
拉美電商交流群
加入
拉美電商交流群
掃碼進群
ESG獨家招商-PHH GROUP賣家交流群
加入
ESG獨家招商-PHH GROUP賣家交流群
掃碼進群
2025跨境電商營銷日歷
《2024年全球消費趨勢白皮書——美國篇》
《2024TikTok出海達人營銷白皮書》
《Coupang自注冊指南》
《eMAG知識百科》
《TikTok官方運營干貨合集》
《韓國節(jié)日營銷指南》
《開店大全-全球合集》
《TikTok綜合運營手冊》
《TikTok短視頻運營手冊》
通過ESG入駐平臺,您將解鎖
綠色通道,更高的入駐成功率
專業(yè)1v1客戶經(jīng)理服務(wù)
運營實操指導(dǎo)
運營提效資源福利
平臺官方專屬優(yōu)惠

立即登記,定期獲得更多資訊

訂閱
聯(lián)系顧問

平臺顧問

平臺顧問 平臺顧問

微信掃一掃
馬上聯(lián)系在線顧問

icon icon

小程序

微信小程序

ESG跨境小程序
手機入駐更便捷

icon icon

返回頂部