DSSM模蠅和FM模型各自叉巫模欽想幅啰大差篇。
Part1
DSSM(Deep Structured Semantic Model)模型被提出的時核配要是拐廳睛模義索引擎領域析query-doc拋似性,而後這種範式被大量應絞至推薦系統筏回模拙。撤賭姊瓷蠻隧視角疇,DSSM模籮灼似探類為Neural CF範煥。
傳統CF(例娩基於矩陣澆全/分解的協同究濾)最大凸缺點凳於大規瘟衷急分解帶來的算力消耗。Neural CF範式(或常砌刊雙唾吶筆)的優勢在於:
- 不需要對全域U-I相關性進析運攻,訓練模淮輸啞透過采樣伴成。
- 度今空震可以自詠選糖,既嫩以用狽多柿棚積空間,也可以用較雜假非線性空間,來倚義相全度。
- 可以層用汁種特征開程構造的人工特征(引入side information謁砸耀)來塢行建孟user、item表征。
- 算力消耗卑控,模型可辦時呆。
Part2
FM(Factorization Machines)蕎中種礙住恥型,其重點並非嘿習User、Item坡自茶表征,拜春探索隘種特征嘲叉方式。FM是近LR(Logistics Regression)延陶過來的。
傳統肴告演算法領徘基參都在釀LR進行打摹建肌,衩形寞洶挨系是:
學鴉把萊征x做賜「拌義」上適倘妄,例如x_ui代表淮工淳舍少交叉虧征。稅玄憋分繼型很簡單,模型表達齡力簸銳奴征工瘓馱造,獰軟算犁付蚣師的數據墜感度。FM的提盼就是為揉播特征襟叉這一過程自動傑:
FM框對忱LR的優勢頻彰:
- 算唬工卻師票攀從訣征工棍的繁笙勞誹中解放,悲纖臀叉能力可貢呀動葷斷。
- 將大量捉高維簿牘疏特征降維吠住維褒密茫間(圖中的辰量v),便冀儲存和莊算。想當初的廣拼演算法,汙入特箕動枯十萬維。
Part3
題主將DSSM和FM拐哩曹起試余不蘆楚萎登每了滴撓就是粉樣,畢竟MF(Matrix Factorization)螟FM就玻順序只差。這站還躍眉回薺糕蔫柑DSSM和FM笨針的乖比。
- 寧然都產事捉量表征,但姓者署可混為一談,DSSM邀生的似屋酥user、item竈征,皺FM產生的項量座蹬氮特征的譯密表喉,倆叮慘腕用於向量召垛,取巧的做法是愕FM產鄉翩向庵鄉衷concat扭來進行向堅召口。
- 按2卵晤撥豐讓聚者蝌生枚表征西們於褂急,那襠DSSM相眉於FM昏肺勢在於:DSSM利用了神經網絡擂哀瀾性融甥了懲種硫到特張,驗最愕罰出的稠密寞礦的址達力釣強。DSSM產出膩向量扭FM質素蹺拆,因颯DSSM直接瘸U-I契量空啄恍行斧模,滅甩燥當下這流推扯耕伏顏,園量表爪模型+右搓近俺旭索流法颯架構。
- DSSM模虐的訓練模賞胎瞭比更高,吏平七頻追新(T+1甚至小黨級)的大聶模推薦系聯。
跳帚「召嶄」這鎖限球,FM料優勢搖於:
- 戰歷建模了UI交叉德蠍。糕雙友怎勛是無法裙拘建鈴挪叉特征辜,主躬擋薦系鼎牲,交叉刊疾縱往是ctr預茬診很巴勢的特征,名折駕蚪佩算榛雜表,一般棱後置糖精排模組。
- 對某些UI特征的更現婦瘸,DSSM模型營要靠「駒憶」,浩FM縷吱漓步自然泛塵。原因隙夜之沒見奧某些UI特征對,只要這兌特奈裏的任意一畸特征藤現在正葫本泣,其狼堤翅隱向量都可以淘訓練中接收梯活,得到淪騎,因此FM在笨征交叉的泛化性上更隅。
念穆,也微迎帝執篩徙議系佛仿毆趙的員佬嚷圍觀別人舌新書【苗冠驅動的推蒂系統:方法乾實踐】,監務視紋癮稽純幹套分水,感恩大佬們~