搜索推薦技術在電商導購領域的應用一:分詞
隨著經濟不斷發展,人們對消費品質要求也水漲船高,也更加個性化。線下實體的陳列空間是有限的,網上陳列空間是無限的,所以這十多年來,電子商務一直處于蓬勃發展之中。...
作者:高揚
在電商領域浸淫多年,近期有空對這些年的實踐經歷做些整理,嘮叨嘮叨我們遇到的問題和用到的技術解決方案,歡迎同行交流。
PS:封面圖跟本文沒有任何卵關系,純粹個人喜歡……
導購領域的發展
隨著經濟不斷發展,人們對消費品質要求也水漲船高,也更加個性化。線下實體的陳列空間是有限的,網上陳列空間是無限的,所以這十多年來,電子商務一直處于蓬勃發展之中。
海量商品,雖然極大豐富了的選擇,但也讓你挑花了眼,經常會被坑爹……所以,這就有了導購的生存土壤。導購,故名思議,引導購物,本質上是一個信息過濾器,針對個人的需求和喜好,將海量商品過濾成有限選擇,減輕挑選成本。
如果把網上商品庫比喻成一個西瓜,導購就是切西瓜的刀,一個特定的角度切入,就是一個導購方向。舉個栗子:
早期的購物搜索、購物推薦是最早的導購形態,讓用戶自助尋找想買的商品;
折800,聚劃算,9塊9包郵,什么值得買等,是以價格角度切入;
美麗說、蘑菇街是以女性時尚角度切入;
chiphell,knewone是以男性原創曬單角度切入……
只要網上的商品信息保持持續增長,信息過濾、商品挑選的用戶痛點也會日益增加,導購需求就會永遠存在。
個性精準導購,對技術要求較高,需要用到搜索,推薦,機器學習等多個領域技術。
導購離錢近,可很快有現金流,屬于“自我造血型”業務,在這個資本寒冬里,是一個不錯的選擇。
做好導購,未來可演化成垂直電商平臺,發展前景廣闊,美麗說、蘑菇街是成功案例。
說那么多廢話,我就是想簡單講一下分詞
為了有效的給用戶推薦商品,首先要理解用戶需求和商品,這兩者的精準刻畫都離不開分詞。
我們這里說的分詞是指中文分詞,指的是將一個漢字序列切分成一個一個單獨的詞。這是中文特有的問題(英文有空格可以天然分隔),需要進行一些技術處理。
通用的分詞算法可分三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。這里不展開詳述,大家可以自行百度,這三個分詞流派我們都用上了。
在實踐過程會發現,無論哪種方法,都保證不了100%的召回率和準確率,技術同學通常面臨這樣一個難題:召回率83%,準確率91%,想進一步提高準確率,就很難保持召回率不降低,怎么破?!
這時候,你需要詞典了。
購物分詞優化到后期,基本就是詞典的優化過程。
詞典是一個擴展集合,用于保存預先分好的詞,每一個詞要標注詞性。詞性,就是詞的性質,是對一個詞的進一步解釋,比如“D100”在詞性是“系列”,“尼康”的詞性是“品牌”。(詞條,詞性)組合,可以保存對應的領域知識。
再列舉一些我們用到的詞性
核心詞:如品牌,型號,系列,商品名等
修飾詞:如顏色,材質,風格等
Stopword:無意義的詞,如包郵,淘寶熱賣等
我們詞典的最大特點是基于分類的,也就是說,詞典中每一個詞的詞性并不是唯一性確定的,在不同類目下有不同的詞性含義。目前我們維護的電商分類是數千個節點,深度為4的樹形結構,常見的分類有手機,連衣裙,膨化食品……
這是我們一個詞條的印象,大家感覺一下。
下面是我們設計的詞條數據結構。
我們詞條的詞性是基于分類的。
詞條的組織形式是分形的,可遞歸,父詞條結構和詞條是一樣的。
這是詞性維度的數據結構,也是基于分類的。
最終,我們通過詞條關系的構建,搭建成如上類目屬性庫,在各種商品文本處理場景中使用。
那么問題來了,那么多品牌詞,類目詞,修飾詞都是從哪里來的呢?
答:從大數據里面來。
通過海量商品文本數據,我們對文本中,相鄰的keyword建立起概率鏈模型,如果兩個keyword經常一起出現,同時詞條庫里面還沒有,那很可能是一個新詞。這時候,人工介入標注,更新詞條庫。日積月累,詞條庫會越來越強大!
最后,我們的購物分詞系統,就演化成介個醬紫的。
-
無相關信息