[QOTD]有時加權計算物品不只是會被扭曲,更重要反
而會稀釋物品之間的相關性,而不是只有加強
重要性。
*1
就像是 " 網路工作狂 " 的說明檔所寫的,一個
老師最大的成就在於是否能夠帶壞學生那樣,而在博
客來的階段性任務也是如何透過這樣的機制去讓使用
者跨出既有的領域。
而在過於量化的個性情況下,如何去定義兩個物
品的相關性,那就要透過數學模型了,基本上在相關
的模型中,因為在消費者與商品都趨近於無限大的情
況,可能任何人與物品的相關都幾乎是趨近於零,所
以與其找出相關性還不如去定義新的距離。
但我們還是用相關係數的觀念去看,只是做了不
同的定義。
因為在兩個樣本空間都是超過幾十萬的情況,且
每一個樣本都不超過 20 的話,任兩個物品或人的關
係幾乎都是不會超過正負 0.05 的相關性,但若真的
超過 0.1 的話,表示這物品真的具有很強的相關性
了,只是在這邊,我們可以省略部份的正規化,直接
用距離來看。
若兩個物品是一樣的話,表示這個商品的所有買
主是買下這個所有商品的集合,因此來看,買下 a
商品的族群 ga,而這 ga 族群買了商品 b 數,就是
一個很重要的指標,但因為這個商品 b 的數量很容
易受到暢銷品等因素的影響,因此也要來反推回來看
此 b|ga/b 將之除以 b 商品的銷售總數作調整,不
然會發現任何產品的最高 b 往往暢銷品是有較高的
指數。
當然在這邊就會牽涉到一個問題,就是一個人買
相同商品兩次或一次買不只件的計算方式,及不同計
算方式的意義,例如在算商品的銷售,不應該算被買
多少件,而是要算被多少不同人買來算的話,是否比
較精確,或者是反而數量更是一種權重加值?
但就當時的實驗結果,因為像這種內容產品,理
論上物品本身就具有很強的再利用性,因此並沒必要
買很多件商品,或者是說對於那個人商品的價值不在
於買了多少,而是有沒有買,或者是吸收了多少? 因
此那種商品若是屬於容易被買來贈送或大量訂購的話
,在經過族群的篩選後事實上也是可以看得出來,沒
必要刻意去做這樣的加權,且事實上若是真的加權下
去,物品的不只是會被扭曲,更重要反而會稀釋物品
之間的相關性,而不是只有加強的可能性。
在定義出距離相關性的模型後,再來就是計算的
挑戰了,在之前計算一個商品的所有相關性,花的時
間是超過一天,因此若是算 10000 個產品的話,可
能算 30 年也算不完,因為假設資料量是 1000 萬的
話,且人與產品的幅度都是 20 的話,因此至少要讀
這 100 萬筆資料 400 次,約是要讀 4 億次的資料
,所以花一天以上的計算是一定的,但在實務上是不
可能,所以一定要縮減才行。
因此若要計算的話,應該將之做中間數據來計算
。而第一部就是將購物記錄分成以人與商品的兩個檔
,且將一筆記錄就是可以讀到原本 10 筆計錄那樣,
然後我們相信一個產品或一個消費者買與被買不超過
5 次的話,要去算別人與其相關距離的樣本太少,所
以將之忽略,雖然這個占不到原本資料的 20%(80-20
法則 ),但這樣會讓中間過程少了幾乎一半的次數,
因此到最後一個 100 萬變成兩個 10 萬的檔案,且
計算次數從 20*20*100 萬變成 (1+20)* 10 萬,約
為 200 萬次,加速到原本的 200 分之一,因此從原
本的一天變成 7 分鐘,因此若是算 3 萬個產品不須
要 82 年,約須要 5 個月就好。
但 5 個月還是過於龐大的時間,雖然說,計算
這相關不須要即時,也不必要天天算,但時效性也必
須降到一個月以內才行,因此必須去做平行運算才行
。
*2
**********************************************
*1
8/12/03 8:48 am,時間又慢了,但事實上我今
天的確不是坐最晚一班車上斑的。
剛剛發現一個小技巧,這個鍵盤又可以用下去了
,不然若要換一個鍵盤少說也要 2000 元,真傷腦筋
。
*2
但今天就先講到這邊,下次再講這部份。
8/12/03 9:38 am,到後山埤了。
文章定位: