24h購物| | PChome| 登入
2004-02-05 14:13:00| 人氣146| 回應0 | 上一篇 | 下一篇

02/03/04.02, 資料採礦漫談(I)

推薦 0 收藏 0 轉貼0 訂閱站台


[QOTD]統計是從個體差異去找到一個相同點去建立模
型,但若承認個體差異的不同點,只是去找到
類似的經驗,說不定可以獲得更高的預測準確
度。

*1

基本上 Data Mining 的目的是協助人找到答案
,有時不見的是要去找到答案,而是讓人更簡單的去
趨近答案,這也是 Data Presentation 與 Data
Visualiztion 的功能,也就是資料展示與顯示的意
思,而事實上大部份的資料都一定可以做表,而最重
要的 Visualization 就是圖形化了。

之前有說到,數字人生代表是可以用數字來顯示
一個人的狀況,但人的生命是有時間的連續性,因此
用數字來去代表人生的話就是會轉換成一個時間序列
,也就是說用一些分析時間序列的東西就可以去分析
展現或預測這些數字,只是我是沒想過去預測人生的
數字,若真的可以的話就很有趣了。

若人的時間序列真的可以預測的話就代表人的生
命是有跡可循的,基本上這件事情是存在的,最常見
的就是三種數字組合的生命週期,從生命週期來組合
判斷說不定跟真實的狀況是有某種程度的重合,而這
個數字的計算的來源可能就是掌控生命的因素。

讓我想到在剛好 10 年前時,用紫微斗數來去做
積分,就可以算出一個人的整體命運,甚至若加上四
化的流星就可以像微分那樣算出一個人的運勢,當時
算出來的就很像一個時間序列,只是當時並沒有認真
去跟生命去做比較,因為當時並沒有去思索如何用數
字去表現生命。

只是這樣的生命週期本來就會受到各式各樣的事
情去影響,而產品的銷售也是像這樣的模型,只是我
們可以很輕易的找到一個數字來代表一個產品的生命
週期,就是銷售狀況,從銷售狀況來判斷出一個趨勢
,若是能夠不只是用單純的數字模型來判斷,而是用
過去的經驗來套用的話,那就更有趣了,也就是說,
不應該用的不是從整體數字來預估,而是用一次又一
次的數字來做比較後,找到一個最接近的曲線來去預
測說不定是最合理的,而不是從單品差異去找到一個
相同點,而是承認單品差異的不同點,而去找到經驗


因此我們應該定義一個預測差異度的指數,而去
用各式各樣的模型來套用,而隨時去選擇最有可能的
模型,所以這種演算法可以幾乎用無限的方式去趨近
答案,換句話說,就是這樣本空間多少來決定準確度
,樣本越多,準確度越高,只是可能要付出的資源也
是越高,但若能夠大約定義出一個範圍的話,這問題
就不困難了。

這方法很像類神經演算法,但說真的更像是一種
更笨的方法,就是窮舉法,從窮舉法中找到眾數或平
均再找到一個趨近值,而事實上這可以適用所有的預
測,這個也很像決策樹的選擇,只是多少不一樣。

只是接下來的另一個問題就是樣本篩選的策略與
技巧,因為要用多少樣本,然後如何得知那一個最適
用,或者是透過這些模型算出一個最可能值,這些都
是會被選擇的樣本受到影響,因為到最後這個最佳解
的判斷本身就是樣本差異的相關。

或許本來所有的產品就是有差的,而電腦最大的
好處就是可以處理大量資訊,承認差異而用大量不同
的方法來處理,然後用一個工具或指數來判斷那個差
異是最合宜的,這樣的技巧說不定會比用統計找到一
個相同性去預測更準確些。

*2

**********************************************

*1
2/3/04 8:05 pm,從台北車站很幸運的就有座位
可以坐了。

今天終於改寫了些程式,也代表下一步應該不難
走下去才對。

*2
2/3/04 8:38 pm,快到淡水站了,就先寫到這邊


台長: [食夢黑貘]
人氣(146) | 回應(0)| 推薦 (0)| 收藏 (0)| 轉寄
全站分類: 心情日記(隨筆、日記、心情手札)

是 (若未登入"個人新聞台帳號"則看不到回覆唷!)
* 請輸入識別碼:
請輸入圖片中算式的結果(可能為0) 
(有*為必填)
TOP
詳全文