新聞| | PChome| 登入
2004-02-12 10:29:00| 人氣238| 回應0 | 上一篇 | 下一篇

02/11/04.01, 資料採礦概述

推薦 0 收藏 0 轉貼0 訂閱站台


[QOTD]一個問題的發現往往須要一年的話,定義出問
題後要找到方法只要一個月就可以知道如何解
決,而去解決這問題的實作是不用一個星期的

*1

Data Mining 事實上是一個綜合性的學科,基本
上就包含下面幾個:

1. 資料結構與資料庫
2. 統計學及高等/數理統計學
3. 數值方法與數值分析
4. 分散式系統
5. 演散法與代數學

等等幾個較大的既有領域,且此領域有一半以上
都跟 Data Mining 都有相關的。

若把部份必須先修的話還包含:

1. 程式設計/程式語言
2. 作業研究與行為分析
3. 管理學與管理數學
4. 行銷學
5. 經濟學(數理經濟學部份)

等等其他較大的專門領域,這些領域都相關與必
要,但是否要全部的話就很難說了。

再來是就 Data Mining 的小項與分支就包含:

1. 知識管理(Knowledge Management)
2. Information Structure/Artitechture
(資訊架構與建築)
3. Agent(代理者)/Software Agent
4. Data WareHouse
5. Data Visulaization/Prediction

這些目前的幾個主要項目,而通常應用的範圍包
含:

1. CRM(Custom Relation Management)
2. OLAP(OnLine Analysis and Processing)
3. ERP(Enterprice Resource Planning)

這三個領域。

當然這還是蠻初淺的就結構去分類,且談不上真
的 Mutaul Exclusive( 完整互斥 ),所以不算是個
好的架構,但也確定包含 80% 以上的內容了。

但現在 Data Mining 在教學實務上最大的問題
不只是技術上面,例如過於強調統計的方法而乎略其
他的數學基礎,還有在問題的發現與承現這才是最困
難的。

一個問題的發現往往須要一年的話,定義出問題
後要找到方法只要一個月就可以知道如何解決,而去
解決這問題的實作是不用一個星期的,所以學再多實
作的內容在解決問題上可能是最末端的事。

因此,不要想去學 Know-how,要去了解
Know-why,更要去研究事情的本質 Know-what,而這
個事情的本質就是指那些經濟學、行銷學等等,
Know-why 是指那些統計學、分散式系統等等的基礎
,而 Know-how 才是那些 CRM 等等的 Data Mining
的領域,所以與其花很多時間在上面,更要把其他的
部份更紮根,甚至套句米塞斯的說法:" 只是一個經
濟學家的經濟學家,絕對不是一個好的經濟學家 ",
這個也可以套用在 Data Mining 這個領域。

就像是最近所去發展出來的系統,雖然統計是基
礎,但統計與 Data Mining 的基本假設就是不一樣
,所以到最後用的方法就是用數值方法與演算法的
Recursive( 遞迴 )等等的技巧,且除了程式設計以
外,到最後是花更多的時間去做系統分析 (System
Analysis) 與最佳化 (Optimization),包含系統 (
虛擬機器 /Virtual Machine) 本身與資料庫本身的
問題反而是較大的。

所以這樣看起來,若是懂些時間序列等等的數值
方法或群落分析等等統計學方法就說學好這門學科,
可能還太早了些。

*2

**********************************************

*1
2/11/04 7:40 pm,從台北車站出發,剛去天龍
一趟買些書來看,唉,看樣子書是唸不完的。

*2
2/11/04 8:11 pm,過紅樹林站了,就先寫到這
邊。

台長: [食夢黑貘]
人氣(238) | 回應(0)| 推薦 (0)| 收藏 (0)| 轉寄
全站分類: 心情日記(隨筆、日記、心情手札)

是 (若未登入"個人新聞台帳號"則看不到回覆唷!)
* 請輸入識別碼:
請輸入圖片中算式的結果(可能為0) 
(有*為必填)
TOP
詳全文