[QOTD]一個問題的發現往往須要一年的話,定義出問
題後要找到方法只要一個月就可以知道如何解
決,而去解決這問題的實作是不用一個星期的
*1
Data Mining 事實上是一個綜合性的學科,基本
上就包含下面幾個:
1. 資料結構與資料庫
2. 統計學及高等/數理統計學
3. 數值方法與數值分析
4. 分散式系統
5. 演散法與代數學
等等幾個較大的既有領域,且此領域有一半以上
都跟 Data Mining 都有相關的。
若把部份必須先修的話還包含:
1. 程式設計/程式語言
2. 作業研究與行為分析
3. 管理學與管理數學
4. 行銷學
5. 經濟學(數理經濟學部份)
等等其他較大的專門領域,這些領域都相關與必
要,但是否要全部的話就很難說了。
再來是就 Data Mining 的小項與分支就包含:
1. 知識管理(Knowledge Management)
2. Information Structure/Artitechture
(資訊架構與建築)
3. Agent(代理者)/Software Agent
4. Data WareHouse
5. Data Visulaization/Prediction
這些目前的幾個主要項目,而通常應用的範圍包
含:
1. CRM(Custom Relation Management)
2. OLAP(OnLine Analysis and Processing)
3. ERP(Enterprice Resource Planning)
這三個領域。
當然這還是蠻初淺的就結構去分類,且談不上真
的 Mutaul Exclusive( 完整互斥 ),所以不算是個
好的架構,但也確定包含 80% 以上的內容了。
但現在 Data Mining 在教學實務上最大的問題
不只是技術上面,例如過於強調統計的方法而乎略其
他的數學基礎,還有在問題的發現與承現這才是最困
難的。
一個問題的發現往往須要一年的話,定義出問題
後要找到方法只要一個月就可以知道如何解決,而去
解決這問題的實作是不用一個星期的,所以學再多實
作的內容在解決問題上可能是最末端的事。
因此,不要想去學 Know-how,要去了解
Know-why,更要去研究事情的本質 Know-what,而這
個事情的本質就是指那些經濟學、行銷學等等,
Know-why 是指那些統計學、分散式系統等等的基礎
,而 Know-how 才是那些 CRM 等等的 Data Mining
的領域,所以與其花很多時間在上面,更要把其他的
部份更紮根,甚至套句米塞斯的說法:" 只是一個經
濟學家的經濟學家,絕對不是一個好的經濟學家 ",
這個也可以套用在 Data Mining 這個領域。
就像是最近所去發展出來的系統,雖然統計是基
礎,但統計與 Data Mining 的基本假設就是不一樣
,所以到最後用的方法就是用數值方法與演算法的
Recursive( 遞迴 )等等的技巧,且除了程式設計以
外,到最後是花更多的時間去做系統分析 (System
Analysis) 與最佳化 (Optimization),包含系統 (
虛擬機器 /Virtual Machine) 本身與資料庫本身的
問題反而是較大的。
所以這樣看起來,若是懂些時間序列等等的數值
方法或群落分析等等統計學方法就說學好這門學科,
可能還太早了些。
*2
**********************************************
*1
2/11/04 7:40 pm,從台北車站出發,剛去天龍
一趟買些書來看,唉,看樣子書是唸不完的。
*2
2/11/04 8:11 pm,過紅樹林站了,就先寫到這
邊。
文章定位: