24h購物| | PChome| 登入
2015-09-11 11:21:43| 人氣718| 回應0 | 上一篇 | 下一篇

千萬別被Big Data 與 Data Mining騙了

推薦 0 收藏 0 轉貼0 訂閱站台

Big Data 與 Data Mining
雖然這幾天一直很不舒服, 還是忍不住要一吐為快!

就是有人故意誤用與濫用 Big Data 與 Data Mining 才會造成波卡風坡

Social Media 是蒐集資料最快速 廉價的方法 . 但是 使用Social Media 前 必須知道這種資料是非常不具有代表性 尤其是沉默的大眾.
最有名的誤用social media例子應該是網路巨人 Google. Google想用 Google Trend所累積的數據推估去年流感的數目,結果發現推估值比實際的數值高出50%左右。這顯示民眾在social media中找尋更多的資訊,但不表示搜尋者罹病。
尤其是最近經常發生的各種形式的人云己云的網路謠言,更會造成完全錯誤的推論!
你怎麼Filtering調所謂的網路殭屍? 如何判斷發言者真正意圖? 社群通常是屬於某些具有特殊興趣者在發言, 先天上已經不具代表性,如何judge所選的社群是appropriate?
有人告訴我 他所蒐集的social media data 有將近70% 是junky. 剩下的30%裡面有90%是來自重複的sources. 也就是說 整體的 7%才是可用的資料.
記住 "可用的資料" ! 並不代表這些資料是正確的!
再往下推估 我不知道所蒐集的資料究竟有多大的代表性與實質意義!

誤用與濫用 Big Data 與 Data Mining 才會造成波卡風坡
一般對大數據的通用定義為:大量、即時及異質資料。大數據分析乃透過多樣異質的大量資料相互比對,經除錯及校正之後,呈現特定人事物的行為軌跡。以網路聲量作為決策依據,僅應用單一同質資料,不符大數據異質特性。同時聲量指標只反映了該人物或事件被關注的程度,並不能表示瀏覽民眾贊成或反對的態度。
研究網路輿論的方法,不僅量測聲量大小,還同時檢定傳播源頭,觀察其傳播途徑及速度,並結合語意及情緒分析,進一步判讀議題的正負趨勢變化,如此才能得到全方位的資訊。

理論上 專家是被雇來做事 (make the decision right!) 
但是有權力的政客獨夫則只是斷章取義 擷取一些對他們有利的片段
They don't give a shit to 真正的 whole big picture!
完全以自我本身利益或狂妄(不一定是無知!)做決定!

台長: Dreamer
人氣(718) | 回應(0)| 推薦 (0)| 收藏 (0)| 轉寄
全站分類: 心情日記(隨筆、日記、心情手札)

是 (若未登入"個人新聞台帳號"則看不到回覆唷!)
* 請輸入識別碼:
請輸入圖片中算式的結果(可能為0) 
(有*為必填)
TOP
詳全文