《如何在面对庞大的资料.ppt》由会员分享,可在线阅读,更多相关《如何在面对庞大的资料.ppt(13页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、Data Mining 簡介Present by:許志瑋Introduce如何在面對龐大的資料,能有效且快速的從中淬取有用的資訊,以供做為作業或決策上有用的知識,是當前一項重要的課題資料挖掘(data mining)本身是一種自動化的方式,用來尋找或推論被埋藏資料裡的模式或知識,這些模式是無法透過一般的觀察就能看出的Data mining 技術(1/2)Data mining VS StatisticnStatistic:對使用者所提出的假設性問題做驗證nData mining:逐步比對發覺rule Data mining新興技術Data mining 技術(2/2)Data mining 與
2、 Statistic的差異性比較DataminingStatistic應用上尋找未知驗證已知原理上大量運算公式與模式結果可靠性稍差好使用者所需知識低高Data mining 新興技術AI技術之應用nDecision treenNeural networknClusteringnGenetic AlgorithmnRule InductionClustering(1/2)自動化從所輸入之資料中,依照使用者決定之屬性狀態,區分出各個不同的群別 Clustering(2/2)clustering and categorizationRule Induction(1/2)從巨量的資料中尋找到屬性間的關
3、係 表示方式 A=B 此rule表示了事件 A 的發生,將會連帶地使得事件 B也將隨之發生Rule Induction(2/2)1.目標放在假設目標放在假設:若有一個rule表示假如買鐵釘及螺絲釘及螺絲帽,則會買高價的鐵鎚,企業可以了解是否當低價的鐵釘、螺絲釘及螺絲帽不銷售時,可能鐵鎚的銷售也會受影響。2.目標放在結果目標放在結果:若有很多rule的結果都有買咖啡,企業就可以找出所有會與咖啡同時購買的物品,將它們放置在一起,可以增加物品的銷售量。3.目標放在目標放在accuracy:如上面的例子,正確性雖高卻很少發生,但一旦發生獲利率卻相當高,這樣的rule可以提供某些企業做參考。4.目標放在
4、目標放在coverage:這是最普遍存在,一般人想發掘的rule,因為含蓋率高,表示發生的機率高,是一般企業想找的規則。Case Study(1/4)Mining ProcessCase Study(2/4)Case 1:美國第二大電話公司MCI nMCI將總數達到1億4千萬之多的客戶,依其收入、生活型態、打電話的習慣及方式,分門別類,整理出大約1萬種的屬性n從事無數次的排列組合,而得到22種詳盡及高度機密的資料統計大綱 Case Study(3/4)Case 2:系所開課狀態之研究n輸入資料輸入資料:過去五年內畢業生選修選修資料n方法方法:Rule Induction n工具工具:Intelligent miner(IBM)n結果結果:w數個數個support和和accuracy值最高的值最高的rule幾乎都包含幾乎都包含”會計會計”這個科目這個科目w每個每個rule的的support值都很平均,而且其中的科目沒有強值都很平均,而且其中的科目沒有強烈的差異性烈的差異性Case Study(4/4)Discuss:n“必選修”n學生可能沒有依照領域差別修課的習慣。n第二個原因有可能在於系上的開課方向不明確。n第各原因則是受到之前未把會計這類科目過濾出來,使一些可能具代表性的rule被擠到較後面的位置,而未被帶出。