少,。所應(yīng)用的技術(shù)越多,用戶(hù)血液溶漿機(jī)在選擇技術(shù)時(shí)就越困難,。這就像在商場(chǎng)里選電視機(jī)一樣,,電視 的品牌越多,選擇時(shí)就越困難,,因?yàn)檫@些品牌 間的區(qū) 別并 不大,。同 樣,在理解 了數(shù) 據(jù)挖 掘技 術(shù)以及它們之間的相似性之后,,就會(huì)發(fā)現(xiàn),,最初對(duì)這些技術(shù)上的不同理解只是因?yàn)闆](méi)有很好 的理解這些技術(shù)本身,一旦理解技術(shù)本身之后,,就知道這些技術(shù)之間是十分類(lèi)似,。 要對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行比較,應(yīng)首先對(duì) 使用這 些技 術(shù)數(shù) 據(jù)挖掘 產(chǎn)品 進(jìn)行評(píng) 價(jià),。評(píng) 價(jià)通 �,?蓮娜齻(gè)方面考慮。第一個(gè)是商業(yè)評(píng)價(jià),,它更多考慮市場(chǎng)特點(diǎn),。第二個(gè)是應(yīng)用評(píng)價(jià),它立 足于比較細(xì)節(jié)的層次,,說(shuō)明了某一技術(shù)在哪個(gè)應(yīng)用領(lǐng)域效果最好,,在哪個(gè)應(yīng)用領(lǐng)域使用效果 不好或者不能使用。第三個(gè)是算法評(píng)價(jià),,是最詳細(xì)的評(píng)價(jià),,它是從數(shù)據(jù)挖掘的最低層比較這 些技術(shù)。數(shù)據(jù)挖掘技術(shù)在 算法 評(píng) 價(jià)上 的表 現(xiàn)直 接影 響 它在 商業(yè) 和應(yīng) 用評(píng) 價(jià) 上的 排 名,。例 如,,在算法評(píng)價(jià)上,如果處理干擾數(shù)據(jù)的能力很高,,那么在
商業(yè)評(píng)價(jià)上,,表明其有更高的自適 應(yīng)性能。 (1) 商業(yè)評(píng)價(jià) 商業(yè)評(píng)價(jià)主要評(píng)價(jià)數(shù)據(jù)挖掘技術(shù)的商業(yè)價(jià) 值,。在評(píng) 價(jià)過(guò) 程中,,考 慮的不 是學(xué) 術(shù)中 的速 度或性能,,而是商業(yè)團(tuán)體所遇到的現(xiàn)實(shí)問(wèn)題。因 為有 些數(shù) 據(jù)挖掘 技術(shù) 不能實(shí) 際應(yīng) 用到 商業(yè) 中去,,只是停留在學(xué)術(shù)研究上,。 (2) 應(yīng)用評(píng)價(jià) 應(yīng)用評(píng)價(jià)主要側(cè)重點(diǎn)是幫助一個(gè)特定應(yīng)用 選擇 數(shù)據(jù)挖 掘算 法。在特 定應(yīng) 用中,,一 些數(shù) 據(jù)挖掘技術(shù)的易用性要比另一些技術(shù)要好,。例如,決 策樹(shù) 和神經(jīng) 網(wǎng)絡(luò) 都能夠 從數(shù) 據(jù)庫(kù) 中產(chǎn) 生規(guī)則,,但是一般來(lái)講,,如果要發(fā)現(xiàn)數(shù)據(jù)庫(kù)中所有關(guān)聯(lián)規(guī)則或有趣的規(guī)則,那么,,規(guī)則推理技 術(shù)就是最有效的方法,。再 比如,在 文字 的識(shí) 別 和處 理上,,決 策樹(shù) 和 神經(jīng) 網(wǎng)絡(luò) 都是 可 用的 算 法,,但是最好的方法則是鄰近搜索算法。 (3) 算法評(píng)價(jià) 算法評(píng)價(jià)從算法本身來(lái)詳細(xì)地說(shuō)明算法的 優(yōu)缺 點(diǎn),。例如,,在 比較 時(shí)可以 將準(zhǔn) 確性 作為 10.1 數(shù)據(jù)挖掘及其應(yīng)用 353 一個(gè)指標(biāo),但是如果一個(gè)算法本身沒(méi)有辦法處理一定程度上受到破壞或干擾的數(shù)據(jù),,那么算 法的準(zhǔn)確性又能說(shuō)明 什 么,?或 者,,如 果 一個(gè) 算 法 本身 運(yùn) 行 很 快,,例 如 在 10 min 內(nèi)處 理 10 GB的數(shù)據(jù),但是如果前期數(shù)據(jù)的準(zhǔn)確需要一個(gè)月,,這個(gè)算法又有什么用,? 總而言之,對(duì)數(shù)據(jù)挖掘算法的比較一定要選擇一個(gè)衡量的標(biāo)準(zhǔn),,而標(biāo)準(zhǔn)的選擇也是比較 困難的,,因?yàn)樵谝粋(gè)評(píng)價(jià)標(biāo)準(zhǔn)下表現(xiàn)優(yōu)秀的算 法,在另 一個(gè)標(biāo) 準(zhǔn)下 并不 一定優(yōu) 秀,,所以 這要 根據(jù)用戶(hù)的實(shí)際
情況而定,。上面只是給出了評(píng)價(jià)數(shù)據(jù)挖掘算法時(shí),可以考慮的三個(gè)方面,,僅 供參考,。 10.1.7 數(shù)據(jù)挖掘的過(guò)程 數(shù)據(jù)挖掘是一個(gè)依賴(lài)應(yīng)用的問(wèn)題,不同的數(shù) 據(jù)挖 掘應(yīng) 用可能 需要 不同的 數(shù)據(jù) 挖掘 技術(shù) 進(jìn)行處理,,處理流程可能也會(huì)有所不同,。一般 情況 下,數(shù)據(jù)挖 掘的 過(guò)程 包括5 個(gè)步 驟:確定 業(yè)務(wù)對(duì)象、數(shù)據(jù)準(zhǔn)備,、數(shù)據(jù)挖掘,、結(jié)果的解釋評(píng)價(jià)與可視化以及知識(shí)同化,如圖10.2所示,。 圖10.2 數(shù)據(jù)挖掘的基本過(guò)程 1. 確定業(yè)務(wù)對(duì)象 清晰地定義出業(yè)務(wù)問(wèn)題,,認(rèn)清數(shù)據(jù)挖掘 的目的 是數(shù) 據(jù)挖 掘的重 要一 步。挖掘 的最 后結(jié) 構(gòu)是不可預(yù)測(cè)的,,但要探索的問(wèn)題應(yīng)是有預(yù)見(jiàn)的,,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則是帶有盲目性 的,是不會(huì)成功的,。



