2. 數(shù)據(jù)準備 數(shù)據(jù)準備 階 段 又 可 分 為 3 個 子 步 驟:數(shù) 據(jù) 選 取(DataSelection),、數(shù) 據(jù) 預(yù) 處 理(Data Preprocessing)和數(shù)據(jù)變換(DataTransformation),。 (1) 數(shù)據(jù)選取 血液融漿機 數(shù)據(jù)選取的目的就是根據(jù)數(shù)據(jù)挖掘的目的和任務(wù),,確定實現(xiàn)這一目標與任務(wù)所需的操作 對象,即目標數(shù)據(jù)(TargetData),它是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取的一組相關(guān)數(shù)據(jù),。 354 第十章 數(shù)據(jù)挖掘與Agent技術(shù) (2) 數(shù)據(jù)預(yù)處理 由于所選取的數(shù)據(jù)可能具有這樣一些特性:巨 量性,、動態(tài) 性、噪聲 性,、缺值 和稀疏 性,,一 般在實施數(shù)據(jù)挖掘之前應(yīng)對其進行一些預(yù)處理。數(shù)據(jù)預(yù)處理一般可能包括消除噪聲或數(shù)據(jù) 清洗,、推導(dǎo)計算缺值數(shù)據(jù),、消除數(shù)據(jù)的不一致性、消除重復(fù)記錄以及完成數(shù)據(jù)類型轉(zhuǎn)換(如把 連
續(xù)值數(shù)據(jù)轉(zhuǎn)換為離散型的數(shù)據(jù),,以便于符號 歸納,,或 是把離 散型 的轉(zhuǎn) 換為連 續(xù)值 型的,以 便于神經(jīng)網(wǎng)絡(luò)歸納)等,,以確保數(shù)據(jù)的質(zhì)量,,為進一步的數(shù)據(jù)分析做準備。 (3) 數(shù)據(jù)變換 數(shù)據(jù)變換的主要目 的是 消減 數(shù)據(jù) 維數(shù) 或 降維(DimensionReduction),,即 從初 始 特征 中 找出真正有用的特征以減少數(shù)據(jù)挖掘時要考 慮的特 征或 變量個 數(shù),。另 外,為 了適 應(yīng)所 選擇 的數(shù)據(jù)挖掘算法和工具,,也要對數(shù)據(jù)做一些相應(yīng)的變換,。比如,神經(jīng)網(wǎng)絡(luò)要求所有的變量的 取值都在0~1之間,,因此在一些數(shù)據(jù)(包括非數(shù)值數(shù)據(jù))被提交到神經(jīng)網(wǎng)絡(luò)算法之前就必須 先對不在[0,1]內(nèi)的變量進行映射變換,。 3. 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘階段的任務(wù)是 首先 確定 數(shù)據(jù) 挖掘 要 完成 什么 樣的 功能,,如數(shù) 據(jù) 總結(jié)、數(shù)據(jù) 分 類,、數(shù)據(jù)聚類,、趨勢分析、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序 列模式 發(fā)現(xiàn) 等,。在確 定要 完成的 數(shù)據(jù) 挖掘 功能 后,,就要決定使用什么樣的挖掘算法,同樣的任務(wù)可
以用不同的算法來實現(xiàn),。選擇實現(xiàn)算法 有兩個考慮因素:一是不同的數(shù)據(jù)有不同的特 點,,因此 需要用 與之 相關(guān) 的算法 來挖 掘;二是 用戶或?qū)嶋H運行系統(tǒng)的要求,,有的用戶 可能希 望獲 取描 述型的(Descriptive),、容易 理解 的知 識(在這種情況下,采用規(guī)則表示的挖掘方法顯然要好于神經(jīng)網(wǎng)絡(luò)之類的方法),而有的用戶 或系統(tǒng)的目的是獲取預(yù)測準確度盡可能高 的預(yù)測 型(Predictive)知識,。 算法確 定之 后,,就由 挖掘系統(tǒng)對數(shù)據(jù)進行分析,實現(xiàn)自動挖掘,。數(shù) 據(jù)挖掘 算法是 KDD 的核 心,,也 是目 前研 究人 員主要努力的方向,要獲得好的挖掘效果,,必須對各種挖掘算法的要求或前提假設(shè)有充分的 理解,。 4. 結(jié)果的解釋評價與可視化



