更新時(shí)間:2022-06-28 來(lái)源:黑馬程序員 瀏覽量:
數(shù)據(jù)清洗技術(shù)是提高數(shù)據(jù)質(zhì)量的有效方法。這項(xiàng)技術(shù)是一個(gè)較新的研究領(lǐng)域,對(duì)大數(shù)據(jù)集的清洗工作需要花費(fèi)很長(zhǎng)的時(shí)間。由于不同的應(yīng)用領(lǐng)域?qū)?shù)據(jù)清洗有不同的解釋,因此數(shù)據(jù)清洗直到現(xiàn)在都沒(méi)有一個(gè)公認(rèn)、統(tǒng)一的定義。數(shù)據(jù)清洗主要應(yīng)用于3個(gè)領(lǐng)域,即數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域、數(shù)據(jù)挖掘領(lǐng)域以及數(shù)據(jù)質(zhì)量管理領(lǐng)域。
在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域中,當(dāng)多個(gè)數(shù)據(jù)庫(kù)合并時(shí)或多個(gè)數(shù)據(jù)源進(jìn)行集成時(shí),都需要進(jìn)行數(shù)據(jù)清洗。例如,當(dāng)同一個(gè)實(shí)體的記錄在不同數(shù)據(jù)源中以不同的表示格式或錯(cuò)誤表示的情況下,合并后的數(shù)據(jù)倉(cāng)庫(kù)中就會(huì)出現(xiàn)重復(fù)的記錄,數(shù)據(jù)清洗的程序就需要識(shí)別出重復(fù)的記錄并消除重復(fù)的記錄,也就是所謂的數(shù)據(jù)合并或清除(Merge/Purge)問(wèn)題。在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中,數(shù)據(jù)清洗主要包括數(shù)據(jù)的清洗和結(jié)構(gòu)的轉(zhuǎn)換兩個(gè)過(guò)程。
在數(shù)據(jù)挖掘領(lǐng)域中,數(shù)據(jù)清洗是數(shù)據(jù)進(jìn)行預(yù)處理過(guò)程的第一個(gè)步驟。在數(shù)據(jù)預(yù)處理應(yīng)用中,數(shù)據(jù)清洗的主要任務(wù)是提高數(shù)據(jù)的可用性,即去除噪聲、無(wú)關(guān)數(shù)據(jù)以及空值等,并考慮數(shù)據(jù)的動(dòng)態(tài)變化。在字符分類問(wèn)題中,通過(guò)使用機(jī)器學(xué)習(xí)的技術(shù)進(jìn)行數(shù)據(jù)清洗,即使用特定算法檢測(cè)數(shù)據(jù)庫(kù)對(duì)缺失和錯(cuò)誤的數(shù)據(jù)予以修改。
在數(shù)據(jù)質(zhì)量管理領(lǐng)域中,數(shù)據(jù)質(zhì)量管理是一個(gè)學(xué)術(shù)界和商業(yè)界都感興趣的領(lǐng)域。數(shù)據(jù)質(zhì)量管理主要用于解決信息系統(tǒng)中的數(shù)據(jù)質(zhì)量及集成問(wèn)題。在該領(lǐng)域中,數(shù)據(jù)清洗從數(shù)據(jù)質(zhì)量的角度出發(fā),把數(shù)據(jù)清洗過(guò)程和數(shù)據(jù)生命周期集成在一起,對(duì)數(shù)據(jù)的正確性進(jìn)行檢查并提高數(shù)據(jù)質(zhì)量。