首頁技術(shù)文章正文

數(shù)據(jù)清洗之缺失值和重復(fù)值的清洗

更新時間:2022-07-22 來源:黑馬程序員 瀏覽量:

IT培訓班

大數(shù)據(jù)中常見的數(shù)據(jù)質(zhì)量問題主要包括缺失值、重復(fù)值以及錯誤值等問題。下面針對缺失值的清洗、重復(fù)值的清洗以及錯誤值的清洗進行講解。

1.缺失值的清洗

缺失值的清洗方法主要分為兩類,即忽略缺失值數(shù)據(jù)和填充缺失值數(shù)據(jù)。

(1)忽略缺失值數(shù)據(jù)方法是直接通過刪除屬性或?qū)嵗雎匀笔е档臄?shù)據(jù)。

(2)填充缺失值數(shù)據(jù)方法是使用最接近缺失值的值替代缺失的值,包括人工填寫缺失值,使用一個全局常量填充空缺值(即將缺失的值用同一個常量Unknown替換)以及使用屬性的平均值、中間值、最大(小)值填充缺失值,或使用最可能的值(即通過回歸、貝葉斯形式化方法的工具或決策樹歸納確定的值)填充缺失值。

2.重復(fù)值的清洗

目前清洗重復(fù)值的基本思想是“排序和合并”。清洗重復(fù)值的方法主要有相似度計算和基于基本近鄰排序算法等方法。

(1)相似度計算是通過計算記錄的個別屬性的相似度,然后考慮每個屬性的不同權(quán)重值,進行加權(quán)平均后得到記錄的相似度,若兩個記錄相似度超過某一個閾值,則認為兩條記錄匹配,否則認為這兩條記錄指向不同的實體。

(2)基于基本近鄰排序算法的核心思想是為了減少記錄的比較次數(shù),在按關(guān)鍵字排序后的數(shù)據(jù)集上移動一個大小固定的窗口,通過檢測窗口內(nèi)的記錄判定它們是否相似,從而確定并處理重復(fù)記錄。





分享到:
在線咨詢 我要報名
和我們在線交談!