更新時(shí)間:2019-09-03 來(lái)源:黑馬程序員 瀏覽量:
大數(shù)據(jù)環(huán)境下推薦系統(tǒng)框架被劃分為4層,分別為源數(shù)據(jù)采集層、數(shù)據(jù)預(yù)處理層、推薦生成層以及效用評(píng)價(jià)層。其中,在數(shù)據(jù)預(yù)處理層把采集到的相關(guān)數(shù)據(jù)進(jìn)行預(yù)處理計(jì)算,其數(shù)據(jù)處理結(jié)果作為推薦系統(tǒng)數(shù)學(xué)形式的輸入,主要工作為用戶偏好獲取、社會(huì)化網(wǎng)絡(luò)構(gòu)建、上下文用戶偏好獲取等;推薦生成層是推薦系統(tǒng)的核心,在大數(shù)據(jù)環(huán)境下,該層主要任務(wù)就是引入和充分處理大數(shù)據(jù),并且生成實(shí)時(shí)性強(qiáng)、精準(zhǔn)度高以及用戶滿意的推薦結(jié)果,目前主要的推薦技術(shù)有大數(shù)據(jù)環(huán)境下基于矩陣分解的推薦系統(tǒng)、基于隱式反饋的推薦系統(tǒng)、基于社會(huì)化推薦系統(tǒng)以及組推薦系統(tǒng);在效用評(píng)價(jià)層,在將推薦結(jié)果呈現(xiàn)給用戶時(shí),需要結(jié)合用戶的反饋數(shù)據(jù),利用準(zhǔn)確性、實(shí)時(shí)性、新穎性、多樣性等評(píng)價(jià)指標(biāo)評(píng)價(jià)推薦系統(tǒng)的性能,并根據(jù)需求對(duì)其進(jìn)行擴(kuò)展、改進(jìn)等。
今天我們重點(diǎn)分析下基于隱式反饋數(shù)據(jù)的推薦系統(tǒng):
大數(shù)據(jù)環(huán)境下,隱式反饋數(shù)據(jù)(如用戶視頻點(diǎn)擊、瀏覽網(wǎng)頁(yè)、轉(zhuǎn)發(fā)微博、購(gòu)買商品等行為數(shù)據(jù))是主要的輸入數(shù)據(jù)形式,這類數(shù)據(jù)不需要用戶投入更多的精力,同時(shí)也不會(huì)影響用戶正常生活,收集成本低、應(yīng)用場(chǎng)景廣泛,數(shù)據(jù)規(guī)模也更大,而用戶評(píng)分?jǐn)?shù)據(jù)只有非常稀疏的數(shù)據(jù)量。這些條件決定了在大數(shù)據(jù)環(huán)境下,基于隱式反饋數(shù)據(jù)的推薦系統(tǒng)將成為推薦系統(tǒng)的主要形式之一。
傳統(tǒng)的推薦系統(tǒng)忽視了大量的隱式反饋信息,而只關(guān)注于分析用戶評(píng)分?jǐn)?shù)據(jù),這不僅浪費(fèi)了寶貴的大數(shù)據(jù)資源,更限制了大數(shù)據(jù)環(huán)境下推薦系統(tǒng)的發(fā)展。
隱式反饋數(shù)據(jù)分為“選擇”和“未選擇”兩類,其中“選擇”數(shù)據(jù)數(shù)量較少,該數(shù)據(jù)能直接反映用戶偏好;“未選擇”數(shù)據(jù)數(shù)量眾多,卻不能直接解釋為用戶不喜歡,而是無(wú)法確定用戶偏好。目前,研究者主要使用正隱式反饋數(shù)據(jù),如Pálovics等使用用戶收聽(tīng)音樂(lè)的行為數(shù)據(jù),而浪費(fèi)了大量用戶未收聽(tīng)音樂(lè)的數(shù)據(jù)。針對(duì)該問(wèn)題,印鑒等提出一種隱式反饋推薦模型(IFRM,
implicit feedback recommendation
model),將推薦任務(wù)轉(zhuǎn)化為用戶選擇行為發(fā)生概率的最大化問(wèn)題,達(dá)到直接對(duì)隱式反饋數(shù)據(jù)進(jìn)行建模的目的,這樣既利用了“未選擇”信息,又避免引入負(fù)例的同時(shí)引入噪聲,提升了推薦質(zhì)量。同時(shí),借鑒了降維方法解決高維稀疏數(shù)據(jù)的噪聲問(wèn)題,進(jìn)一步采用分桶的并行化隱式反饋模型p-IFRM,提高了算法的效率。隱式信任數(shù)據(jù)是一種由用戶間交互行為反映的用戶關(guān)系,F(xiàn)azali等使用隱式信任數(shù)據(jù)預(yù)測(cè)用戶信任值評(píng)分,實(shí)驗(yàn)證明與采用用戶評(píng)分?jǐn)?shù)據(jù)獲取結(jié)果相似,但其數(shù)據(jù)采集成本更低,有很好的應(yīng)用前景。
相比于用戶評(píng)分?jǐn)?shù)據(jù),隱式反饋數(shù)據(jù)能直觀反映用戶的行為偏好。大數(shù)據(jù)環(huán)境下,豐富的隱式反饋數(shù)據(jù)使得短期局部用戶偏好的捕捉也成為可能,當(dāng)前短期偏好可以較好預(yù)測(cè)用戶未來(lái)一個(gè)時(shí)間段內(nèi)的偏好,生成實(shí)時(shí)性強(qiáng)的推薦結(jié)果。
Yang等提出基于局域隱式反饋大數(shù)據(jù)的推薦算法,模型利用局部和全局的隱式反饋數(shù)據(jù),基于用戶未來(lái)短期內(nèi)的音樂(lè)偏好受到當(dāng)前用戶偏好影響的思想,把用戶時(shí)間劃分為多個(gè)時(shí)間切片,在每個(gè)時(shí)間切片內(nèi),綜合考慮用戶的上下文環(huán)境(如休息、工作或跑步)對(duì)用戶歌曲選擇的影響,根據(jù)當(dāng)前時(shí)間切片內(nèi)獲取的用戶音樂(lè)偏好預(yù)測(cè)下一個(gè)時(shí)間切片內(nèi)用戶的音樂(lè)偏好,進(jìn)而為用戶準(zhǔn)確推薦歌曲,并且使用SGD優(yōu)化算法,提高算法實(shí)時(shí)性,同時(shí)調(diào)節(jié)時(shí)間切片的粒度,從而獲取用戶長(zhǎng)期穩(wěn)定偏好和用戶短期易變偏好。
傳統(tǒng)的推薦方法在處理評(píng)分?jǐn)?shù)據(jù)時(shí)有良好性能,但隱式反饋數(shù)據(jù)沒(méi)有直接的評(píng)分,不同于基于評(píng)分預(yù)測(cè)的方法,直接的基于排序的方法在處理隱式反饋數(shù)據(jù)時(shí)有更好的效果。
Zhao等把微博中提取的用戶對(duì)商品反饋信息加入排序算法,取得了良好的電子商務(wù)推薦效果。但是傳統(tǒng)的排序方法目標(biāo)函數(shù)最小化需要付出很大代價(jià),需要在目標(biāo)采樣上犧牲一定精度來(lái)改善算法的計(jì)算效率,而大數(shù)據(jù)時(shí)這種犧牲往往不能容忍。有研究者認(rèn)為,在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)采樣的方式不再重要,甚至不需要采樣?;谶@樣的思想,Takács等提出RankALS,該算法不進(jìn)行采樣,直接對(duì)排序目標(biāo)函數(shù)最小化,提高了數(shù)據(jù)處理效率。
最后我們對(duì)推薦系統(tǒng)做一下展望:為了緩解更加嚴(yán)峻的“信息過(guò)載”問(wèn)題,推薦系統(tǒng)受到工業(yè)界和學(xué)術(shù)界越來(lái)越多的關(guān)注。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)規(guī)模更大,更新速度更快,數(shù)據(jù)類型更多,傳統(tǒng)的推薦系統(tǒng)無(wú)法直接滿足對(duì)大數(shù)據(jù)環(huán)境數(shù)據(jù)的處理需求,因此在相同的框架下,提出了大數(shù)據(jù)環(huán)境下的推薦系統(tǒng),其對(duì)大規(guī)模數(shù)據(jù)處理能力的需求更高,對(duì)推薦結(jié)果的準(zhǔn)確性和實(shí)時(shí)性要求也更高。同時(shí),大規(guī)模數(shù)據(jù)也為進(jìn)一步提高推薦系統(tǒng)的準(zhǔn)確性提供了機(jī)遇。目前,采集的主要用戶數(shù)據(jù)是隱式反饋數(shù)據(jù),相比于傳統(tǒng)推薦系統(tǒng)主要輸入數(shù)據(jù)——用戶評(píng)分?jǐn)?shù)據(jù),隱式反饋數(shù)據(jù)數(shù)量大、成本低,同時(shí)對(duì)用戶干擾小,其中從移動(dòng)網(wǎng)絡(luò)中采集到的移動(dòng)社會(huì)化網(wǎng)絡(luò)數(shù)據(jù),尤其是用戶位置數(shù)據(jù),有很大的使用價(jià)值。同時(shí),大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)應(yīng)用領(lǐng)域還有很多亟待解決的問(wèn)題,例如,如何利用大數(shù)據(jù)緩解推薦結(jié)果多樣性,如何在保護(hù)用戶隱私安全的同時(shí)充分利用大數(shù)據(jù)帶來(lái)的價(jià)值等。因此,大數(shù)據(jù)環(huán)境下推薦系統(tǒng)仍然有重要的研究意義和巨大的應(yīng)用價(jià)值。
本位來(lái)自黑馬程序員,轉(zhuǎn)載請(qǐng)注明出處。
推薦了解熱門IT培訓(xùn)課程
python+人工智能培訓(xùn)課程
java培訓(xùn)課程
黑色星期五的數(shù)據(jù)探索分析EDA 實(shí)戰(zhàn)
2019-08-30Apache Hive metastore服務(wù)怎么用?[大數(shù)據(jù)培訓(xùn)]?
2019-08-290基礎(chǔ)學(xué)習(xí)大數(shù)據(jù)培訓(xùn)靠譜嗎
2019-03-28大數(shù)據(jù)培訓(xùn)機(jī)構(gòu)那個(gè)好?
2019-03-28大數(shù)據(jù)培訓(xùn)機(jī)構(gòu)排行榜中靠譜的機(jī)構(gòu)是哪個(gè)?
2019-03-28如何挑選大數(shù)據(jù)培訓(xùn)機(jī)構(gòu)?
2019-03-28