- 協(xié)同過(guò)濾簡(jiǎn)單來(lái)說(shuō)是利用某興趣相投、擁有共同經(jīng)驗(yàn)之群體的喜好來(lái)推薦用戶感興趣的信息,個(gè)人通過(guò)合作的機(jī)制給予信息相當(dāng)程度的回應(yīng)(如評(píng)分)并記錄下來(lái)以達(dá)到過(guò)濾的目的進(jìn)而幫助別人篩選信息,回應(yīng)不一定局限于特別感興趣的,特別不感興趣信息的紀(jì)錄也相當(dāng)重要。
- 協(xié)同過(guò)濾又可分為評(píng)比(rating)或者群體過(guò)濾(social filtering)協(xié)同過(guò)濾以其出色的速度和健壯性,在全球互聯(lián)網(wǎng)領(lǐng)域炙手可熱。
- 以用戶為基礎(chǔ)(User-based)的協(xié)同過(guò)濾、以項(xiàng)目為基礎(chǔ)(Item-based)的協(xié)同過(guò)濾、以模型為基礎(chǔ)(Model- based)的協(xié)同過(guò)濾
- 優(yōu)點(diǎn)
以用戶的角度來(lái)推薦的協(xié)同過(guò)濾系統(tǒng)有下列優(yōu)點(diǎn):
能夠過(guò)濾機(jī)器難以自動(dòng)內(nèi)容分析的信息,如藝術(shù)品,音樂(lè)等。
共用其他人的經(jīng)驗(yàn),避免了內(nèi)容分析的不完全或不精確,并且能夠基于一些復(fù)雜的,難以表述的概念(如信息質(zhì)量、個(gè)人品味)進(jìn)行過(guò)濾。
有推薦新信息的能力??梢园l(fā)現(xiàn)內(nèi)容上完全不相似的信息,用戶對(duì)推薦信息的內(nèi)容事先是預(yù)料不到的??梢园l(fā)現(xiàn)用戶潛在的但自己尚未發(fā)現(xiàn)的興趣偏好。
推薦個(gè)性化、自動(dòng)化程度高、能夠有效的利用其他相似用戶的回饋信息、加快個(gè)性化學(xué)習(xí)的速度。 - 缺點(diǎn)
雖然協(xié)同過(guò)濾作為一推薦機(jī)制有其相當(dāng)?shù)膽?yīng)用,但協(xié)同過(guò)濾仍有許多的問(wèn)題需要解決。整體而言,最典型的問(wèn)題有
新用戶問(wèn)題(New User Problem) 系統(tǒng)開(kāi)始時(shí)推薦質(zhì)量較差;
新項(xiàng)目問(wèn)題(New Item Problem) 質(zhì)量取決于歷史數(shù)據(jù)集;
稀疏性問(wèn)題(Sparsity);
系統(tǒng)延伸性問(wèn)題(Scalability)
來(lái)自百度百科
- 要實(shí)現(xiàn)協(xié)同過(guò)濾的推薦算法,要進(jìn)行以下三個(gè)步驟:
收集數(shù)據(jù)——找到相似用戶和物品——進(jìn)行推薦 - Item CF 和 User CF 是基于協(xié)同過(guò)濾推薦的兩個(gè)最基本的算法,User CF 是很早以前就提出來(lái)了,Item CF 是從 Amazon 的論文和專利發(fā)表之后(2001 年左右)開(kāi)始流行,大家都覺(jué)得 Item CF 從性能和復(fù)雜度上比 User CF 更優(yōu),其中的一個(gè)主要原因就是對(duì)于一個(gè)在線網(wǎng)站,用戶的數(shù)量往往大大超過(guò)物品的數(shù)量,同時(shí)物品的數(shù)據(jù)相對(duì)穩(wěn)定,因此計(jì)算物品的相似度不但計(jì)算量較小,同時(shí)也不必頻繁更新。但我們往往忽略了這種情況只適應(yīng)于提供商品的電子商務(wù)網(wǎng)站,對(duì)于新聞,博客或者微內(nèi)容的推薦系統(tǒng),情況往往是相反的,物品的數(shù)量是海量的,同時(shí)也是更新頻繁的,所以單從復(fù)雜度的角度,這兩個(gè)算法在不同的系統(tǒng)中各有優(yōu)勢(shì),推薦引擎的設(shè)計(jì)者需要根據(jù)自己應(yīng)用的特點(diǎn)選擇更加合適的算法。
來(lái)自博客網(wǎng)