毋庸諱言,和傳統(tǒng)架構(gòu)(BS開發(fā)/CS開發(fā))相比,人工智能技術(shù)確實有一定的基礎(chǔ)門檻,它注定不是大眾化,普適化的東西。但也不能否認,人工智能技術(shù)也具備像傳統(tǒng)架構(gòu)一樣“套路化”的流程,也就是說,我們大可不必自己手動構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的機器學習系統(tǒng),直接使用深度學習框架反而更加簡單,深度學習可以幫助我們自動地從原始數(shù)據(jù)中提取特征,不需要手動選擇和提取特征。
之前我們手動構(gòu)建了一個小型的神經(jīng)網(wǎng)絡(luò),解決了機器學習的分類問題,本次我們利用深度學習框架Tensorflow2.11構(gòu)建一套基于神經(jīng)網(wǎng)絡(luò)協(xié)同過濾模型(NCF)的視頻推薦系統(tǒng),解決預(yù)測問題,完成一個真正可以落地的項目。
推薦系統(tǒng)發(fā)展歷程
“小伙子,要光盤嗎?新的到貨了,內(nèi)容相當精彩!”
大約20年前,在北京中關(guān)村的街頭,一位抱著嬰兒的中年大媽興奮地拽著筆者的胳臂,手舞足蹈地推薦著她的“產(chǎn)品”,大概這就是最原始的推薦系統(tǒng)雛形了。
事實上,時至今日,依然有類似產(chǎn)品使用這樣的套路,不管三七二十一,弄個首頁大Banner,直接懟用戶臉上,且不論用戶感不感興趣,有沒有用戶點擊和轉(zhuǎn)化,這種強買強賣式的推薦,著實不怎么令人愉快。
所以推薦系統(tǒng)解決的痛點應(yīng)該是用戶的興趣需求,給用戶推薦喜歡的內(nèi)容,才是推薦系統(tǒng)的核心。
于是乎,啟發(fā)式推薦算法(Memory-based algorithms)就應(yīng)運而生了。
啟發(fā)式推薦算法易于實現(xiàn),并且推薦結(jié)果的可解釋性強。啟發(fā)式推薦算法又可以分為兩類:
基于用戶的協(xié)同過濾(User-based collaborative filtering):主要考慮的是用戶和用戶之間的相似度,只要找出相似用戶喜歡的物品,并預(yù)測目標用戶對對應(yīng)物品的評分,就可以找到評分最高的若干個物品推薦給用戶。舉個例子,李老師和閆老師擁有相似的電影喜好,當新電影上映后,李老師對其表示喜歡,那么就能將這部電影推薦給閆老師。
基于物品的協(xié)同過濾(Item-based collaborative filtering):主要考慮的是物品和物品之間的相似度,只有找到了目標用戶對某些物品的評分,那么就可以對相似度高的類似物品進行預(yù)測,將評分最高的若干個相似物品推薦給用戶。舉個例子,如果用戶A、B、C給書籍X,Y的評分都是5分,當用戶D想要買Y書籍的時候,系統(tǒng)會為他推薦X書籍,因為基于用戶A、B、C的評分,系統(tǒng)會認為喜歡Y書籍的人在很大程度上會喜歡X書籍。
啟發(fā)式協(xié)同過濾算法是一種結(jié)合了基于用戶的協(xié)同過濾和基于項目的協(xié)同過濾的算法,它通過啟發(fā)式規(guī)則來預(yù)測用戶對物品的評分。
然而,啟發(fā)式協(xié)同過濾算法也存在一些缺陷:
難以處理冷啟動問題:當一個用戶或一個物品沒有足夠的評分數(shù)據(jù)時,啟發(fā)式協(xié)同過濾算法無法對其進行有效的預(yù)測,因為它需要依賴于已有的評分數(shù)據(jù)。
對數(shù)據(jù)稀疏性敏感:如果數(shù)據(jù)集中存在大量的缺失值,啟發(fā)式協(xié)同過濾算法的預(yù)測準確率會受到影響,因為它需要依賴于完整的評分數(shù)據(jù)來進行預(yù)測。
算法的可解釋性較差:啟發(fā)式協(xié)同過濾算法的預(yù)測結(jié)果是通過啟發(fā)式規(guī)則得出的,這些規(guī)則可能很難被解釋和理解。
受限于啟發(fā)式規(guī)則的質(zhì)量:啟發(fā)式協(xié)同過濾算法的預(yù)測準確率受到啟發(fā)式規(guī)則的質(zhì)量影響,如果啟發(fā)式規(guī)則得不到有效的優(yōu)化和更新,算法的性能可能會受到影響。
說白了,這種基于啟發(fā)式的協(xié)同過濾算法,很容易陷入一個小范圍的困境,就是如果某個用戶特別喜歡體育的視頻,那么這種系統(tǒng)就會玩命地推薦體育視頻,實際上這個人很有可能也喜歡藝術(shù)類的視頻,但是囿于冷啟動問題,無法進行推薦。
為了解決上面的問題,基于神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾算法誕生了,神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾算法可以通過將用戶和物品的特征向量作為輸入,來預(yù)測用戶對新物品的評分,從而解決冷啟動問題。
對數(shù)據(jù)稀疏性的魯棒性:神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾算法可以自動學習用戶和物品的特征向量,并能夠通過這些向量來預(yù)測評分,因此對于數(shù)據(jù)稀疏的情況也能進行有效的預(yù)測。
更好的預(yù)測準確率:神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾算法可以通過多層非線性變換來學習用戶和物品之間的復(fù)雜關(guān)系,從而能夠提高預(yù)測準確率。
可解釋性和靈活性:神經(jīng)網(wǎng)絡(luò)的協(xié)同過濾算法可以通過調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)來優(yōu)化預(yù)測準確率,并且可以通過可視化方法來解釋預(yù)測結(jié)果。
所以基于神經(jīng)網(wǎng)絡(luò)協(xié)同過濾模型是目前推薦系統(tǒng)的主流形態(tài)。
基于稀疏矩陣的視頻完播數(shù)據(jù)
首先構(gòu)造我們的數(shù)據(jù)矩陣test.csv文件:
User,Video 1,Video 2,Video 3,Video 4,Video 5,Video 6
User1,10,3,,,,
User2,,10,,10,5,1
User3,,,9,,,
User4,6,1,,8,,9
User5,1,,1,,10,4
User6,1,4,1,,10,1
User7,,2,1,2,,8
User8,,,,1,,
User9,1,,10,,3,1
這里橫軸是視頻數(shù)據(jù),縱軸是用戶,對應(yīng)的數(shù)據(jù)是用戶對于視頻的完播程度,10代表看完了,1則代表只看了百分之十,留空的代表沒有看。
編寫ncf.py腳本,將數(shù)據(jù)讀入內(nèi)存并輸出:
import pandas as pd
# set pandas to show all columns without truncation and line breaks
pd.set_option('display.max_columns', 1000)
pd.set_option('display.width', 1000)
# data = np.loadtxt('data/test-data.csv', delimiter=',', dtype=int, skiprows=1,)
data = pd.read_csv('data/test-data.csv')
print(data)
程序返回:
User Video 1 Video 2 Video 3 Video 4 Video 5 Video 6
0 User1 10.0 3.0 NaN NaN NaN NaN
1 User2 NaN 10.0 NaN 10.0 5.0 1.0
2 User3 NaN NaN 9.0 NaN NaN NaN
3 User4 6.0 1.0 NaN 8.0 NaN 9.0
4 User5 1.0 NaN 1.0 NaN 10.0 4.0
5 User6 1.0 4.0 1.0 NaN 10.0 1.0
6 User7 NaN 2.0 1.0 2.0 NaN 8.0
7 User8 NaN NaN NaN 1.0 NaN NaN
8 User9 1.0 NaN 10.0 NaN 3.0 1.0
一目了然。
有數(shù)據(jù)的列代表用戶看過,1-10代表看了之后的完播程度,如果沒看過就是NAN,現(xiàn)在我們的目的就是“猜”出來這些沒看過的視頻的完播數(shù)據(jù)是多少?從而根據(jù)完播數(shù)據(jù)完成視頻推薦系統(tǒng)。
矩陣拆解算法
有一種推薦算法是基于矩陣拆解,通過假設(shè)的因素去“猜”稀疏矩陣的空缺數(shù)據(jù),猜出來之后,再通過反向傳播的逆運算來反推稀疏矩陣已存在的數(shù)據(jù)是否正確,從而判斷“猜”出來的數(shù)據(jù)是否正確:
[圖片上傳失敗...(image-9a88e8-1680135441449)]
通俗地講,跟算命差不多,但是基于數(shù)學原理,如果通過反推證明針對一個人的算命策略都是對的,那么就把這套流程應(yīng)用到其他人身上。
但是這套邏輯過于線性,也就是因素過于單一,比如我喜歡黑色的汽車,那么就會給我推所有黑色的東西,其實可能黑色的因素僅局限于汽車,是多重因素疊加導致的,所以矩陣拆解并不是一個非常好的解決方案。
基于神經(jīng)網(wǎng)絡(luò)
使用神經(jīng)網(wǎng)絡(luò)計算,必須將數(shù)據(jù)進行向量化操作:
# reset the column.index to be numeric
user_index = data[data.columns[0]]
book_index = data.columns
data = data.reset_index(drop=True)
data[data.columns[0]] = data.index.astype('int')
# print(data)
# print(data)
scaler = 10
# data = pd.DataFrame(data.to_numpy(), index=range(0,len(user_index)), columns=range(0,len(book_index)))
df_long = pd.melt(data, id_vars=[data.columns[0]],
ignore_index=True,
var_name='video_id',
value_name='rate').dropna()
df_long.columns = ['user_id', 'video_id', 'rating']
df_long['rating'] = df_long['rating'] / scaler
# replace the user_id to user by match user_index
df_long['user_id'] = df_long['user_id'].apply(lambda x: user_index[x])
# data = df_long.to_numpy()
print(df_long)
程序返回:
user_id video_id rating
0 User1 Video 1 1.0
3 User4 Video 1 0.6
4 User5 Video 1 0.1
5 User6 Video 1 0.1
8 User9 Video 1 0.1
9 User1 Video 2 0.3
10 User2 Video 2 1.0
12 User4 Video 2 0.1
14 User6 Video 2 0.4
15 User7 Video 2 0.2
20 User3 Video 3 0.9
22 User5 Video 3 0.1
23 User6 Video 3 0.1
24 User7 Video 3 0.1
26 User9 Video 3 1.0
28 User2 Video 4 1.0
30 User4 Video 4 0.8
33 User7 Video 4 0.2
34 User8 Video 4 0.1
37 User2 Video 5 0.5
40 User5 Video 5 1.0
41 User6 Video 5 1.0
44 User9 Video 5 0.3
46 User2 Video 6 0.1
48 User4 Video 6 0.9
49 User5 Video 6 0.4
50 User6 Video 6 0.1
51 User7 Video 6 0.8
53 User9 Video 6 0.1
這里scaler=10作為數(shù)據(jù)范圍的閾值,讓計算機將完播數(shù)據(jù)散列成0-1之間的浮點數(shù),便于神經(jīng)網(wǎng)絡(luò)進行計算。
隨后安裝Tensorflow框架:
pip3 install tensorflow
如果是Mac用戶,請安裝mac版本:
pip3 install tensorflow-macos
接著針對數(shù)據(jù)進行打標簽操作:
import numpy as np
import pandas as pd
import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
# dataset = pd.read_csv(url, compression='zip', usecols=['userId', 'movieId', 'rating'])
dataset = df_long
# Encode the user and video IDs
user_encoder = LabelEncoder()
video_encoder = LabelEncoder()
dataset['user_id'] = user_encoder.fit_transform(dataset['user_id'])
dataset['video_id'] = video_encoder.fit_transform(dataset['video_id'])
# Split the dataset into train and test sets
# train, test = train_test_split(dataset, test_size=0.2, random_state=42)
train = dataset
# Model hyperparameters
num_users = len(dataset['user_id'].unique())
num_countries = len(dataset['video_id'].unique())
隨后定義64個維度針對向量進行處理:
embedding_dim = 64
# Create the NCF model
inputs_user = tf.keras.layers.Input(shape=(1,))
inputs_video = tf.keras.layers.Input(shape=(1,))
embedding_user = tf.keras.layers.Embedding(num_users, embedding_dim)(inputs_user)
embedding_video = tf.keras.layers.Embedding(num_countries, embedding_dim)(inputs_video)
# Merge the embeddings using concatenation, you can also try other merging methods like dot product or multiplication
merged = tf.keras.layers.Concatenate()([embedding_user, embedding_video])
merged = tf.keras.layers.Flatten()(merged)
# Add fully connected layers
dense = tf.keras.layers.Dense(64, activation='relu')(merged)
dense = tf.keras.layers.Dense(32, activation='relu')(dense)
output = tf.keras.layers.Dense(1, activation='sigmoid')(dense)
# Compile the model
model = tf.keras.Model(inputs=[inputs_user, inputs_video], outputs=output)
model.compile(optimizer='adam', loss='mse', metrics=['mae'])
這里定義了一個64維度的 embedding 類用來對向量進行處理。相當于就是把屬于數(shù)據(jù)當中的所有特征都設(shè)定成一個可以用一個64維向量標識的東西,然后通過降維處理之后使得機器能以一個低維的數(shù)據(jù)流形來“理解”高維的原始數(shù)據(jù)的方式來“理解”數(shù)據(jù)的“含義”,
從而實現(xiàn)機器學習的目的。而為了檢驗機器學習的成果(即機器是否有真正理解特征的含義),則使用mask(遮罩)的方式,將原始數(shù)據(jù)當中的一部分無關(guān)核心的內(nèi)容“遮掉”,然后再嘗試進行輸入輸出操作,如果輸入輸出操作的結(jié)果與沒有遮罩的結(jié)果進行比較后足夠相近,或者完全相同,則判定機器有成功學習理解到向量的含義。
這里需要注意的是,因為embedding 這個詞其實是有一定程度的誤用的關(guān)系,所以不要嘗試用原來的語義去理解這個詞,通俗地講,可以把它理解為“特征(feature)”,即從原始數(shù)據(jù)中提取出來的一系列的特征屬性,至于具體是什么特征,不重要。
這里有64個維度,那就可以認為是從輸入的原始數(shù)據(jù)當中提取64個“特征”,然后用這個特征模型去套用所有的輸入的原始數(shù)據(jù),然后再將這些數(shù)據(jù)通過降維轉(zhuǎn)換,最終把每一個輸入的向量轉(zhuǎn)換成一個1維的特殊字符串,然后讓機器實現(xiàn)“理解復(fù)雜的輸入”的目的,而那個所謂的訓練過程,其實也就是不斷地用遮罩mask去遮掉非核心的數(shù)據(jù),然后對比輸出結(jié)果,來看機器是否成功實現(xiàn)了學習的目的。
說白了,和矩陣拆解差不多,只不過矩陣拆解是線性單維度,而神經(jīng)網(wǎng)絡(luò)是非線性多維度。
最后進行訓練和輸出:
model.fit(
[train['user_id'].values, train['video_id'].values],
train['rating'].values,
batch_size=64,
epochs=100,
verbose=0,
# validation_split=0.1,
)
result_df = {}
for user_i in range(1, 10):
user = f'User{user_i}'
result_df[user] = {}
for video_i in range(1, 7):
video = f'Video {video_i}'
pred_user_id = user_encoder.transform([user])
pred_video_id = video_encoder.transform([video])
result = model.predict(x=[pred_user_id, pred_video_id], verbose=0)
result_df[user][video] = result[0][0]
result_df = pd.DataFrame(result_df).T
result_df *= scaler
print(result_df)
程序返回:
Video 1 Video 2 Video 3 Video 4 Video 5 Video 6
User1 9.143433 3.122697 5.831852 8.930688 9.223139 9.148163
User2 2.379406 9.317654 9.280337 9.586231 5.115635 0.710877
User3 6.046935 8.950342 9.335093 9.546472 8.487216 5.069511
User4 6.202362 1.341177 2.609368 7.755390 9.160558 8.974072
User5 1.134012 1.772043 0.634183 3.741076 9.297663 3.924277
User6 0.488006 4.060344 1.116192 4.625140 9.264144 1.199519
User7 2.820735 0.898690 0.560579 2.215827 8.604731 7.889819
User8 0.244587 1.062029 0.360087 1.069786 7.698551 1.286932
User9 1.337930 8.537857 9.329366 9.123328 3.074733 0.774436
我們可以看到,機器通過神經(jīng)網(wǎng)絡(luò)的“學習”,直接“猜出來”所有用戶未播放視頻的完播程度。那么,我們只需要給這些用戶推薦他未看的,但是機器“猜”他完播高的視頻即可。
總結(jié)
我們可以看到,整個流程簡單的令人發(fā)指,深度學習框架Tensorflow幫我們做了大部分的工作,我們其實只是簡單的提供了基礎(chǔ)數(shù)據(jù)而已。
首先定義一個embedding (多維空間) 用來理解需要學習的原始數(shù)據(jù) :
一個用戶對象(含一個屬性userId)
一個視頻對象(含三個屬性:videoId, userId, rating (完播向量))
這里需要進行學習的具體就是讓機器理解那個“完播向量:rating”的含義)這里定義的embedding 維度為64, 本質(zhì)就是讓機器把完播向量rating 的值當作成一個64維度的空間來進行理解(其實就是從這個rating值當中提取出64個特征來重新定義這個rating)
隨后對embedding 進行降維處理:
具體的操作與使用的降維函數(shù)曲線有關(guān),這里采用的是先降為32維再降為1維的兩道操作方式,原來的代表rating 的embedding 空間從64維降低到了1維。而此時的輸出output 對象就是機器對rating完播向量所做出來的“自己的理解”。
最后通過對學習完的輸出項output 進行mask(遮罩)測試,通過變換不同的mask(遮罩)來測試結(jié)果是否與原始數(shù)據(jù)相近,或一致,從而來證實機器學習的效果,也就是上文提到的反向傳播方式的逆運算。
結(jié)語
可能依然有朋友對這套系統(tǒng)的底層不太了解,那么,如果我們用“白話文”的形式進行解釋:比如有一幅油畫,油畫相比完播量,肯定是多維度的,因為畫里面有顏色、風格、解析度、對比度、飽和度等等特征參數(shù),此時我們讓機器先看完整的這幅畫,然后用機器學習的方式讓它學習(即embedding方式),接著把這幅畫遮掉一部分與主題無關(guān)的部分,然后再測試機器讓它用學習到的數(shù)據(jù)(即embedding完成降維處理之后的數(shù)據(jù))去嘗試復(fù)原整幅畫,隨后對比復(fù)原的整幅畫和原始油畫有多大差別,如果差別沒有或者很小,則證明機器學習成功了,機器確實學會了這副畫,然后就讓機器按照這套邏輯去畫類似的畫,最后把這一“類”的畫推薦給沒有鑒賞過的用戶,從而完成推薦系統(tǒng),就這么簡單。
最后,奉上視頻推薦系統(tǒng)項目代碼,與眾鄉(xiāng)親同饗:github.com/zcxey2911/NeuralCollaborativeFiltering_NCF_Tensorflow