人妻无码中文久久字幕,中出人妻视频一区二区,国产日韩一区二区午夜

毋庸諱言，和傳統(tǒng)架構(gòu)(BS開發(fā)/CS開發(fā))相比，人工智能技術(shù)確實有一定的基礎(chǔ)門檻，它注定不是大眾化，普適化的東西。但也不能否認，人工智能技術(shù)也具備像傳統(tǒng)架構(gòu)一樣“套路化”的流程，也就是說，我們大可不必自己手動構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的機器學習系統(tǒng)，直接使用深度學習框架反而更加簡單，深度學習可以幫助我們自動地從原始數(shù)據(jù)中提取特征，不需要手動選擇和提取特征。

之前我們手動構(gòu)建了一個小型的神經(jīng)網(wǎng)絡(luò)，解決了機器學習的分類問題，本次我們利用深度學習框架Tensorflow2.11構(gòu)建一套基于神經(jīng)網(wǎng)絡(luò)協(xié)同過濾模型(NCF)的視頻推薦系統(tǒng)，解決預(yù)測問題，完成一個真正可以落地的項目。

基于稀疏矩陣的視頻完播數(shù)據(jù)

首先構(gòu)造我們的數(shù)據(jù)矩陣test.csv文件：

User,Video 1,Video 2,Video 3,Video 4,Video 5,Video 6  
User1,10,3,,,,  
User2,,10,,10,5,1  
User3,,,9,,,  
User4,6,1,,8,,9  
User5,1,,1,,10,4  
User6,1,4,1,,10,1  
User7,,2,1,2,,8  
User8,,,,1,,  
User9,1,,10,,3,1

這里橫軸是視頻數(shù)據(jù)，縱軸是用戶，對應(yīng)的數(shù)據(jù)是用戶對于視頻的完播程度，10代表看完了，1則代表只看了百分之十，留空的代表沒有看。

編寫ncf.py腳本，將數(shù)據(jù)讀入內(nèi)存并輸出：

import pandas as pd  
# set pandas to show all columns without truncation and line breaks  
pd.set_option('display.max_columns', 1000)  
pd.set_option('display.width', 1000)  
  
# data = np.loadtxt('data/test-data.csv', delimiter=',', dtype=int, skiprows=1,)  
data = pd.read_csv('data/test-data.csv')  
print(data)

程序返回：

User  Video 1  Video 2  Video 3  Video 4  Video 5  Video 6  
0  User1     10.0      3.0      NaN      NaN      NaN      NaN  
1  User2      NaN     10.0      NaN     10.0      5.0      1.0  
2  User3      NaN      NaN      9.0      NaN      NaN      NaN  
3  User4      6.0      1.0      NaN      8.0      NaN      9.0  
4  User5      1.0      NaN      1.0      NaN     10.0      4.0  
5  User6      1.0      4.0      1.0      NaN     10.0      1.0  
6  User7      NaN      2.0      1.0      2.0      NaN      8.0  
7  User8      NaN      NaN      NaN      1.0      NaN      NaN  
8  User9      1.0      NaN     10.0      NaN      3.0      1.0

一目了然。

有數(shù)據(jù)的列代表用戶看過，1-10代表看了之后的完播程度，如果沒看過就是NAN，現(xiàn)在我們的目的就是“猜”出來這些沒看過的視頻的完播數(shù)據(jù)是多少？從而根據(jù)完播數(shù)據(jù)完成視頻推薦系統(tǒng)。

矩陣拆解算法

有一種推薦算法是基于矩陣拆解，通過假設(shè)的因素去“猜”稀疏矩陣的空缺數(shù)據(jù)，猜出來之后，再通過反向傳播的逆運算來反推稀疏矩陣已存在的數(shù)據(jù)是否正確，從而判斷“猜”出來的數(shù)據(jù)是否正確：

[圖片上傳失敗...(image-9a88e8-1680135441449)]

通俗地講，跟算命差不多，但是基于數(shù)學原理，如果通過反推證明針對一個人的算命策略都是對的，那么就把這套流程應(yīng)用到其他人身上。

但是這套邏輯過于線性，也就是因素過于單一，比如我喜歡黑色的汽車，那么就會給我推所有黑色的東西，其實可能黑色的因素僅局限于汽車，是多重因素疊加導致的，所以矩陣拆解并不是一個非常好的解決方案。

基于神經(jīng)網(wǎng)絡(luò)

使用神經(jīng)網(wǎng)絡(luò)計算，必須將數(shù)據(jù)進行向量化操作：

# reset the column.index to be numeric  
user_index = data[data.columns[0]]  
book_index = data.columns  
data = data.reset_index(drop=True)  
data[data.columns[0]] = data.index.astype('int')  
# print(data)  
# print(data)  
scaler = 10  
  
# data = pd.DataFrame(data.to_numpy(), index=range(0,len(user_index)), columns=range(0,len(book_index)))  
df_long = pd.melt(data, id_vars=[data.columns[0]],   
                  ignore_index=True,   
                  var_name='video_id',   
                  value_name='rate').dropna()  
df_long.columns = ['user_id', 'video_id', 'rating']  
df_long['rating'] = df_long['rating'] / scaler  
# replace the user_id to user by match user_index  
df_long['user_id'] = df_long['user_id'].apply(lambda x: user_index[x])  
# data = df_long.to_numpy()  
  
print(df_long)

程序返回：

user_id video_id  rating  
0    User1  Video 1     1.0  
3    User4  Video 1     0.6  
4    User5  Video 1     0.1  
5    User6  Video 1     0.1  
8    User9  Video 1     0.1  
9    User1  Video 2     0.3  
10   User2  Video 2     1.0  
12   User4  Video 2     0.1  
14   User6  Video 2     0.4  
15   User7  Video 2     0.2  
20   User3  Video 3     0.9  
22   User5  Video 3     0.1  
23   User6  Video 3     0.1  
24   User7  Video 3     0.1  
26   User9  Video 3     1.0  
28   User2  Video 4     1.0  
30   User4  Video 4     0.8  
33   User7  Video 4     0.2  
34   User8  Video 4     0.1  
37   User2  Video 5     0.5  
40   User5  Video 5     1.0  
41   User6  Video 5     1.0  
44   User9  Video 5     0.3  
46   User2  Video 6     0.1  
48   User4  Video 6     0.9  
49   User5  Video 6     0.4  
50   User6  Video 6     0.1  
51   User7  Video 6     0.8  
53   User9  Video 6     0.1

這里scaler=10作為數(shù)據(jù)范圍的閾值，讓計算機將完播數(shù)據(jù)散列成0-1之間的浮點數(shù)，便于神經(jīng)網(wǎng)絡(luò)進行計算。

隨后安裝Tensorflow框架：

pip3 install tensorflow

如果是Mac用戶，請安裝mac版本：

pip3 install tensorflow-macos

接著針對數(shù)據(jù)進行打標簽操作：

import numpy as np  
import pandas as pd  
import tensorflow as tf  
from sklearn.model_selection import train_test_split  
from sklearn.preprocessing import LabelEncoder  
  
# dataset = pd.read_csv(url, compression='zip', usecols=['userId', 'movieId', 'rating'])  
dataset = df_long  
# Encode the user and video IDs  
user_encoder = LabelEncoder()  
video_encoder = LabelEncoder()  
dataset['user_id'] = user_encoder.fit_transform(dataset['user_id'])  
dataset['video_id'] = video_encoder.fit_transform(dataset['video_id'])  
  
# Split the dataset into train and test sets  
# train, test = train_test_split(dataset, test_size=0.2, random_state=42)  
train = dataset  
  
# Model hyperparameters  
num_users = len(dataset['user_id'].unique())  
num_countries = len(dataset['video_id'].unique())

隨后定義64個維度針對向量進行處理：



embedding_dim = 64  
  
# Create the NCF model  
inputs_user = tf.keras.layers.Input(shape=(1,))  
inputs_video = tf.keras.layers.Input(shape=(1,))  
embedding_user = tf.keras.layers.Embedding(num_users, embedding_dim)(inputs_user)  
embedding_video = tf.keras.layers.Embedding(num_countries, embedding_dim)(inputs_video)  
  
# Merge the embeddings using concatenation, you can also try other merging methods like dot product or multiplication  
merged = tf.keras.layers.Concatenate()([embedding_user, embedding_video])  
merged = tf.keras.layers.Flatten()(merged)  
  
# Add fully connected layers  
dense = tf.keras.layers.Dense(64, activation='relu')(merged)  
dense = tf.keras.layers.Dense(32, activation='relu')(dense)  
output = tf.keras.layers.Dense(1, activation='sigmoid')(dense)  
  
# Compile the model  
model = tf.keras.Model(inputs=[inputs_user, inputs_video], outputs=output)  
model.compile(optimizer='adam', loss='mse', metrics=['mae'])

這里定義了一個64維度的 embedding 類用來對向量進行處理。相當于就是把屬于數(shù)據(jù)當中的所有特征都設(shè)定成一個可以用一個64維向量標識的東西，然后通過降維處理之后使得機器能以一個低維的數(shù)據(jù)流形來“理解”高維的原始數(shù)據(jù)的方式來“理解”數(shù)據(jù)的“含義”，

從而實現(xiàn)機器學習的目的。而為了檢驗機器學習的成果（即機器是否有真正理解特征的含義），則使用mask(遮罩)的方式，將原始數(shù)據(jù)當中的一部分無關(guān)核心的內(nèi)容“遮掉”，然后再嘗試進行輸入輸出操作，如果輸入輸出操作的結(jié)果與沒有遮罩的結(jié)果進行比較后足夠相近，或者完全相同，則判定機器有成功學習理解到向量的含義。

這里需要注意的是，因為embedding 這個詞其實是有一定程度的誤用的關(guān)系，所以不要嘗試用原來的語義去理解這個詞，通俗地講，可以把它理解為“特征（feature）”，即從原始數(shù)據(jù)中提取出來的一系列的特征屬性，至于具體是什么特征，不重要。

這里有64個維度，那就可以認為是從輸入的原始數(shù)據(jù)當中提取64個“特征”，然后用這個特征模型去套用所有的輸入的原始數(shù)據(jù)，然后再將這些數(shù)據(jù)通過降維轉(zhuǎn)換，最終把每一個輸入的向量轉(zhuǎn)換成一個1維的特殊字符串，然后讓機器實現(xiàn)“理解復(fù)雜的輸入”的目的，而那個所謂的訓練過程，其實也就是不斷地用遮罩mask去遮掉非核心的數(shù)據(jù)，然后對比輸出結(jié)果，來看機器是否成功實現(xiàn)了學習的目的。

說白了，和矩陣拆解差不多，只不過矩陣拆解是線性單維度，而神經(jīng)網(wǎng)絡(luò)是非線性多維度。

最后進行訓練和輸出：

model.fit(  
    [train['user_id'].values, train['video_id'].values],  
    train['rating'].values,  
    batch_size=64,  
    epochs=100,  
    verbose=0,  
    # validation_split=0.1,  
)  
  
result_df = {}  
for user_i in range(1, 10):  
  user = f'User{user_i}'  
  result_df[user] = {}  
  for video_i in range(1, 7):      
    video = f'Video {video_i}'  
    pred_user_id = user_encoder.transform([user])  
    pred_video_id = video_encoder.transform([video])  
    result = model.predict(x=[pred_user_id, pred_video_id], verbose=0)  
    result_df[user][video] = result[0][0]  
result_df = pd.DataFrame(result_df).T  
result_df *= scaler  
  
print(result_df)

程序返回：

Video 1   Video 2   Video 3   Video 4   Video 5   Video 6  
User1  9.143433  3.122697  5.831852  8.930688  9.223139  9.148163  
User2  2.379406  9.317654  9.280337  9.586231  5.115635  0.710877  
User3  6.046935  8.950342  9.335093  9.546472  8.487216  5.069511  
User4  6.202362  1.341177  2.609368  7.755390  9.160558  8.974072  
User5  1.134012  1.772043  0.634183  3.741076  9.297663  3.924277  
User6  0.488006  4.060344  1.116192  4.625140  9.264144  1.199519  
User7  2.820735  0.898690  0.560579  2.215827  8.604731  7.889819  
User8  0.244587  1.062029  0.360087  1.069786  7.698551  1.286932  
User9  1.337930  8.537857  9.329366  9.123328  3.074733  0.774436

我們可以看到，機器通過神經(jīng)網(wǎng)絡(luò)的“學習”，直接“猜出來”所有用戶未播放視頻的完播程度。那么，我們只需要給這些用戶推薦他未看的，但是機器“猜”他完播高的視頻即可。

總結(jié)

我們可以看到，整個流程簡單的令人發(fā)指，深度學習框架Tensorflow幫我們做了大部分的工作，我們其實只是簡單的提供了基礎(chǔ)數(shù)據(jù)而已。

首先定義一個embedding (多維空間) 用來理解需要學習的原始數(shù)據(jù) ：

一個用戶對象（含一個屬性userId）

一個視頻對象（含三個屬性：videoId, userId, rating (完播向量)）

這里需要進行學習的具體就是讓機器理解那個“完播向量：rating”的含義）這里定義的embedding 維度為64, 本質(zhì)就是讓機器把完播向量rating 的值當作成一個64維度的空間來進行理解（其實就是從這個rating值當中提取出64個特征來重新定義這個rating）

隨后對embedding 進行降維處理：

具體的操作與使用的降維函數(shù)曲線有關(guān)，這里采用的是先降為32維再降為1維的兩道操作方式，原來的代表rating 的embedding 空間從64維降低到了1維。而此時的輸出output 對象就是機器對rating完播向量所做出來的“自己的理解”。

最后通過對學習完的輸出項output 進行mask（遮罩）測試，通過變換不同的mask（遮罩）來測試結(jié)果是否與原始數(shù)據(jù)相近，或一致，從而來證實機器學習的效果，也就是上文提到的反向傳播方式的逆運算。

結(jié)語

可能依然有朋友對這套系統(tǒng)的底層不太了解，那么，如果我們用“白話文”的形式進行解釋：比如有一幅油畫，油畫相比完播量，肯定是多維度的，因為畫里面有顏色、風格、解析度、對比度、飽和度等等特征參數(shù)，此時我們讓機器先看完整的這幅畫，然后用機器學習的方式讓它學習（即embedding方式），接著把這幅畫遮掉一部分與主題無關(guān)的部分，然后再測試機器讓它用學習到的數(shù)據(jù)（即embedding完成降維處理之后的數(shù)據(jù)）去嘗試復(fù)原整幅畫，隨后對比復(fù)原的整幅畫和原始油畫有多大差別，如果差別沒有或者很小，則證明機器學習成功了，機器確實學會了這副畫，然后就讓機器按照這套邏輯去畫類似的畫，最后把這一“類”的畫推薦給沒有鑒賞過的用戶，從而完成推薦系統(tǒng)，就這么簡單。

最后，奉上視頻推薦系統(tǒng)項目代碼，與眾鄉(xiāng)親同饗：github.com/zcxey2911/NeuralCollaborativeFiltering_NCF_Tensorflow

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

構(gòu)建基于深度學習神經(jīng)網(wǎng)絡(luò)協(xié)同過濾模型(NCF)的視頻推薦系統(tǒng)(Python3.10/Tensorflow2.11)

構(gòu)建基于深度學習神經(jīng)網(wǎng)絡(luò)協(xié)同過濾模型(NCF)的視頻推薦系統(tǒng)(Python3.10/Tensorflow2.11)

推薦系統(tǒng)發(fā)展歷程

基于稀疏矩陣的視頻完播數(shù)據(jù)

矩陣拆解算法

基于神經(jīng)網(wǎng)絡(luò)

總結(jié)

結(jié)語

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

構(gòu)建基于深度學習神經(jīng)網(wǎng)絡(luò)協(xié)同過濾模型(NCF)的視頻推薦系統(tǒng)(Python3.10/Tensorflow2.11)

推薦系統(tǒng)發(fā)展歷程

基于稀疏矩陣的視頻完播數(shù)據(jù)

矩陣拆解算法

基于神經(jīng)網(wǎng)絡(luò)

總結(jié)

結(jié)語

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av