Av福利网址,国产不卡四区,加勒比久草31在线

一、推薦的技術(shù)方法

推薦系統(tǒng)簡單來說就是，高效地達(dá)成用戶與意向?qū)ο蟮钠ヅ?。具體可見之前文章：【一窺推薦系統(tǒng)的原理】。而技術(shù)上實(shí)現(xiàn)兩者匹配，簡單來說有兩類方法：

1.1 基于分類方法

分類的方法很好理解，預(yù)測用戶對該類別是否有偏好。

可以訓(xùn)練一個(gè)意向物品的多分類模型，預(yù)測用戶偏好那一類物品。
或者將用戶+物品等全方面特征作為拼接訓(xùn)練二分類模型，預(yù)測為是否偏好（如下經(jīng)典的CTR模型，以用戶物品特征及對應(yīng)的標(biāo)簽 0或 1 構(gòu)建分類模型，預(yù)測該用戶是否會點(diǎn)擊這物品，）。

基于分類的方法，精度較高，常用于推薦的排序階段（如粗排、精排）。

1.2 基于相似度方法

利用計(jì)算物與物或人與人、人與物的距離，將物品推薦給喜好相似的人。

如關(guān)聯(lián)規(guī)則推薦，可以將物與物共現(xiàn)度看做為某種的相似度；
協(xié)同過濾算法可以基于物品或者基于用戶計(jì)算相似用戶或物品；
以及本文談到的雙塔模型，是通過計(jì)算物品與用戶之間的相似度距離并做推薦。

利用相似度的方法效率快、準(zhǔn)確度差一些常用于推薦中的粗排、召回階段。

2. DSSM雙塔模型

2.1 DSSM模型的原理

DSSM(Deep Structured Semantic Models)也叫深度語義匹配模型，最早是微軟發(fā)表的一篇應(yīng)用于NLP領(lǐng)域中計(jì)算語義相似度任務(wù)的文章。

DSSM深度語義匹配模型原理很簡單：獲取搜索引擎中的用戶搜索query和doc的海量曝光和點(diǎn)擊日志數(shù)據(jù)，訓(xùn)練階段分別用復(fù)雜的深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建query側(cè)特征的query embedding和doc側(cè)特征的doc embedding，線上infer時(shí)通過計(jì)算兩個(gè)語義向量的cos距離來表示語義相似度，最終獲得語義相似模型。這個(gè)模型既可以獲得語句的低維語義向量表達(dá)sentence embedding，還可以預(yù)測兩句話的語義相似度。

2.2 DSSM模型結(jié)構(gòu)

DSSM模型總的來說可以分成三層結(jié)構(gòu)，分別是輸入層、表示層和匹配層。

輸入層將用戶、物品的信息轉(zhuǎn)化為數(shù)值特征輸入；
表示層進(jìn)一步用神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)特征表示；
匹配層計(jì)算用戶特征向量與物品特征向量的相似度；

結(jié)構(gòu)如下圖所示：

3.雙塔模型代碼實(shí)踐

讀取電影數(shù)據(jù)集（用戶信息、電影信息、評分行為信息），數(shù)據(jù)格式處理、特征序列編碼、數(shù)據(jù)拼接,并做評分的歸一化處理作為模型學(xué)習(xí)的相似度目標(biāo)（注：這里也可以另一個(gè)思路對評分做閾值劃分，按照一個(gè)分類任務(wù)來解決）

import pandas as pd
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import matplotlib.pyplot as plt

# ### 1. 讀取電影數(shù)據(jù)集（用戶信息、電影信息、評分行為信息）

df_user = pd.read_csv("./ml-1m/users.dat",
                     sep="::", header=None, engine="python",encoding='iso-8859-1',
                     names = "UserID::Gender::Age::Occupation::Zip-code".split("::"))

df_movie = pd.read_csv("./ml-1m/movies.dat",
                     sep="::", header=None, engine="python",encoding='iso-8859-1',
                     names = "MovieID::Title::Genres".split("::"))

df_rating = pd.read_csv("./ml-1m/ratings.dat",
                     sep="::", header=None, engine="python",encoding='iso-8859-1',
                     names = "UserID::MovieID::Rating::Timestamp".split("::"))



import collections

# 計(jì)算電影中每個(gè)題材的次數(shù)
genre_count = collections.defaultdict(int)
for genres in df_movie["Genres"].str.split("|"):
    for genre in genres:
        genre_count[genre] += 1
genre_count


# # 每個(gè)電影只保留頻率最高（代表性）的電影題材標(biāo)簽
def get_highrate_genre(x):
    sub_values = {}
    for genre in x.split("|"):
        sub_values[genre] = genre_count[genre]
    return sorted(sub_values.items(), key=lambda x:x[1], reverse=True)[0][0]

df_movie["Genres"] = df_movie["Genres"].map(get_highrate_genre)
df_movie.head()


# #### 給特征列做序列編碼
def add_index_column(param_df, column_name):
    values = list(param_df[column_name].unique())
    value_index_dict = {value:idx for idx,value in enumerate(values)}
    param_df[f"{column_name}_idx"] = param_df[column_name].map(value_index_dict)


add_index_column(df_user, "UserID")
add_index_column(df_user, "Gender")
add_index_column(df_user, "Age")
add_index_column(df_user, "Occupation")
add_index_column(df_movie, "MovieID")
add_index_column(df_movie, "Genres")

# 合并成一個(gè)df
df = pd.merge(pd.merge(df_rating, df_user), df_movie)
df.drop(columns=["Timestamp", "Zip-code", "Title"], inplace=True)

num_users = df["UserID_idx"].max() + 1
num_movies = df["MovieID_idx"].max() + 1
num_genders = df["Gender_idx"].max() + 1
num_ages = df["Age_idx"].max() + 1
num_occupations = df["Occupation_idx"].max() + 1
num_genres = df["Genres_idx"].max() + 1

num_users, num_movies, num_genders, num_ages, num_occupations, num_genres


# #### 評分的歸一化

min_rating = df["Rating"].min()
max_rating = df["Rating"].max()

df["Rating"] = df["Rating"].map(lambda x : (x-min_rating)/(max_rating-min_rating)) # 評分作為兩者的相似度
# df["is_rating_high"] = (df["Rating"]>=4).astype(int)  # 可生成是否高評分作為分類模型的類別標(biāo)簽
df.sample(frac=1).head(3)
# 構(gòu)建訓(xùn)練集特征及標(biāo)簽
df_sample = df.sample(frac=0.1)  # 訓(xùn)練集抽樣
X = df_sample[["UserID_idx","Gender_idx","Age_idx","Occupation_idx","MovieID_idx","Genres_idx"]]
y = df_sample["Rating"]

構(gòu)建雙塔模型，訓(xùn)練預(yù)測用戶/產(chǎn)品間的相似度。進(jìn)一步可以提取用戶、產(chǎn)品的特征表示方便后續(xù)直接結(jié)算相似度。

def get_model():
    """搭建雙塔DNN模型"""
    
    # 輸入
    user_id = keras.layers.Input(shape=(1,), name="user_id")
    gender = keras.layers.Input(shape=(1,), name="gender")
    age = keras.layers.Input(shape=(1,), name="age")
    occupation = keras.layers.Input(shape=(1,), name="occupation")
    movie_id = keras.layers.Input(shape=(1,), name="movie_id")
    genre = keras.layers.Input(shape=(1,), name="genre")
    
    # user 塔
    user_vector = tf.keras.layers.concatenate([
            layers.Embedding(num_users, 100)(user_id), 
            layers.Embedding(num_genders, 2)(gender), 
            layers.Embedding(num_ages, 2)(age), 
            layers.Embedding(num_occupations, 2)(occupation)
    ])
    user_vector = layers.Dense(32, activation='relu')(user_vector)
    user_vector = layers.Dense(8, activation='relu', 
                               name="user_embedding", kernel_regularizer='l2')(user_vector)

    # item 塔
    movie_vector = tf.keras.layers.concatenate([
        layers.Embedding(num_movies, 100)(movie_id),
        layers.Embedding(num_genres, 2)(genre)
    ])
    movie_vector = layers.Dense(32, activation='relu')(movie_vector)
    movie_vector = layers.Dense(8, activation='relu', 
                                name="movie_embedding", kernel_regularizer='l2')(movie_vector)

    # 每個(gè)用戶的embedding和item的embedding作點(diǎn)積
    dot_user_movie = tf.reduce_sum(user_vector*movie_vector, axis = 1)
    dot_user_movie = tf.expand_dims(dot_user_movie, 1)

    output = layers.Dense(1, activation='sigmoid')(dot_user_movie)
    
    return keras.models.Model(inputs=[user_id, gender, age, occupation, movie_id, genre], outputs=[output]) 

model = get_model()
model.compile(loss=tf.keras.losses.MeanSquaredError(), 
              optimizer=keras.optimizers.RMSprop())
fit_x_train = [
        X["UserID_idx"], 
        X["Gender_idx"],
        X["Age_idx"],
        X["Occupation_idx"],
        X["MovieID_idx"],
        X["Genres_idx"]
    ]


history = model.fit(
    x=fit_x_train,
    y=y,
    batch_size=32,
    epochs=5,
    verbose=1
)


# ### 3. 模型的預(yù)估-predict
# 輸入前5個(gè)樣本并做預(yù)測

inputs = df[["UserID_idx","Gender_idx","Age_idx","Occupation_idx","MovieID_idx", "Genres_idx"]].head(5)
display(df.head(5))

# 對于（用戶ID，召回的電影ID列表），計(jì)算相似度分?jǐn)?shù)
model.predict([
        inputs["UserID_idx"], 
        inputs["Gender_idx"],
        inputs["Age_idx"],
        inputs["Occupation_idx"],
        inputs["MovieID_idx"],
        inputs["Genres_idx"]
    ])

# 可以提取模型中的user或movie item 的embedding
user_layer_model = keras.models.Model(
    inputs=[model.input[0], model.input[1], model.input[2], model.input[3]],
    outputs=model.get_layer("user_embedding").output
)

user_embeddings = []
for index, row in df_user.iterrows():
    user_id = row["UserID"]
    user_input = [
        np.reshape(row["UserID_idx"], [1,1]),
        np.reshape(row["Gender_idx"], [1,1]),
        np.reshape(row["Age_idx"], [1,1]),
        np.reshape(row["Occupation_idx"], [1,1])
    ]
    user_embedding = user_layer_model(user_input)
    
    embedding_str = ",".join([str(x) for x in user_embedding.numpy().flatten()])
    user_embeddings.append([user_id, embedding_str])
df_user_embedding = pd.DataFrame(user_embeddings, columns = ["user_id", "user_embedding"])
df_user_embedding.head()

輸入前5個(gè)樣本并做預(yù)測，計(jì)算用戶與電影之間的相似度匹配的分?jǐn)?shù), 進(jìn)一步就可以推薦給用戶匹配度高的電影。

(END)

文章首發(fā)公眾號“算法進(jìn)階”，公眾號閱讀原文可訪問文章相關(guān)數(shù)據(jù)代碼及資料

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

電影推薦項(xiàng)目實(shí)戰(zhàn)（雙塔模型）

電影推薦項(xiàng)目實(shí)戰(zhàn)（雙塔模型）

一、推薦的技術(shù)方法

1.1 基于分類方法

1.2 基于相似度方法

2. DSSM雙塔模型

2.1 DSSM模型的原理

2.2 DSSM模型結(jié)構(gòu)

3.雙塔模型代碼實(shí)踐

(END)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

電影推薦項(xiàng)目實(shí)戰(zhàn)（雙塔模型）

一、推薦的技術(shù)方法

1.1 基于分類方法

1.2 基于相似度方法

2. DSSM雙塔模型

2.1 DSSM模型的原理

2.2 DSSM模型結(jié)構(gòu)

3.雙塔模型代碼實(shí)踐

(END)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、推薦的技術(shù)方法